如何在Java项目中利用余弦方法实现一个相似度计算算法

  介绍

本篇文章给大家分享的是有关如何在Java项目中利用余弦方法实现一个相似度计算算法,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

<强>(1)余弦相似性

通过测量两个向量之间的角的余弦值来度量它们之间的相似性0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向,所以,它通常用于文件比较。

相关介绍可参考百度百科:余弦相似性

<强>(2)算法实现的中未使用权重(IDF - - -逆文档频率),使用词项的出现次数作为向量空间的值。

import  java.util.HashMap;   import  java.util.Iterator;   import  java.util.Map;   public  class  SimilarDegreeByCos   {   ,/*   ,,*,计算两个字符串(英文字符)的相似度,简单的余弦计算,未添权重   ,,*/,,public  static  double  getSimilarDegree (String  str1, String  str2)   ,,{   ,,,//创建向量空间模型,使用地图实现,主键为词项,值为长度为2的数组,存放着对应词项在字符串中的出现次数   ,,,,Map<字符串,int[]祝辞,vectorSpace =, new  HashMap<字符串,int[]祝辞();   ,,,,int [], itemCountArray =,零;//为了避免频繁产生局部变量,所以将itemCountArray声明在此   ,,,,//以空格为分隔符,分解字符串   ,,,,String  strArray [],=, str1.split (“,“);   ,,,,,(int  i=0, i如何在Java项目中利用余弦方法实现一个相似度计算算法