火花LDA实例 - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

<>强火花LDA实例

<强>一、准备数据

数据格式为:文档:抽样(长,向量),其中:长为文章ID、向量为文章分词后的词向量;

通过分词以及数据格式的转换,转换成抽样[(长,向量)]即可。

<强>二,建立模型

 <代码类=" language-scala ">进口org.apache.spark.mllib.clustering._
　　val ldaOptimizer=new>案例类NewsParams (
　　凯西:Int=100,
　　maxIterations: Int=100,
　　docConcentration:双=1,
　　topicConcentration:双=1,
　　stopWordFile:字符串=皕h_stopwords.txt”,
　　modelPath:字符串=癓DAModel.14.100”,
　　ldaJsonPath:字符串=發daModel.14.200.json”,
　　vocabPath:字符串=皏ocab_info”)

<强>四,结果输出

topicsMatrix以及主题(词、主题))输出.mllib上的lda不是分布式的,目前只存储主题的信息,而不存储医生的信息,如果获取只能使用毫升中的lda或者通过以下代码实现。

 <代码类=" language-scala "> val ldaModel=lda.run(文档)
　　val distLDAModel=ldaModel.asInstanceOf [DistributedLDAModel]
　　distLDAModel.topicDistributions