<>强火花LDA实例强>
<强>一、准备数据强>
数据格式为:文档:抽样(长,向量),其中:长为文章ID、向量为文章分词后的词向量;
通过分词以及数据格式的转换,转换成抽样[(长,向量)]即可。
<强>二,建立模型强>
<代码类=" language-scala ">进口org.apache.spark.mllib.clustering._ val ldaOptimizer=new>案例类NewsParams ( 凯西:Int=100, maxIterations: Int=100, docConcentration:双=1, topicConcentration:双=1, stopWordFile:字符串=皕h_stopwords.txt”, modelPath:字符串=癓DAModel.14.100”, ldaJsonPath:字符串=發daModel.14.200.json”, vocabPath:字符串=皏ocab_info”) 代码>
<强>四,结果输出强>
topicsMatrix以及主题(词、主题))输出.mllib上的lda不是分布式的,目前只存储主题的信息,而不存储医生的信息,如果获取只能使用毫升中的lda或者通过以下代码实现。
<代码类=" language-scala "> val ldaModel=lda.run(文档) val distLDAModel=ldaModel.asInstanceOf [DistributedLDAModel] distLDAModel.topicDistributions 代码>