火花LDA实例

  

<>强火花LDA实例

  

<强>一、准备数据

  

数据格式为:文档:抽样(长,向量),其中:长为文章ID、向量为文章分词后的词向量;

  

通过分词以及数据格式的转换,转换成抽样[(长,向量)]即可。

  

<强>二,建立模型

  
 <代码类=" language-scala ">进口org.apache.spark.mllib.clustering._
  val ldaOptimizer=new>案例类NewsParams (
  凯西:Int=100,
  maxIterations: Int=100,
  docConcentration:双=1,
  topicConcentration:双=1,
  stopWordFile:字符串=皕h_stopwords.txt”,
  modelPath:字符串=癓DAModel.14.100”,
  ldaJsonPath:字符串=發daModel.14.200.json”,
  vocabPath:字符串=皏ocab_info”)  
  

<强>四,结果输出

  

topicsMatrix以及主题(词、主题))输出.mllib上的lda不是分布式的,目前只存储主题的信息,而不存储医生的信息,如果获取只能使用毫升中的lda或者通过以下代码实现。

  
 <代码类=" language-scala "> val ldaModel=lda.run(文档)
  val distLDAModel=ldaModel.asInstanceOf [DistributedLDAModel]
  distLDAModel.topicDistributions  

火花LDA实例