Python jieba中文分词与词频统计的操作案例 - 行业资讯 - 肥雀云

　　介绍

这篇文章给大家分享的是有关Python jieba中文分词与词频统计的操作案例的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

Python主要用来做什么

Python主要应用于:1,网络开发;2、数据科学研究;3,网络爬虫;4、嵌入式应用开发,5日游戏开发;6桌面应用开发。

直接看代码吧:

# ! python3 　　#,- *安康;编码:utf-8 - * - 　　import 操作系统,编解码器　　import jieba 　　得到collections import 计数器　　, 　　def get_words (txt):=,,seg_list jieba.cut (txt)=,c 计数器() 　　,for x seg_list拷贝: 　　if 才能len (x)在1,以及x !=, & # 39; \ r \ n # 39;: 　　,,c (x), +=1 　　,打印(& # 39;常用词频度统计结果& # 39;) 　　,for (k、v),拷贝c.most_common (100): 　　打印才能(& # 39;% s % s % s % d # 39;, %, (& # 39;, & # 39; * (5-len (k),, k, & # 39; * & # 39; * int (v/3), v)) 　　, 　　if __name__ ==, & # 39; __main__ # 39;: 　　,with codecs.open (& # 39; 19 d.txt& # 39;,, & # 39; " # 39;,, & # 39; use utf8 # 39;), as f: 　　时间=txt 才能;f.read () 　　之前,get_words (txt)

样本:十九大报告全文

常用词频度统计结果　　发才能展,* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *,212年　　中才能国,* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *,168年　　人才能民,* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *,157年　　,,建设,* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *,148年　　,社会主义,* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *,146年　　,,坚持,* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *,130年　　国才能家,* * * * * * * * * * * * * * * * * * * * * * * * * * * * * *,90年　　全才能面,* * * * * * * * * * * * * * * * * * * * * * * * * * * * *,88年　　制才能度,* * * * * * * * * * * * * * * * * * * * * * * * * * *,83年　　,,实现,* * * * * * * * * * * * * * * * * * * * * * * * * * *,83年　　推才能进,* * * * * * * * * * * * * * * * * * * * * * * * * * *,81年　　政才能治,* * * * * * * * * * * * * * * * * * * * * * * * * *,80年　　社才能会,* * * * * * * * * * * * * * * * * * * * * * * * * *,80年　　特才能色,* * * * * * * * * * * * * * * * * * * * * * * * * *,79年　　加才能强,* * * * * * * * * * * * * * * * * * * * * * *,71年　　体才能系,* * * * * * * * * * * * * * * * * * * * * *,68年　　文才能化,* * * * * * * * * * * * * * * * * * * * * *,66年　　我才能们,* * * * * * * * * * * * * * * * * * * * *,64年　　时才能代,* * * * * * * * * * * * * * * * * * * * *,63年　　,,必须,* * * * * * * * * * * * * * * * * * * *,61年　　,,经济,* * * * * * * * * * * * * * * * * * *,59 　　伟才能大,* * * * * * * * * * * * * * * * * * *,58岁　　完才能善,* * * * * * * * * * * * * * * * *,51 　　我才能国,* * * * * * * * * * * * * * * *,50 　　推才能动,* * * * * * * * * * * * * * *,47岁　　,现代化,* * * * * * * * * * * * * * *,47岁　　,,安全,* * * * * * * * * * * * * * *,46岁　　更才能加,* * * * * * * * * * * * * *,44岁　　民才能主,* * * * * * * * * * * * * *,44

<强>补充:jieba读取txt文档并进行分词,词频统计,输出词云图

代码实现

#,库的引用　　import jieba 　　import matplotlib as mpl 　　import matplotlib.pyplot as plt 　　得到wordcloud import WordCloud 　　#定义一个空字符串　　final =,““ 　　#文件夹位置　　时间=filename r" D: \ python \ pra \推荐系统1 - 500. - txt" 　　, 　　#打开文件夹,读取内容,并进行分词　　with 开放(文件名,& # 39;" # 39;,encoding =, & # 39; utf - 8 # 39;), as f: 　　for 才能;line 拷贝f.readlines (): 　　,,,word =, jieba.cut(线) 　　,,,for 小姐:拷贝词: 　　,,,,,final =, final +,小姐:+“,“以前

运行结果

Python jieba中文分词与词频统计的操作案例

#,图云打印　　时间=word_pic WordCloud (font_path =, " # 39; C: \ Windows \ \ simkai.ttf& # 39;字体,width =, 2000年,height =, 1000) .generate(最终) 　　plt.imshow (word_pic) 　　#去掉坐标轴　　plt.axis(& # 39;从# 39;) 　　#保存图片到相应文件夹　　python plt.savefig (" # 39; D: \ \ pra \ 6. png # 39;)