本篇文章为大家展示了jieba库如何在Python中使用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。
<强> 1,jieba库基本介绍强>
(1) jieba库概述
jieba是优秀的中文分词第三方库
- <李>
——中文文本需要通过分词获得单个的词语
李> <李>——jieba是优秀的中文分词第三方库,需要额外安装
李> <李>——jieba库提供三种分词模式,最简单只需掌握一个函数
李>(2), jieba分词的原理
jieba分词依靠中文词库
——利用一个中文词库,确定汉字之间的关联概率
-汉字间概率大的组成词组,形成分词结果
——除了分词,用户还可以添加自定义的词组
jieba库使用说明
(1) jieba分词的三种模式
精确模式,全模式,搜索引擎模式
- <李>
——精确模式:把文本精确的切分开,不存在冗余单词
李> <李>——全模式:把文本中所有可能的词语都扫描出来,有冗余
李> <李>——搜索引擎模式:在精确模式基础上,对长词再次切分
李>(2), jieba库常用函数
import jieba 时间=txt 开放(“D: \ \三国演义.txt",,“r",,编码=& # 39;utf - 8 # 39;) .read () 时间=words jieba.lcut (txt),,, #,使用精确模式对文本进行分词 counts =,{},,, #,通过键值对的形式存储词语及其出现的次数 for word 拷贝的话: if 才能len(词),==,1:,,#,单个词语不计算在内 ,才能继续 其他的才能: ,,,重要的[词],=,counts.get(单词,,0),+,1,,#,遍历所有词语,每出现一次其对应的值加,1 ,,,, 时间=items 列表(counts.items()) #将键值对转换成列的表 items.sort(关键=lambda x, x[1],反向=True),, #,根据词语出现的次数进行从大到小排的序 for 小姐:拷贝范围(15): 词,才能,count =,项目[我] 打印才能(“{0:& lt; 5}{1:在5}“.format(词,,计数))
上述内容就是jieba库如何在Python中使用,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。