jieba库如何在Python中使用 - 行业资讯 - 肥雀云

　　介绍

本篇文章为大家展示了jieba库如何在Python中使用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

<强> 1,jieba库基本介绍

(1) jieba库概述

jieba是优秀的中文分词第三方库

<李>

——中文文本需要通过分词获得单个的词语

<李>

——jieba是优秀的中文分词第三方库,需要额外安装

<李>

——jieba库提供三种分词模式,最简单只需掌握一个函数

(2), jieba分词的原理

jieba分词依靠中文词库

——利用一个中文词库,确定汉字之间的关联概率
-汉字间概率大的组成词组,形成分词结果

——除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1) jieba分词的三种模式

精确模式,全模式,搜索引擎模式

<李>

——精确模式:把文本精确的切分开,不存在冗余单词

<李>

——全模式:把文本中所有可能的词语都扫描出来,有冗余

<李>

——搜索引擎模式:在精确模式基础上,对长词再次切分

(2), jieba库常用函数

jieba库如何在Python中使用“> <强> 2。jieba应用实例</强> <img src= import jieba 　　　　时间=txt 开放(“D: \ \三国演义.txt",,“r",,编码=& # 39;utf - 8 # 39;) .read () 　　时间=words jieba.lcut (txt),,, #,使用精确模式对文本进行分词　　counts =,{},,, #,通过键值对的形式存储词语及其出现的次数　　　　for word 拷贝的话: 　　if 才能len(词),==,1:,,#,单个词语不计算在内　　,才能继续　　其他的才能: 　　,,,重要的[词],=,counts.get(单词,,0),+,1,,#,遍历所有词语,每出现一次其对应的值加,1 　　,,,, 　　时间=items 列表(counts.items()) #将键值对转换成列的表　　items.sort(关键=lambda x, x[1],反向=True),, #,根据词语出现的次数进行从大到小排的序　　　　for 小姐:拷贝范围(15): 　　词,才能,count =,项目[我] 　　打印才能(“{0:& lt; 5}{1:在5}“.format(词,,计数))

jieba库如何在Python中使用“> <p class= 上述内容就是jieba库如何在Python中使用,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。