jieba库如何在Python中使用

  介绍

本篇文章为大家展示了jieba库如何在Python中使用,内容简明扼要并且容易理解,绝对能使你眼前一亮,通过这篇文章的详细介绍希望你能有所收获。

<强> 1,jieba库基本介绍

(1) jieba库概述

jieba是优秀的中文分词第三方库

<李>

——中文文本需要通过分词获得单个的词语

<李>

——jieba是优秀的中文分词第三方库,需要额外安装

<李>

——jieba库提供三种分词模式,最简单只需掌握一个函数

(2), jieba分词的原理

jieba分词依靠中文词库

——利用一个中文词库,确定汉字之间的关联概率
-汉字间概率大的组成词组,形成分词结果

——除了分词,用户还可以添加自定义的词组

jieba库使用说明

(1) jieba分词的三种模式

精确模式,全模式,搜索引擎模式

<李>

——精确模式:把文本精确的切分开,不存在冗余单词

<李>

——全模式:把文本中所有可能的词语都扫描出来,有冗余

<李>

——搜索引擎模式:在精确模式基础上,对长词再次切分

(2), jieba库常用函数

 jieba库如何在Python中使用“> </p> <p> <强> 2。jieba应用实例</强> </p> <p> <img src= import  jieba      时间=txt 开放(“D: \ \三国演义.txt",,“r",,编码=& # 39;utf - 8 # 39;) .read ()   时间=words  jieba.lcut (txt),,, #,使用精确模式对文本进行分词   counts =,{},,, #,通过键值对的形式存储词语及其出现的次数      for  word 拷贝的话:   if 才能len(词),==,1:,,#,单个词语不计算在内   ,才能继续   其他的才能:   ,,,重要的[词],=,counts.get(单词,,0),+,1,,#,遍历所有词语,每出现一次其对应的值加,1   ,,,,   时间=items 列表(counts.items()) #将键值对转换成列的表   items.sort(关键=lambda  x, x[1],反向=True),, #,根据词语出现的次数进行从大到小排的序      for 小姐:拷贝范围(15):   词,才能,count =,项目[我]   打印才能(“{0:& lt; 5}{1:在5}“.format(词,,计数))

 jieba库如何在Python中使用“> </p> <p class=上述内容就是jieba库如何在Python中使用,你们学到知识或技能了吗?如果还想学到更多技能或者丰富自己的知识储备,欢迎关注行业资讯频道。

jieba库如何在Python中使用