介绍
小编给大家分享一下python中提取关键词的方法,希望大家阅读完这篇文章后大所收获、下面让我们一起去探讨吧!
<强>简单的关键词提取强>
文章内容关键词的提取分为三大步:,
(1)分词,
(2)去停用词,
(3)关键词提取
分词方法有很多,我这里就选择常用的结巴jieba分词、去停用的词,我用了一个停用词表。具体代码如下:
import jieba import jieba.analyse #第一步:分词,这里使用结巴分词全模式 时间=text & # 39; & # 39; & # 39;新闻,也叫消息,是指报纸,电台,电视台,互联网经常使用的记录社会、传播信息,反映时代的一种文体,\ 具有真实性,时效性,简洁性,可读性,准确性的特点。\ 新闻概念有广义与狭义之分。\ 就其广义而言,除了发表于报刊,广播,电视上的评论与专文外的常用文本都属于新闻之列,包括消息,通讯,特写,速写 (有的将速写纳入特写之列)等等。\ 狭义的新闻则专指消息,消息是用概括的叙述方式,比较简明扼要的文字,迅速及时地报道国内外新近发生的,有价值的的事\实 新闻也分公众新闻和小道新闻等。每则新闻在结构上,一般包括标题,导语,主体,背景和结语五部分。\ 前三者是主要部分,后二者是辅助部分。写法上主要是叙述,有时兼有议论,描写,评论等。 & # 39;& # 39;& # 39; 时间=fenci_text jieba.cut(文本) #打印(“/,,. join (fenci_text)) #第二步:去停用的词 #这里是有一个文件存放要改的文章,一个文件存放停用表,然后和停用表里的词比较,一样的就删掉,最后把结果存放在一个文件中 stopwords =, {} .fromkeys ([, line.rstrip (), for line 拷贝开放(& # 39;stopwords.txt& # 39;),)) final =,““ for word  fenci_text拷贝: ,,,if word not 拷贝stopwords: ,,,,,,,if (word !=,“干净,以及word !=,,,,),: ,,,,,,,,,,,final =, final +,“,“+,词 打印(最终) #第三步:提取关键词=jieba.analyse.extract_tags(文本,topK =, 5日,withWeight =,真的,,allowPOS =, ()) b=jieba.analyse.extract_tags(文本,topK =,,,,, allowPOS =, ()) print () 打印(b) # text 为待提取的文本 #,topK:返回几个,TF/IDF 权重最大的关键词,默认值为20。 #,withWeight:是否一并返回关键词权重值,默认值为假的。 #,allowPOS:仅包括指定词性的词,默认值为空,即不进行筛选。
运行结果如下:
新闻,也,叫,消息,是,指,报纸,,,电台,,,电视台,,,互联网,经常,使用,的,记录,社会,,,传播,信息,,,反映,时代,的,一种,文体, 具有,真实性,,,时效性,,,简洁性,,,可读性,,,准确性,的,特点,新闻,概念,有,广义,与,狭义,之分,就,其,广义,而言,除了,发表, 于,报刊,,,广播,,,电视,上,的,评论,与,专文,外,的,常用,文本,都,属于,新闻,之,列,包括,消息,,,通讯,,,特写,,,速写, (有大敌;的,将,速写,纳入,特写,之,列,),等等,狭义,的,新闻,则,专指,消息,消息,是,用,概括,的,叙述,方式,比较,简明扼要,的,文字, 迅速,及时,地,报道,国内外,新近,发生,的,,,有,价值,的,的,事实,新闻,也,分,公众,新闻,和,小道,新闻,等,每则,新闻,在结构上, 一般,包括,标题,,,导语,,,主体,,,背景,和,结语,五,部分,前,三者,是,主要,部分,后,二者,是,辅助,部分,写法,上,主要,是,叙述, 有时,兼有,议论,,,描写,,,评论,等, ((& # 39;新闻& # 39;,,0.4804811569680808),,(& # 39;速写& # 39;,,0.2121107125313131),,(& # 39;消息& # 39;,,0.20363211136040404),, (& # 39;特写& # 39;,,0.20023623445272729),,(& # 39;狭义& # 39;,,0.16168734917858588)] [& # 39;新闻& # 39;,,& # 39;速写& # 39;,,& # 39;消息& # 39;,,& # 39;特写& # 39;,,& # 39;狭义& # 39;,,& # 39;广义& # 39;]
看完了这篇文章,相信你对python中提取关键词的方法有了一定的了解,想了解更多相关知识,欢迎关注行业资讯频道,感谢各位的阅读!