怎么用Python分析红楼梦关键词

  介绍

这篇文章主要介绍”怎么用Python分析红楼梦关键词”,在日常操作中,相信很多人在怎么用Python分析红楼梦关键词问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答“怎么用Python分析红楼梦关键词”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

<节> <节> <节> <节> <节> <节> <节> <节> <节>

Python工具包准备

<节>

想要完成一个文本的分词,我们需要分词工具,而要将分词统计结果用词云图画出来,我们需要一个词云工具:


<节> <节> <节> <节> 0   ,,,1   ,,, <节> <节> <强>分词工具jieba   ,,, <节> <节>


jieba是基于Python的中文分词工具,安装使用非常方便。


我们使用脉冲安装:


怎么用Python分析红楼梦关键词


<节> <节> <节> <节> 02 <节> <节> <强>词云工具wordcloud <节>


wordcloud库,可以说是Python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本词云图,也叫文字云,是对文本中出现频率较高的“关键词“予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。


效果举例:


怎么用Python分析红楼梦关键词


我们使用脉冲安装:


怎么用Python分析红楼梦关键词


<节> <节> <节> <节> <节> <节> <节>

文本和图片准备

<节>


<节> <节> <节> <节> 0 1   ,,, <节> <节> <强>红楼梦。txt <节>


为了让分词工具进行分析,我们下载红楼梦小说txt格式。为了方便,我们将红楼梦文档放在程序”fenci。py”所在目录“分词”下的三种文件夹里面:


怎么用Python分析红楼梦关键词



<节> <节> <节> <节> 0 2   ,,, <节> <节> <强>背景jpg <节>


像上面的词云图的形状是一个鲸鱼,我们需要准备一个有图案的背景图,让最后的词云图贴合背景图案。


我们选用这张宝玉的美男子画像图作为背景图:


怎么用Python分析红楼梦关键词

文件保存在程序当前文件夹的img目录下:


怎么用Python分析红楼梦关键词



<节> <节> <节> <节> 0 3   ,,, <节> <节> <强>停用的词。txt <节>


在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。


但是,由于红楼梦有很多特殊的用的词,比如“这会子”,“明儿“等等,大家可以选择自行添加一些停用词。比如我加了一些词:


怎么用Python分析红楼梦关键词


我们把停用词放在词文件夹下面:


怎么用Python分析红楼梦关键词



<节> <节> <节> <节> <节> <节> <节>

程序运行

我们将最大次数设置成500个,为了能让背景图案比较明显:


怎么用Python分析红楼梦关键词

从结果看来,宝玉是当之无愧的主角。凤姐,贾母、王夫人等人戏份也不少。由于黛玉和林黛玉被分成了两个词,因此显得戏份很少,大家想想有没有办法解决这个问题?另外,我们可以看到“这会子”这个词出现频率也不低,从中可以一窥当时的方言的感觉。

怎么用Python分析红楼梦关键词