本文记录了笔者用Python爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论。
本案例选择祝辞祝辞商品类目:沙发;
数量:共100页,4400个商品;
筛选条件:天猫,销量从高到低,价格500元以上。
1。对商品标题进行文本分析词云可视化
2. 不同关键词词对应的销售的统计分析
3.商品的价格分布情况分析
4. 商品的销量分布情况分析
5. 不同价格区间的商品的平均销量分布
6. 商品价格对销量的影响分析
7. 商品价格对销售额的影响分析
8. 不同省份或城市的商品数量分布
9.不同省份的商品平均销量分布
注:本项目仅以以上几项分析为例。
1。数据采集:Python爬取淘宝网商品数据
2. 对数据进行清洗和处理
3.文本分析:jieba分词,wordcloud可视化
4. 数据柱形图可视化barh
5. 数据直方图可视化嘘
6. 数据散点图可视化散射
7. 数据回归分析可视化regplot
工具:本案例代码编辑工具蟒蛇的世爵
模块:请求、重试、missingno jieba, matplotlib, wordcloud, imread, seaborn等。
因淘宝网是反爬虫的,虽然使用多线程,修改标题参数,但仍然不能保证每次100%爬取,所以我增加了循环爬取,每次循环爬取未爬取成功的页直至所有页爬取成功停止。
说明:淘宝商品页为JSON格式这里使用正则表达式进行解析;
代码如下:
(此步骤也可以在Excel中完成再读入数据)
代码如下:
说明:根据需求,本案例中只取了item_loc, raw_title, view_price, view_sales这4列数据,主要对标题,区域,价格,销量进行分析。
代码如下:
【1】。对raw_title列标题进行文本分析:
使用结巴分词器,安装模块pip安装jieba
对title_s(列表,列表格式)中的每个列表的元素(str)进行过滤剔除不需要的词语,即把停用词表stopwords中有的词语都剔除掉:
因为下面要统计每个词语的个数,所以为了准确性这里对过滤后的数据title_clean中的每个列表的元素进行去重,即每个标题被分割后的词语唯一。
观察word_count表中的词语,发现jieba默认的词典无法满足需求:
有的词语(如可拆洗,不可拆洗等)却被削减,这里根据需求对词典加入新词(也可以直接在词典dict.txt里面增删,然后载入修改过的dict.txt)
<>强词云可视化:强>
安装模块wordcloud:
方法1:pip安装wordcloud
方法2:下安载包装:pip安装软件包名称
软件包下载地址:https://www.lfd.uci.edu/~ gohlke pythonlibs/# wordcloud
注意:要把下载的软件包放在Python安装路径下。