使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则”

  

本文记录了笔者用Python爬取淘宝某商品的全过程,并对商品数据进行了挖掘与分析,最终得出结论。

  

  

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

本案例选择祝辞祝辞商品类目:沙发;
  数量:共100页,4400个商品;
  筛选条件:天猫,销量从高到低,价格500元以上。

  

  

1。对商品标题进行文本分析词云可视化
  2. 不同关键词词对应的销售的统计分析
  3.商品的价格分布情况分析
  4. 商品的销量分布情况分析
  5. 不同价格区间的商品的平均销量分布
  6. 商品价格对销量的影响分析
  7. 商品价格对销售额的影响分析
  8. 不同省份或城市的商品数量分布
  9.不同省份的商品平均销量分布
  

  

注:本项目仅以以上几项分析为例。

  

  

1。数据采集:Python爬取淘宝网商品数据
  2. 对数据进行清洗和处理
  3.文本分析:jieba分词,wordcloud可视化
  4. 数据柱形图可视化barh
  5. 数据直方图可视化嘘
  6. 数据散点图可视化散射
  7. 数据回归分析可视化regplot

  

  

工具:本案例代码编辑工具蟒蛇的世爵
  模块:请求、重试、missingno jieba, matplotlib, wordcloud, imread, seaborn等。

  

  

因淘宝网是反爬虫的,虽然使用多线程,修改标题参数,但仍然不能保证每次100%爬取,所以我增加了循环爬取,每次循环爬取未爬取成功的页直至所有页爬取成功停止。
  说明:淘宝商品页为JSON格式这里使用正则表达式进行解析;
  

  

代码如下:

  

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

  

(此步骤也可以在Excel中完成再读入数据)
  

  

代码如下:

   使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

   使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

说明:根据需求,本案例中只取了item_loc, raw_title, view_price, view_sales这4列数据,主要对标题,区域,价格,销量进行分析。
  

  

代码如下:

  

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

  

【1】。对raw_title列标题进行文本分析:

  

使用结巴分词器,安装模块pip安装jieba

  

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

对title_s(列表,列表格式)中的每个列表的元素(str)进行过滤剔除不需要的词语,即把停用词表stopwords中有的词语都剔除掉:

  

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

因为下面要统计每个词语的个数,所以为了准确性这里对过滤后的数据title_clean中的每个列表的元素进行去重,即每个标题被分割后的词语唯一。

  

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

观察word_count表中的词语,发现jieba默认的词典无法满足需求:
  有的词语(如可拆洗,不可拆洗等)却被削减,这里根据需求对词典加入新词(也可以直接在词典dict.txt里面增删,然后载入修改过的dict.txt)

  

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则

  

<>强词云可视化:

  

安装模块wordcloud:
  方法1:pip安装wordcloud
  方法2:下安载包装:pip安装软件包名称
  软件包下载地址:https://www.lfd.uci.edu/~ gohlke pythonlibs/# wordcloud
  

  

注意:要把下载的软件包放在Python安装路径下。

使用Python爬了4400条淘宝商品数据,竟发现了这些“潜规则”