介绍
这篇文章给大家分享的是有python爬关虫如何获取淘宝天猫商品详细参数的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
首先我是从淘宝进去,爬取了按销量排序的所有(100页)女装的列表信息按综合,销量分别爬取淘宝女装列表信息,然后导出前100年商品的链接,爬取其详细信息。这些商品有淘宝的,也有天猫的,这两个平台有些区别,处理的时候要注意。比如,有的说“面料”,有的说“材质成分”,其实是一个意思,等等。可以取不同的链接做一下测试。
import re 得到collections import  OrderedDict 得到bs4 import  BeautifulSoup 得到pyquery import  pyquery as  pq , #获取整个网页的源代码, 得到config import *,, #可引用congif的所有变量, , import pymysql import urllib import json import bs4 import requests 得到selenium import  webdriver 得到selenium.webdriver.support.ui import  WebDriverWait 得到pyquery import  pyquery as  pq , #获取整个网页的源代码, import pandas  as pd , #,测试,淘宝+天猫,可完整输出及保存, , 时间=browser webdriver.Firefox (), 时间=wait WebDriverWait(浏览器,10), , # # # # # # #,天猫上半部分详情,# # # # # # # # # # # # #, def get_tianmao_header (url): browser.get才能(url), #,才能wait.until (EC.presence_of_all_elements_located ((By.CSS_SELECTOR & # 39; # mainsrp-itemlist .items .item& # 39;))), #加载所有宝贝, html=browser.page_source 才能; doc 才能=,pq (html), #,才能打印(doc), 时间=info 才能;OrderedDict(), #,存放该商品所具有的全部信息, items 才能=,doc(& # 39; #页# 39;), , #,才能信息[& # 39;店铺名& # 39;],=,items.find (& # 39; .slogo& # 39;); (& # 39; .slogo-shopname& # 39;)。text (), #,才能信息[& # 39;id # 39;],=, items.find (& # 39; # LineZing& # 39;) .attr [& # 39; itemid # 39;], 信息才能[& # 39;宝贝& # 39;],=,items.find (& # 39; .tb-detail-hd& # 39;); (& # 39; h2 # 39;)。text (), 信息才能[& # 39;促销价& # 39;],=,items.find (& # 39; # J_PromoPrice& # 39;); (& # 39; .tm-promo-price& # 39;); (& # 39; .tm-price& # 39;)。text (), 信息才能[& # 39;原价& # 39;],=,items.find (& # 39; # J_StrPriceModBox& # 39;); (& # 39; .tm-price& # 39;)。text (), #,才能& # 39;月销量& # 39;,:items.find (& # 39; .tm-ind-panel& # 39;); (& # 39; .tm-ind-item  tm-ind-sellCount& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text (),, 信息才能[& # 39;月销量& # 39;],=,items.find (& # 39; .tm-ind-panel& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text () .split (& # 39;, & # 39; (2) [0], 信息才能[& # 39;累计评价& # 39;],=,items.find (& # 39; # J_ItemRates& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text (), #,才能打印(信息), return 才能;info , # # # # # # # #,淘宝上半部分详情,# # # # # # # # # # # # # # #, def get_taobao_header (url): browser.get才能(url), #,才能wait.until (EC.presence_of_all_elements_located ((By.CSS_SELECTOR & # 39; # mainsrp-itemlist .items .item& # 39;))), #加载所有宝贝, html=browser.page_source 才能; doc 才能=,pq (html), #,才能打印(doc), 时间=info 才能;OrderedDict(), #,存放该商品所具有的全部信息, items 才能=,doc(& # 39; #页# 39;), , #,才能信息[& # 39;店铺名& # 39;],=,items.find (& # 39; .tb-shop-seller& # 39;); (& # 39; .tb-seller-name& # 39;)。text (), #,才能信息[& # 39;id # 39;],=, items.find (& # 39; # J_Pine& # 39;) .attr [& # 39; data-itemid& # 39;], 信息才能[& # 39;宝贝& # 39;],=,items.find (& # 39; # J_Title& # 39;); (& # 39; h4 # 39;)。text (), 信息才能[& # 39;原价& # 39;],=,items.find (& # 39; # J_StrPrice& # 39;); (& # 39; .tb-rmb-num& # 39;)。text (), 信息才能[& # 39;促销价& # 39;],=,items.find (& # 39; # J_PromoPriceNum& # 39;)。text (), #,才能& # 39;月销量& # 39;,:items.find (& # 39; .tm-ind-panel& # 39;); (& # 39; .tm-ind-item  tm-ind-sellCount& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text (),, 信息才能[& # 39;月销量& # 39;],=,items.find (& # 39; # J_SellCounter& # 39;)。text (), 信息才能[& # 39;累计评价& # 39;],=,items.find (& # 39; # J_RateCounter& # 39;)。text (), #,才能打印(信息), return 才能;info , # # # # # # # # # # # # # # # # # # # # # # #,详情,# # # # # # # # # # # # # # # # # # # # # # # # # # # #, #,抓取所有商品详情, def get_Details (attrs信息):, #,才能res =, requests.get (url), #,才能soup =, BeautifulSoup (res.text,“html.parser"), #,才能 #,才能attrs =, soup.select (& # 39; .attributes-list 李# 39;), , #,才能attrs=, (& lt; li  title=?薄“祝辞厚薄:,薄& lt;/li>,, & lt; li title=?其“他100%;在材质成分:,其他100% & lt;/li>, & lt; li ……& lt;/li>], null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null null nullpython爬虫如何获取淘宝天猫商品详细参数