python爬虫如何获取淘宝天猫商品详细参数

  介绍

这篇文章给大家分享的是有python爬关虫如何获取淘宝天猫商品详细参数的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

首先我是从淘宝进去,爬取了按销量排序的所有(100页)女装的列表信息按综合,销量分别爬取淘宝女装列表信息,然后导出前100年商品的链接,爬取其详细信息。这些商品有淘宝的,也有天猫的,这两个平台有些区别,处理的时候要注意。比如,有的说“面料”,有的说“材质成分”,其实是一个意思,等等。可以取不同的链接做一下测试。

import  re    得到collections  import  OrderedDict    得到bs4  import  BeautifulSoup    得到pyquery  import  pyquery  as  pq , #获取整个网页的源代码,   得到config  import  *,, #可引用congif的所有变量,   ,   import  pymysql    import  urllib    import  json    import  bs4    import  requests    得到selenium  import  webdriver    得到selenium.webdriver.support.ui  import  WebDriverWait    得到pyquery  import  pyquery  as  pq , #获取整个网页的源代码,   import  pandas  as  pd    ,   #,测试,淘宝+天猫,可完整输出及保存,   ,   时间=browser  webdriver.Firefox (),   时间=wait  WebDriverWait(浏览器,10),   ,   # # # # # # #,天猫上半部分详情,# # # # # # # # # # # # #,   def  get_tianmao_header (url):   browser.get才能(url),   #,才能wait.until (EC.presence_of_all_elements_located ((By.CSS_SELECTOR & # 39; # mainsrp-itemlist  .items  .item& # 39;))), #加载所有宝贝,   html=browser.page_source 才能;   doc 才能=,pq (html),   #,才能打印(doc),   时间=info 才能;OrderedDict(), #,存放该商品所具有的全部信息,   items 才能=,doc(& # 39; #页# 39;),   ,   #,才能信息[& # 39;店铺名& # 39;],=,items.find (& # 39; .slogo& # 39;); (& # 39; .slogo-shopname& # 39;)。text (),   #,才能信息[& # 39;id # 39;],=, items.find (& # 39; # LineZing& # 39;) .attr [& # 39; itemid # 39;],   信息才能[& # 39;宝贝& # 39;],=,items.find (& # 39; .tb-detail-hd& # 39;); (& # 39; h2 # 39;)。text (),   信息才能[& # 39;促销价& # 39;],=,items.find (& # 39; # J_PromoPrice& # 39;); (& # 39; .tm-promo-price& # 39;); (& # 39; .tm-price& # 39;)。text (),   信息才能[& # 39;原价& # 39;],=,items.find (& # 39; # J_StrPriceModBox& # 39;); (& # 39; .tm-price& # 39;)。text (),   #,才能& # 39;月销量& # 39;,:items.find (& # 39; .tm-ind-panel& # 39;); (& # 39; .tm-ind-item  tm-ind-sellCount& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text (),,   信息才能[& # 39;月销量& # 39;],=,items.find (& # 39; .tm-ind-panel& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text () .split (& # 39;, & # 39; (2) [0],   信息才能[& # 39;累计评价& # 39;],=,items.find (& # 39; # J_ItemRates& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text (),   #,才能打印(信息),   return 才能;info    ,   # # # # # # # #,淘宝上半部分详情,# # # # # # # # # # # # # # #,   def  get_taobao_header (url):   browser.get才能(url),   #,才能wait.until (EC.presence_of_all_elements_located ((By.CSS_SELECTOR & # 39; # mainsrp-itemlist  .items  .item& # 39;))), #加载所有宝贝,   html=browser.page_source 才能;   doc 才能=,pq (html),   #,才能打印(doc),   时间=info 才能;OrderedDict(), #,存放该商品所具有的全部信息,   items 才能=,doc(& # 39; #页# 39;),   ,   #,才能信息[& # 39;店铺名& # 39;],=,items.find (& # 39; .tb-shop-seller& # 39;); (& # 39; .tb-seller-name& # 39;)。text (),   #,才能信息[& # 39;id # 39;],=, items.find (& # 39; # J_Pine& # 39;) .attr [& # 39; data-itemid& # 39;],   信息才能[& # 39;宝贝& # 39;],=,items.find (& # 39; # J_Title& # 39;); (& # 39; h4 # 39;)。text (),   信息才能[& # 39;原价& # 39;],=,items.find (& # 39; # J_StrPrice& # 39;); (& # 39; .tb-rmb-num& # 39;)。text (),   信息才能[& # 39;促销价& # 39;],=,items.find (& # 39; # J_PromoPriceNum& # 39;)。text (),   #,才能& # 39;月销量& # 39;,:items.find (& # 39; .tm-ind-panel& # 39;); (& # 39; .tm-ind-item  tm-ind-sellCount& # 39;); (& # 39; .tm-indcon& # 39;); (& # 39; .tm-count& # 39;)。text (),,   信息才能[& # 39;月销量& # 39;],=,items.find (& # 39; # J_SellCounter& # 39;)。text (),   信息才能[& # 39;累计评价& # 39;],=,items.find (& # 39; # J_RateCounter& # 39;)。text (),   #,才能打印(信息),   return 才能;info    ,   # # # # # # # # # # # # # # # # # # # # # # #,详情,# # # # # # # # # # # # # # # # # # # # # # # # # # # #,   #,抓取所有商品详情,   def  get_Details (attrs信息):,   #,才能res =, requests.get (url),   #,才能soup =, BeautifulSoup (res.text,“html.parser"),   #,才能   #,才能attrs =, soup.select (& # 39; .attributes-list 李# 39;),   ,   #,才能attrs=, (& lt; li  title=?薄“祝辞厚薄:,薄& lt;/li>,, & lt; li  title=?其“他100%;在材质成分:,其他100% & lt;/li>, & lt; li ……& lt;/li>],   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null   null

python爬虫如何获取淘宝天猫商品详细参数