,,,,代码如下:
<>以前import 请求
得到pyquery import  PyQuery
import 再保险
import 操作系统
import csv
import datetime
“““
,,,说明:该代码是专门为爬取http://www.kgtmall.com.cn/商品而设计的。
,,,使用方法:
,,,,,,,1,在本地提前安装好python3的环境;
,,,,,,,2,直接运行本代码;
,,,,,,,3,运行本代码完后,会在当前目录生成一个result.csv文件,该文件里面就存了爬取该站点的商品信息
,,,注意事项:在本代码运行期间,不能打开result.csv文件,因为这样程序就写不进去数据了;只能等本代码
,,,,,,,,,,,全部运行结束后,才能打开esult.csv文件进行查看。
,,,,
“““
def get_html_text (url):
,,,,,,
,,,获取首页源代码
,,,:param url:
,,,:返回:
,,,,,,
,,,r =, requests.get (url)
,,,return r.text
def get_one_level_class (home_url):
,,,,,,
,,,一级标题
,,,,,,,母婴用品,http://www.kgtmall.com.cn/mall/list.php?catid=4
,,,,,,,生活家居,http://www.kgtmall.com.cn/mall/list.php?catid=5
,,,,,,
,,,html =, get_html_text (home_url)
,,,jpy =, PyQuery (html)
,,,items =,日元(& # 39;.menu_title 一个# 39;)
,,,for line 拷贝项目:
,,,,,,,jpy =, PyQuery(线)
,,,,,,,one_level_url =,日元(& # 39;一个# 39;).attr (& # 39; href # 39;)
,,,,,,,one_level_title =,日元(& # 39;一个# 39;)。text ()
,,,,,,,油品收率one_level_url, one_level_title
def get_two_level_class (home_url):
,,,,,,
,,,二级标题
,,,,,,,母婴用品,营养辅食,http://www.kgtmall.com.cn/mall/search.php?catid=539
,,,,,,,母婴用品,妈妈专区,http://www.kgtmall.com.cn/mall/search.php?catid=544
,,,,,,,母婴用品,婴儿保健,http://www.kgtmall.com.cn/mall/search.php?catid=887
,,,,,,
,,,for one_level_url,, one_level_title 拷贝get_one_level_class (home_url):
,,,,,,,jpy =, PyQuery (one_level_url)
,,,,,,,items =,日元(& # 39;.selector_category 李# 39;)
,,,,,,,for line 拷贝项目:
,,,,,,,,,,,jpy =, PyQuery(线)
,,,,,,,,,,,two_level_url =,日元(& # 39;一个# 39;).attr (& # 39; href # 39;)
,,,,,,,,,,,two_level_title =,日元(& # 39;一个# 39;)。text ()
,,,,,,,,,,,油品收率one_level_title,, two_level_title, two_level_url
def get_pages (url):
,,,,,,
,,,获取页数
,,,:返回:
,,,,,,
,,,jpy =, PyQuery (url)
,,,pages =,日元(& # 39;.pagination 引用# 39;)。text ()
,,,print(& # 39;原页面:& # 39;,,页)
,,,试一试:
,,,,,,,pages =, int (re.findall(& # 39;共。* ?条/页(. *)& # 39;,,页)[0])
,,,except Exception as e:
,,,,,,,印刷(e)
,,,,,,,pages =1
,,,print(& # 39;页码:& # 39;,,页)
,,,return 页面
def get_three_level_class (home_url):
,,,,,,
,,,三级标题
,,,,,,,母婴用品,营养辅食,DHA http://www.kgtmall.com.cn/mall/search.php?catid=548
,,,,,,,母婴用品,营养辅食,益生菌/初乳,http://www.kgtmall.com.cn/mall/search.php?catid=549
,,,,,,,母婴用品,营养辅食,清火/开胃/驱虫,http://www.kgtmall.com.cn/mall/search.php?catid=550
,,,,,,
,,,for one_level_title,, two_level_title,, two_level_url 拷贝get_two_level_class (home_url):
,,,,,,,jpy =, PyQuery (two_level_url)
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null
null