python爬虫取图片详解, - 行业资讯 - 肥雀云_南京肥雀信息技术有限公司

接下来会依次准备三个案例(如果要把每一个点都精通的话大约要花费一个月,我说的精通是指自己将代码不用查资料写出来,以下暂未整理):
进口请求线程#多线程处理与控制从lxml进口etree

从bs4进口BeautifulSoup
#获取源码
def get_html (url):
url=' http://www.doutula.com/?qqdrsign=01495 '
#获取网络地址,但这个地方写死了,怎么办呢,因为我们还没有做多页
头={“用户代理”:“Mozilla/5.0 (Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎)Chrome/62.0.3202.75 Safari/537.36 '}
#上一步是模拟浏览器信息,固定格式,可记下来
请求=requests.get (url=url,头=头)#对网址发送一个得到请求
反应=request.content #获取源码,比测试稍微好一点
#打印(响应)
返回响应
#接下来是获取外页,即图片自身的源码
def get_img_html (html):
汤=BeautifulSoup (html, lxml) #解析网页方式,自带html.pparser
all_a=汤。找到 (a类=發ist-group-item随机列表”)#类是关键字所以此处加
我在all_a:
打印(我)#我是指& lt;一个类=發ist-group-item random_list"https://www.yisu.com/zixun/href=" http://www.doutula.com/article/detail/6001799 "在
img_html=get_html(我[“href”]) #是用来获取超链接这一部分源码印刷(img_html)

# http://www.doutula.com/article/list/?page=2
=get_html (1)
get_img_html (a)
好了,我们已经可以获取一部分的源码了,这样,我们接下来的工作是开始做多页

导入请求,线程#多线程处理与控制从lxml进口etree

从bs4进口BeautifulSoup
#获取源码
def get_html (url):
# url=' http://www.doutula.com/?qqdrsign=01495 ' #获取网络地址,但这个地方写死了,怎么办呢,因为我们还没有做多页
头={“用户代理”:“Mozilla/5.0 (Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎)Chrome/62.0.3202.75 Safari/537.36 '}
#上一步是模拟浏览器信息,固定格式,可记下来
请求=requests.get (url=url,头=头)#对网址发送一个得到请求
反应=request.content #获取源码,比测试稍微好一点
#打印(响应)
返回响应
#接下来是获取外页,即图片自身的源码
def get_img_html (html):
汤=BeautifulSoup (html, lxml) #解析网页方式,自带html.pparser
all_a=汤。找到 (a类=發ist-group-item随机列表”)#类是关键字所以此处加
我在all_a:
打印(我)#我是指& lt;一个类=發ist-group-item random_list"https://www.yisu.com/zixun/href=" http://www.doutula.com/article/detail/6001799 "在
img_html=get_html(我[“href”]) #是用来获取超链接这一部分源码印刷(img_html)

# http://www.doutula.com/article/list/?=2页
def主要():
start_url=' http://www.doutula.com/article/list/?页面='
我的范围(10):
start_html=get_html (start_url.format(我)#将前十页的页数传递进来,来获取前十页源码
get_img_html (start_html) #来获取图片所在的链接源码

　　main ()

最后是总的源码:
进口请求线程#多线程处理与控制
从lxml进口etree #解析方式,直接找到里面的内容从bs4进口BeautifulSoup

#获取源码
def get_html (url):
# url=' http://www.doutula.com/?qqdrsign=01495 ' #获取网络地址,但这个地方写死了,怎么办呢,因为我们还没有做多页
头={“用户代理”:“Mozilla/5.0 (Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML,像壁虎)Chrome/62.0.3202.75 Safari/537.36 '}
#上一步是模拟浏览器信息,固定格式,可记下来
请求=requests.get (url=url,头=头)#对网址发送一个得到请求
反应=request.content #获取源码,比测试稍微好一点
#打印(响应)
返回响应
#接下来是获取外页,即图片自身的源码
def get_img_html (html):
汤=BeautifulSoup (html, lxml) #解析网页方式,自带html.pparser
all_a=汤。找到 (a类=發ist-group-item随机列表”)#类是关键字所以此处加
我在all_a:
#打印(i) #我是指& lt;一个类=發ist-group-item random_list"https://www.yisu.com/zixun/href=" http://www.doutula.com/article/detail/6001799 "在
img_html=get_html(我[“href”]) #是用来获取超链接这一部分源码
get_img (img_html)
#打印(img_html)
# http://www.doutula.com/article/list/?=2页
#获取图片的url:
def get_img (html):汤=etree.HTML (html) #解析之前的初始化,自动修正代码的
项=soup.xpath ('//div [@class=" artile_des "]) # @是用来选取属性,找到相应盒子
br/>汤etree.HTML (html) #解析之前的初始化,自动修正代码的
项=soup.xpath ('//div [@class=" artile_des "]) # @是用来选取属性,找到相应盒子