python3爬虫中多线程的使用示例

  介绍

这篇文章主要介绍了python3爬虫中多线程的使用示例,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获、下面让小编带着大家一起了解一下。

本文教程操作环境:windows7多系统,Python 3.9.1,戴尔G3电脑。

一、<强> Python的多线程爬虫介绍:

1, Python的多线程并不如java的多线程,其差异在于当Python解释器开始执行任务时,受制于吉尔(全局解释所),Python的线程被限制到同一时刻只允许一个程执行这样一个执行模型。

<强>吉尔介绍:

Python代码的执行由Python虚拟机(解释器)来控制,同时只有一个线程在执行。对Python虚拟机的访问由全局解释器锁(GIL)来控制,正是这个锁能保证同时只有一个线程在运行。

<强>吉尔功能:

为了线程间数据的一致性和状态同步的完整性。

例如:线程2需要线程1执行完成的结果,然而线程2又比线程1执行时间短,线程2执行完成,线程1仍然还在执行,这就是数据的同步性。

2, Python的线程更适用于处理I/O和其他需要并发行的阻塞操作(比如等待I/O,等待从数据库获取数据等等),而不是需要多处理器行的计算密集型任务。幸运的是,爬虫大部分时间在网络交互上,所以可以使用多线程来编写爬虫。

<强>二、多线程适用场景

在一个程序进程中,有些操作是比较耗时或者需要等待的。比如:等待数据库的查询结果的返回等待网页结果的响应。

使用单线程:

处理器必须要等到这些操作完成之后才能继续往下执行其他操作,而这个线程在等待的过程中,处理器明显是可以来执行其他操作的。

使用多线程:

处理器就可以在某个线程等待时,去执行其他的线程,从而从整体上提高执行效率。

<强>三,多线程爬虫使用方法

 t1 =, threading.Thread(圆盾=函数,args=(,))
  t1.setDaemon(真正的)
  t1.start(), #此时线程才会启动

<强>线程模块是python中专门提供用来做多线程编程的模块.threading模块中最常用的类是线程。

<>之前,,,import 线程   ,,,import 时间   ,,,,   ,,,def 编码():   ,,,,,,,for  x 拷贝范围(3):   ,,,,,,,,,,,印刷(& # 39;% s正在写代码& # 39;,%,x)   ,,,,,,,,,,,time . sleep (1)   ,,,,   ,,,def 画():   ,,,,,,,for  x 拷贝范围(3):   ,,,,,,,,,,,印刷(& # 39;% s正在画图& # 39;,%,x)   ,,,,,,,,,,,time . sleep (1)   ,,,,   ,,,,   ,,,def  single_thread ():   ,,,,,,,编码()   ,,,,,,,画()   ,,,,   ,,,def  multi_thread ():   ,,,,,,,t1 =, threading.Thread(目标=编码)   ,,,,,,,t2 =, threading.Thread(目标=图)   ,,,,   ,,,,,,,t1.start ()   ,,,,,,,t2.start ()   ,,,,   ,,,if  __name__ ==, & # 39; __main__ # 39;:   ,,,,,,,multi_thread ()

四,设置爬虫代理IP

在做爬虫的过程中,如果你爬取的频率过快,不符合人的操作模式,有些网站的反爬虫机制通过监测到你的IP异常,访问频率过高。就会对你进行封IP处理。目前已有比较多的第三方平台专门进行代理IP的服务。

感谢你能够认真阅读完这篇文章,希望小编分享的“python3爬虫中多线程的使用示例”这篇文章对大家有帮助,同时也希望大家多多支持,关注行业资讯频道,更多相关知识等着你来学习!

python3爬虫中多线程的使用示例