博客
关于我
python爬虫:多线程的简单示例与应用
阅读量:121 次
发布时间:2019-02-27

本文共 2507 字,大约阅读时间需要 8 分钟。

前言

Python的标准库提供了两个模块:_thread和threading。_thread是低级模块,threading是高级模板,对_thread进行了封装。在绝大多数情况下,我们只需使用threading这个高级模块即可。启动线程的方法是将函数传入并创建Thread实例,然后调用start()方法开始执行。

虽然Python的多线程机制受到GIL(全局解锁机制)的限制,并不是真正的并行执行,但在I/O密集型任务中仍能显著提高效率,例如在爬虫操作中。以下将通过一个实例对比多线程与单线程的效率差异。

实例

以下代码用于验证多线程的效率。该示例仅涉及页面获取,不包含解析功能。

```python # -*-coding:utf-8 -*- import requests import time import threading

class MyThread(threading.Thread): def init(self, func, args): threading.Thread.init(self) self.args = args self.func = func

def run(self):
self.func(self.args[0])

def open_url(url): response = requests.get(url).text print(len(response)) return response

def normal_method(urlList): start_time = time.time() for each in urlList: open_url(each) end_time = time.time() print('正常方式耗时 %s 秒' % (end_time - start_time))

def thread_method(urlList): start_time = time.time() threadList = [MyThread(open_url, (url,)) for url in urlList] for t in threadList: t.setDaemon(True) t.start() for t in threadList: t.join() end_time = time.time() print('多线程方式耗时 %s 秒' % (end_time - start_time))

if name == 'main': urlList = [] for p in range(1, 10): urlList.append('https://so.gushiwen.org/authors/authorvsw.aspx?page=' + str(p) + '&id=9cb3b7c0e4a0') normal_method(urlList) thread_method(urlList)

通过以上代码可以看到,单线程处理需要约1.8秒,而多线程处理仅需0.2秒。多线程在I/O密集型任务中确实能显著提高效率。

多线程简介

多线程编程的典型应用之一是消费者-生产者模式(可参考百度等资源)。以下将介绍两种常见的多线程方式:面向过程和面向对象。

在实际编程中,面向对象的方式可以简化代码编写,但面向过程的方式在某些场景下可能更高效。以下将介绍面向过程的多线程爬虫模板。

面向过程的多线程爬虫模板

思路

该模板的主要思路是将每个URL单独作为一个任务提交给线程池(threadpool),然后等待所有任务完成。具体步骤如下:

  1. 构造一个包含多个URL的列表。
  2. 根据列表中的每个URL创建一个线程。
  3. 启动所有线程并等待它们完成。

代码

```python
# -*-coding:utf-8 -*-
import requests
import time
import threading
def open_url(url):
response = requests.get(url).text
print(len(response))
return response
def doSpyder(urlList):
start_time = time.time()
threadList = [threading.Thread(target=open_url, args=(url,)) for url in urlList]
for t in threadList:
t.setDaemon(True)
t.start()
for t in threadList:
t.join()
end_time = time.time()
print('多线程方式耗时 %s 秒' % (end_time - start_time))
if __name__ == '__main__':
urlList = []
for p in range(1, 10):
urlList.append('https://so.gushiwen.org/authors/authorvsw.aspx?page=' + str(p) + '&id=9cb3b7c0e4a0')
doSpyder(urlList)

在该代码中,每个URL都被单独作为一个线程处理,避免了多线程同时访问同一数据结构的问题。

一个误区

需要注意的是,在创建多线程时,每个网页都应单独创建一个线程。如果直接使用已有的线程对列表进行操作,可能会导致数据重复或不一致的问题(即脏数据问题)。这是因为列表是非线程安全的数据结构。

此外,使用锁来保护数据在多线程环境中是必要的,但过度使用锁会导致效率下降。建议在多线程编程中尽量减少锁的使用,以免影响性能。

转载地址:http://ehef.baihongyu.com/

你可能感兴趣的文章
No module named cv2
查看>>
No module named tensorboard.main在安装tensorboardX的时候遇到的问题
查看>>
No module named ‘MySQLdb‘错误解决No module named ‘MySQLdb‘错误解决
查看>>
No new migrations found. Your system is up-to-date.
查看>>
No qualifying bean of type XXX found for dependency XXX.
查看>>
No resource identifier found for attribute 'srcCompat' in package的解决办法
查看>>
no session found for current thread
查看>>
No toolchains found in the NDK toolchains folder for ABI with prefix: mips64el-linux-android
查看>>
NO.23 ZenTaoPHP目录结构
查看>>
no1
查看>>
NO32 网络层次及OSI7层模型--TCP三次握手四次断开--子网划分
查看>>
NoClassDefFoundError: org/springframework/boot/context/properties/ConfigurationBeanFactoryMetadata
查看>>
Node JS: < 一> 初识Node JS
查看>>
Node Sass does not yet support your current environment: Windows 64-bit with Unsupported runtime(72)
查看>>
Node-RED中使用JSON数据建立web网站
查看>>
Node-RED中使用json节点解析JSON数据
查看>>
Node-RED中使用node-random节点来实现随机数在折线图中显示
查看>>
Node-RED中使用node-red-browser-utils节点实现选择Windows操作系统中的文件并实现图片预览
查看>>
Node-RED中使用node-red-contrib-image-output节点实现图片预览
查看>>
Node-RED中使用node-red-node-ui-iframe节点实现内嵌iframe访问其他网站的效果
查看>>