如何在Python中使用多线程时获得更快的速度

2024-02-26

现在我正在研究如何尽快从网站获取数据。为了获得更快的速度，我正在考虑使用多线程。这是我用来测试多线程和简单帖子之间差异的代码。

import threading
import time
import urllib
import urllib2


class Post:

    def __init__(self, website, data, mode):
        self.website = website
        self.data = data

        #mode is either "Simple"(Simple POST) or "Multiple"(Multi-thread POST)
        self.mode = mode

    def post(self):

        #post data
        req = urllib2.Request(self.website)
        open_url = urllib2.urlopen(req, self.data)

        if self.mode == "Multiple":
            time.sleep(0.001)

        #read HTMLData
        HTMLData = open_url.read()



        print "OK"

if __name__ == "__main__":

    current_post = Post("http://forum.xda-developers.com/login.php", "vb_login_username=test&vb_login_password&securitytoken=guest&do=login", \
                        "Simple")

    #save the time before post data
    origin_time = time.time()

    if(current_post.mode == "Multiple"):

        #multithreading POST

        for i in range(0, 10):
           thread = threading.Thread(target = current_post.post)
           thread.start()
           thread.join()

        #calculate the time interval
        time_interval = time.time() - origin_time

        print time_interval

    if(current_post.mode == "Simple"):

        #simple POST

        for i in range(0, 10):
            current_post.post()

        #calculate the time interval
        time_interval = time.time() - origin_time

        print time_interval

正如您所看到的，这是一个非常简单的代码。首先我将模式设置为“简单”，我可以获得时间间隔：50s（也许我的速度有点慢:()。然后我将模式设置为“多个”，然后我得到时间间隔：35。由此可见，多线程确实可以提高速度，但结果却没有我想象的那么好。我想要更快的速度。

通过调试，我发现程序主要阻塞在以下行：open_url = urllib2.urlopen(req, self.data)，这行代码需要花费大量时间从指定网站发送和接收数据。我想也许我可以通过添加来获得更快的速度time.sleep()并在内部使用多线程urlopen函数，但我不能这样做，因为它是 python 自己的函数。

如果不考虑服务器阻塞发布速度的可能限制，我还能做些什么来获得更快的速度？或者我可以修改的任何其他代码？多谢！

你做错的最大的事情，对你的吞吐量影响最大的是你调用的方式thread.start() and thread.join():

for i in range(0, 10):
   thread = threading.Thread(target = current_post.post)
   thread.start()
   thread.join()

每次循环时，您都会创建一个线程，启动它，然后等待它完成在继续下一个线程之前。你根本没有同时做任何事情！

你可能应该做的是：

threads = []

# start all of the threads
for i in range(0, 10):
   thread = threading.Thread(target = current_post.post)
   thread.start()
   threads.append(thread)

# now wait for them all to finish
for thread in threads:
   thread.join()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在Python中使用多线程时获得更快的速度的相关文章

使 django 服务器可以在 LAN 中访问

我已经安装了Django服务器可以如下访问 http localhost 8000 get sms http 127 0 0 1 8000 get sms 假设我的IP是x x x x 当我这样做时从同一网络下的另一台电脑 my ip
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
如何使用 Ansible playbook 中的 service_facts 模块检查服务是否存在且未安装在服务器中？

我用过service facts检查服务是否正在运行并启用在某些服务器中未安装特定的软件包现在我如何知道这个特定的软件包没有安装在该特定的服务器上service facts module 在 Ansible 剧本中它显示以下错误
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
Flask如何获取请求的HTTP_ORIGIN

我想用我自己设置的 Access Control Allow Origin 标头做出响应而弄清楚请求中的 HTTP ORIGIN 参数在哪里似乎很混乱我在用着烧瓶 0 10 1 以及HTTP ORIGIN似乎是这个的特点之一object
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
对年龄列进行分组/分类

我有一个数据框说df有一个柱子 Ages gt gt gt df Age 0 22 1 38 2 26 3 35 4 35 5 1 6 54 我想对这个年龄段进行分组并创建一个像这样的新专栏 If age gt 0 age lt 2 the
Java执行器服务线程池[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 如果我使用 Executor 框架在
Java列表的线程安全

我有一个列表它将在线程安全上下文或非线程安全上下文中使用究竟会是哪一个无法提前确定在这种特殊情况下每当列表进入非线程安全上下文时我都会使用它来包装它 Collections synchronizedList 但如果不进入非线程安
静态变量的线程安全

class ABC implements Runnable private static int a private static int b public void run 我有一个如上所述的 Java 类我有这个类的多个线程在里面r
Scrapy：如何使用元在方法之间传递项目

我是 scrapy 和 python 的新手我试图将 parse quotes 中的项目 item author 传递给下一个解析方法 parse bio 我尝试了 request meta 和 response meta 方法如 sc
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Rocket UniData/UniVerse：ODBC 无法分配足够的内存

每当我尝试使用pyodbc连接到 Rocket UniData UniVerse 数据时我不断遇到错误 pyodbc Error 00000 00000 Rocket U2 U2ODBC 0302810 Unable to allocate
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
如何将输入读取为数字？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动 Why are x and y下面的代码中使用字符串而不是整数注意在Python 2
NotImplementedError：无法将符号张量 (lstm_2/strided_slice:0) 转换为 numpy 数组。时间

张量流版本 2 3 1 numpy 版本 1 20 在代码下面 define model model Sequential model add LSTM 50 activation relu input shape n steps n fe

随机推荐

使用 QFileDialog 在 Ubuntu 上仅显示目录和可执行文件

我正在尝试创建一个QFileDialog在 Ubuntu 上将允许用户选择一个可执行文件其目的是该文件是一个桌面应用程序即类似于 exeWindows 上可执行文件的子集在 Windows 上这是通过使用实现的setNameFil
Java 正则表达式与 XSD 正则表达式

我有一个 XSD 其字段具有以下模式值
实体框架代码优先默认数据库位置

我正在尝试按照视频教程进行操作http msdn microsoft com en us data jj193542 http msdn microsoft com en us data jj193542使用 Visual Studio 2
为什么关系中的重复项不会违反 UniqueConstraint？

对于以下模型为什么以下交互能够在同一事务期间成功地将重复关联添加到关系中我预计并且需要它会因为将 UniqueConstraint 放置在关联表上而失败 Models from app import db this is the a
未生成 SQLMetal DataContext 关联

我正在为数据库生成 LINQ to SQL DataContext 和实体类该数据库有多个表其中两个是 AccountMaster 和 AccountCodes 它们之间定义了外键关系 AccountMaster AccountNumb
如何检查 pandas DataFrame 中的特定值（在单元格中）是否为 NaN？

假设我有以下内容pandas DataFrame import pandas as pd import numpy as np df pd DataFrame A 1 np nan 2 B 5 6 0 看起来像 gt gt gt df A
如何从 JavaScript 触发 ASP.NET 自定义验证器？

我想用 javascript 编写一个函数每次在 Web 表单中调用它时它都会在同一个 Web 表单中启动特定的验证器
为什么这个 Vue prop 对变化没有反应？

我的组件中有一个 Prop 它是一个 User 对象然后我有这个函数 onChange function event this v touch if this v invalid this axios put update code th
Firebase 托管：如何防止缓存 SPA 的 index.html

我在 firebase 上托管一个 SPA 几乎所有路径都被重写为index html 我正在使用基于 webpack 哈希的缓存清除所以我想始终阻止缓存我的index html但没有任何其他文件我发现这样做非常困难具体来说我的文件
我目前面临一些订单重复问题在没有详细说明的情况下我对以下内容有疑问这是否有可能触发两次提交
连接到 LAN 时无法运行 selenium 脚本

连接到 LAN 时无法运行 selenium 脚本但连接到 WIFI 时它可以正常工作我将所有代理设置保持不变下面是代码 String exePath usr local bin chromedriver System setProp
将选定的数据从第 1 帧中的 jtable 复制到第 2 帧中的另一个表

我在frame1中有一个JTable2 在frame2中有一个JTable1 我想将选定的数据从 table2 复制并发送到 table1 我该怎么做 private void jButton3MouseClicked java awt e
SSRS 2008：如何在新页面上重复表格标题的一行

我有一个包含 3 行标题的表格我需要在新页面上重复第二行除了第一页之外页面中不需要第一行和第三行如果我仅在第二行中设置属性 RepeatOnNewPage SSRS 将显示错误 TablixMember 必须具有与动态 Tablix
css动画持久结束状态

我有一个 div 元素它充当我的网页的全局容器我在其中也有一个 div 元素我将其用作窗帘即当它被激活时它会在黑暗的半透明层中覆盖整个页面就像灯箱一样因此该页面基本上已停用并且可以在顶部显示警告对话框或图片框等我可以使用j
将特定的MDC字段附加到logstash日志中

我正在尝试将自定义字段添加到 logback spring xml 中的 Logstash Appender 中如下所示
Mongoose 填充包含 ref 的对象数组

我有一个带有数组的猫鼬模式lists由对另一个集合的引用和嵌套的数字数组组成的对象 var Schema exports mongoose schema mongoose require mongoose Schema mongoose S
构造函数注入——我们也注入工厂吗？

听完后整洁代码讲座 https www youtube com playlist list PL693EFD059797C21E 我开始明白我们应该使用工厂来组合对象因此举例来说如果House has a Door and a Doo
Camel 中的无限循环 - Rabbitmq

我有一个小型服务器路由它从queue in 获取消息并放入queue out 当我输入一条消息时queue in 服务器无限循环运行我想知道我在配置方面缺少什么这看起来是一条非常简单的路线小服务器路由
IntelliJ 找不到 Scanner 类 [重复]

这个问题在这里已经有答案了我正在使用 Intellij IDEA 这是我的代码 public static void main String args java util Scanner scanner new java util Sca
如何在Python中使用多线程时获得更快的速度

现在我正在研究如何尽快从网站获取数据为了获得更快的速度我正在考虑使用多线程这是我用来测试多线程和简单帖子之间差异的代码 import threading import time import urllib import urllib2

如何在Python中使用多线程时获得更快的速度

如何在Python中使用多线程时获得更快的速度 的相关文章

随机推荐

热门标签

如何在Python中使用多线程时获得更快的速度的相关文章