如何访问随机网站? - Python

2024-04-07

如何生成随机但有效的网站链接,无论语言如何。事实上,它生成的网站语言越多样化越好。

我一直在使用其他人网页上的脚本来做到这一点,我怎样才能不依赖这些随机站点转发脚本并制作自己的脚本?。我一直这样做:

import webbrowser
from random import choice
random_page_generator = ['http://www.randomwebsite.com/cgi-bin/random.pl',
                         'http://www.uroulette.com/visit']
webbrowser.open(choice(random_page_generator), new=2)

我一直在他们的网页上使用其他人的脚本来做到这一点,我怎么能不依赖这些随机站点转发脚本并制作自己的脚本呢?

有两种方法可以做到这一点:

  • 创建您自己的spider http://en.wikipedia.org/wiki/Web_spider它积累了大量网站,并从该集合中进行选择。
  • 访问一些预先存在的网站集合,并从该集合中进行选择。例如,DMOZ/ODP 让您下载他们的整个数据库 http://www.dmoz.org/docs/en/help/getdata.html;* Google 曾经有一个定制的随机站点 URL;** 等。

没有其他方法可以解决这个问题(除了随机生成和测试任意字符的有效字符串,这将是一个非常糟糕的主意)。

为自己构建一个网络蜘蛛可能是一个有趣的项目。链接驱动的抓取库,例如Scrapy http://scrapy.org可以为你做很多繁重的工作,让你写你关心的部分。


* 请注意,与 Google 或 Yahoo 等数据库相比,ODP 是一个相当小的数据库,因为它主要是人工编辑的重要网站集合,而不是自动生成的任何人放在网络上的所有内容的集合。

** Google 的随机站点功能是由受欢迎程度和您自己的搜索历史记录驱动的。但是,通过向其提供空的搜索历史记录,您可以删除方程的这一部分。无论如何,我认为它已经不存在了。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何访问随机网站? - Python 的相关文章

随机推荐