对于我的链接抓取程序(用 python3.3 编写),我想使用数据库来存储大约 100.000 个网站:
我对数据库没有了解,但发现以下内容可能适合我的目的:
- PostgreSQL
- SQLite
- Firebird
我对速度感兴趣(访问数据库并获取所需信息)。例如:对于网站 x ,属性 y 是否存在,如果存在,则读取它。写作速度当然也很重要。
我的问题:速度有很大差异还是对我的小程序来说无关紧要?也许有人可以知道哪个数据库适合我的要求(并且很容易用 Python 处理)。
您的数据库的大小和规模并不是特别大,并且几乎在任何现成的数据库解决方案的范围内。
基本上,您要做的就是在您的计算机上安装数据库服务器,它将出现在给定的端口上。然后,您可以在 Python 中安装库来访问它。
例如,如果您想使用 Postgresql,您可以将其安装在您的计算机上,并且它将连接到某个端口,例如 5000 或端口 5432。
但是,如果您只有要存储和检索的信息,您可能需要使用 NoSQL 解决方案,因为它非常简单。
例如,您可以安装mongodb http://docs.mongodb.org/manual/installation/在您的服务器上,然后安装pymongo http://api.mongodb.org/python/current/index.html。 pymongo 教程将教您应用程序所需的几乎所有内容。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)