Erlang 是网络爬虫的正确选择吗?

2024-01-19

我计划为 NLP 项目编写一个网络爬虫,每次以特定的时间间隔读取论坛的线程结构,并用新内容解析每个线程。通过正则表达式,提取新帖子的作者、日期和内容。然后结果被存储在数据库中。

爬虫使用的语言和平台必须符合以下条件:

  • 在多核和 CPU 上轻松扩展
  • 适合高 I/O 负载
  • 快速正则表达式匹配
  • 易于维护/运营开销很少

经过一些研究,我认为 Erlang 可能是一个合适的候选者,但我读到它不太擅长字符串处理(以及正则表达式匹配)。我对维护因素也没有任何经验。

对于上述场景,Erlang 是一种好的技术吗?如果没有,什么是好的替代方案?


我还在评估 erlang 作为网络爬虫的用途,到目前为止它看起来不错。

有很多现有的有用模块:HTML解析器 https://github.com/mochi/mochiweb, HTTP客户端 https://github.com/cmullaparthi/ibrowse, XPath http://www.erlang.org/doc/man/xmerl_xpath.html, regex http://www.erlang.org/doc/man/re.html, cache http://www.erlang.org/doc/man/mnesia.html.

And other http://berlinbrowndev.blogspot.com.au/2008/02/makings-of-simple-web-scraper-in-erlang.html people http://ppolv.wordpress.com/2008/05/09/fun-with-mochiwebs-html-parser-and-xpath/对相同的用例感兴趣,因此您可以向他们学习。

然而,如果这只是一个一次性项目,我推荐 Python / Ruby / Perl,因为它会更容易上手。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Erlang 是网络爬虫的正确选择吗? 的相关文章

随机推荐