Erlang 是网络爬虫的正确选择吗？

2024-01-19

我计划为 NLP 项目编写一个网络爬虫，每次以特定的时间间隔读取论坛的线程结构，并用新内容解析每个线程。通过正则表达式，提取新帖子的作者、日期和内容。然后结果被存储在数据库中。

爬虫使用的语言和平台必须符合以下条件：

在多核和 CPU 上轻松扩展
适合高 I/O 负载
快速正则表达式匹配
易于维护/运营开销很少

经过一些研究，我认为 Erlang 可能是一个合适的候选者，但我读到它不太擅长字符串处理（以及正则表达式匹配）。我对维护因素也没有任何经验。

对于上述场景，Erlang 是一种好的技术吗？如果没有，什么是好的替代方案？

我还在评估 erlang 作为网络爬虫的用途，到目前为止它看起来不错。

有很多现有的有用模块：HTML解析器 https://github.com/mochi/mochiweb, HTTP客户端 https://github.com/cmullaparthi/ibrowse, XPath http://www.erlang.org/doc/man/xmerl_xpath.html, regex http://www.erlang.org/doc/man/re.html, cache http://www.erlang.org/doc/man/mnesia.html.

And other http://berlinbrowndev.blogspot.com.au/2008/02/makings-of-simple-web-scraper-in-erlang.html people http://ppolv.wordpress.com/2008/05/09/fun-with-mochiwebs-html-parser-and-xpath/对相同的用例感兴趣，因此您可以向他们学习。

然而，如果这只是一个一次性项目，我推荐 Python / Ruby / Perl，因为它会更容易上手。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ERLANG

webcrawler

Erlang 是网络爬虫的正确选择吗？的相关文章

停止 Erlang 守护进程

除了跑步 killall 9 beam smp 当我知道 Erlang 节点的情况时如何以编程方式杀死它 sname 如果我不希望心跳监视器重新启动该进程如何确保上述问题的任何答案也会终止心跳有没有一个不错的指南来将 Erlang 部
当通过 basho rebar 从命令行运行 Erlang 应用程序时，如何设置 Erlang 节点名称

我已经使用 basho rebar 编译了我的 Erlang 应用程序它生成了一个独立的 escript 可执行文件我从命令行运行它如下所示 myapp myconfig config 我的问题是如何确定运行我的应用程序的 Erlan
cron 爬虫使用 Ruby 中的 Google API 将数据插入 Google 电子表格的授权问题

我的项目是每天早上 9 00 抓取某些网络数据并将它们放入我的 Google 电子表格中并且它必须获得读取和写入某些内容的授权这就是为什么下面的代码位于顶部 Google API CLIENT ID blah blah CLIENT S
如何将列表转换为元组列表？

我想转换 z z a z z a a z to z 2 a 1 z 2 a 2 z 1 我该怎么做所以我需要累积以前的值它的计数器和元组列表我已创建记录 record acc previous counter tuples 重新定义
如何限制Erlang VM（BEAM）使用的核心数量？

我正在具有 2 个四核 Xeon E5520 2 2GHz 24 0GB RAM 和 Erlang R15B02 启用 SMP 的节点上运行实验我想知道是否可以限制Erlang VM使用的核心数量以便我可以暂时禁用一些核心并逐步增加数量
除了 Erlang 之外，还有哪些系统是基于“绿色流程”的？

我正在阅读这个信息页面绿线维基百科 http en wikipedia org wiki Green thread我想知道除了 Erlang 之外还有哪些编程系统依赖于绿色进程 Edit 绿线绿色流程基于绿色流程 Erlang
TypeError：无法在 re.findall() 中的类似字节的对象上使用字符串模式

我正在尝试学习如何自动从页面获取网址在下面的代码中我试图获取网页的标题 import urllib request import re url http www google com regex r pattern re compile
如何确定ETS表的确切内存大小？

给定一个包含数据的 ETS 表 info 1 函数返回该表的各种属性包括size该值特定于行数而不是物理大小有没有办法计算 ETS 表占用的内存量以字节为单位 ets new mytable bag named table compr
如何在 Erlang 中将整数列表连接到字符串？

我有这个元组如下所示 127 0 0 1 现在我想将该元组作为字符串传递 127 0 0 1 到外部库地理 IP 库将此元组转换为字符串的最佳方法是什么您可以随时使用inet parse ntoa 1 1 gt inet parse
gen_server中的数据在supervisor重启后还会保留吗？

我有一个启动许多 gen server 的主管每个 gen server 都有大量的数据加载这需要花费大量的时间我想知道当错误发生时存储在 gen server 状态及其进程字典中的数据是否会保留以供下次启动这样我就不需要再次初始
如何生成大型网站的图形站点地图[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想为我的网站生成图形站点地图据我所知有两个阶段抓取网站并分析链接关系提取树形结构生成视觉上
Erlang 进程如何（如果有的话）映射到内核线程？

Erlang 因能够支持许多轻量级进程而闻名它之所以能做到这一点是因为它们不是传统意义上的进程甚至不是 P 线程中的线程而是完全在用户空间中的线程这很好实际上很棒那么 Erlang 线程如何在多核多处理器环境中并行执行呢当
Erlang Supervisor 重新启动与已关闭主机的连接的策略

我使用 erlang 作为服务之间的桥梁我想知道人们对处理断开的连接有什么建议我正在从本地文件获取输入并将它们通过管道传输到 AMQP 可以想象 AMQP 代理可能会崩溃对于这种情况我想继续重试连接到 AMQP 服务器但我不想将
如何使用 cURL 和 PHP 抓取 LinkedIn 公司页面？在标头错误中找不到 CSRF 令牌

我想用 cURL 和 PHP 抓取一些 LinkedIn 公司页面 LinkedIn 的 API 不是为此构建的因此我必须使用 PHP 来完成此操作如果还有其他选择请告诉我在抓取公司页面之前我必须通过 cURL 使用个人帐户登录
Erlang：有“epmd”的 API 吗？

有没有办法查询 epmd 守护进程管理的名称表 The nodes 函数在这方面不是很有帮助注意我正在寻找 APIaside解析通过 stdout 生成的输出要查询 epmd 可见的节点请调用 EpmdModule net kern
使用 Scrapy 抓取多个 URL

如何使用 Scrapy 抓取多个 URL 我是否被迫制作多个爬虫 class TravelSpider BaseSpider name speedy allowed domains example com start urls http e
Erlang++ 运算符。语法糖，还是单独操作？

是Erlang的运算符只是语法糖lists concat或者这是完全不同的操作我试过搜索这个但不可能通过谷歌搜索并得到任何有用的东西这就是如何lists concat 1在 stdlib lists 模块中实现 concat Li
如何从网页中嵌入的 Tableau 图表中抓取工具提示值

我试图弄清楚是否有一种方法以及如何使用 python 从网页中的 Tableau 嵌入图形中抓取工具提示值以下是当用户将鼠标悬停在条形上时带有工具提示的图表示例我从要从中抓取的原始网页中获取了此网址 https covid19 colo
创建现有 ram 表的 mnesia disk_copies

我有一个完整的 mnesia ram copies only 数据库但在将 disk copy 表添加到节点时遇到问题目前我这样做创建我所有的 ram copy 表节点在disk copy to be节点上启动mnesia 使用以
在Erlang中，当一个进程的邮箱增长较大时，它的运行速度会变慢，为什么？

这是示例 test for gen server erl https github com wudixiaotie simple im blob master test test for gen server erl 当一个进程在其邮箱中收

随机推荐

MySQL：使用 ON UPDATE SET NULL 和 ON DELETE SET NULL 时出现错误 150，为什么？

我有这个 DROP TABLE IF EXISTS sf guard user CREATE TABLE sf guard user id INTEGER 11 NOT NULL AUTO INCREMENT username VARCHA
使用 PHP/MySQL 封装数据访问的好方法是什么？

我的大部分经验都在 MSFT 堆栈上但我现在正在从事一个业余项目帮助某人使用基于 LAMP 堆栈构建的廉价托管个人网站我安装附加功能的选项是有限的所以我想知道如何编写数据访问代码而不在 php 文件中嵌入原始查询我喜欢让事情变得简
ES6 React：ES.Next 的 @autobind 只会为每个实例绑定一次方法吗？

有一个lot关于在 ES6 React 中处理绑定的多种方法所写的问题文章但大多数似乎都没有解决中概述的问题反应文档 https facebook github io react docs reusable components ht
我应该在每个路由器导航上重置我的 redux 存储吗？

我正在使用 Angular 来编写我的应用程序并且我使用Redux通过ngrx 商店存储我的应用程序状态一切工作正常但现在我的应用程序变得相当大我得出以下观察结果对于几乎每个页面资源我使用不同的解析器从后端获取正确显示和在此特
PHP 中的可变参数函数和类型提示

快速一有没有办法在 PHP 中强制执行可变参数函数的类型我假设没有但也许我错过了一些东西到目前为止我只是强制使用所需类型的单个必需参数然后迭代检查其余参数 public function myFunction MyClass o
C 中 while 循环内的 switch 语句

有几篇关于 while 循环中 switch 语句的帖子但事实上它们都不是用 C 语言完成的至少从我所看到的来看是这样 C 可以创建布尔表达式我知道这一点但在 C 中不行我有一个包含开关控件的 while 循环但是当我在 sw
在 Ruby on Rails 中，将某些东西安装为 gem 或插件有什么区别？

On http github com collectiveidea delayed job http github com collectiveidea delayed job it says 要安装为 gem 请将以下内容添加到 conf
使用 Python 删除 CSV 文件中的行

我想做的就是删除第三列中值为 0 的行数据示例如下 6 5 5 4 0 320 6 5 5 4 1 320 因此第一行需要删除而第二行则保留到目前为止我所拥有的如下 import csv input open first csv r
虚函数表指针在对象中的位置

据我了解该位置virtual对象中的函数指针表取决于编译器将此指针放置在对象的开头与结尾或反之亦然是否有任何优点缺点虚函数表的存在与编译器相关但所有编译器都如此并且位置也没有强制在我了解详细信息的所有编译器中 vptr 存储在
TabNavigator 是否已弃用？

当我运行模拟器时 react native run ios 我在终端中看到一条消息 TabNavigator 已弃用请使用 createBottomTabNavigator 但是我不认为 TabNavigator 已被弃用并且我不认为
用例图中的包含和扩展有什么区别？

有什么区别include and extend in a 用例图 http en wikipedia org wiki Use case diagram Extend当一个用例向另一个一流用例添加步骤时使用例如假设提取现金是自动柜员
Fortran 中的过程指针

假设我有以下单参数双精度函数的抽象接口 module abstract abstract interface function dp func x double precision intent in x double precision
.NET WinForms 键事件参数对象的 KeyCode 和 KeyData 属性之间有什么区别？

两个关键事件参数类KeyEventArgs and PreviewKeyDownEventArgs每个都有两个属性 KeyCode and KeyData 都是枚举类型的Keys 这两个属性有什么区别它们的价值观是否彼此不同如果是这样
强制 CodeIgniter 发送视图并停止工作

您好我正在使用继承的控制器这些是我的控制器 baseAdminController
类型的对象转换为张量。考虑将元素转换为受支持的类型' aria-label='Keras.backend.reshape：类型错误：无法将类型的对象转换为张量。考虑将元素转换为受支持的类型'> Keras.backend.reshape：类型错误：无法将类型的对象转换为张量。考虑将元素转换为受支持的类型

我正在为我的神经网络设计一个自定义层但我的代码出现错误我想做一个注意力层如论文中所述 SAGAN https arxiv org abs 1805 08318 还有原始tf代码 https github com taki0112 Se
Rust 函数定义返回类型中 -> 的起源是什么？

Rust 使用冒号将标识符与类型分开例如 let x u8 1 但是对于函数返回类型则使用 gt 来代替例子 fn f gt u8 人们可能期望它在这里也使用冒号 fn f u8 虽然使用箭头有一定的优先级例如在 Haskell
使用批处理文件将多个 .csv 文件逐行合并为一个 .csv 文件

我遇到一种情况需要将四个 CSV 文件合并为一个 CSV 文件如果我只想将它们一个接一个地添加这很容易但我需要让它们在 CSV 文件中并排放置我知道所有四个文件都有相同数量的条目在 1000 个条目范围内我一直在研究以下代码
以编程方式调用 Snap/Aero 最大化

有没有办法使用 C 或 C 针对特定窗口窗口 ID 以编程方式调用 Aera 最大化效果例如 or source thebuzzmedia com http www thebuzzmedia com wp content uploads
运行 bash 脚本的 docker 入口点得到“权限被拒绝”

我正在尝试对我的node js 应用程序进行dockerize 当容器构建完成后我希望它运行git clone然后启动节点服务器因此我把这些操作放在一个 sh脚本中并在 ENTRYPOINT 中将脚本作为单个命令运行 FROM ubu
Erlang 是网络爬虫的正确选择吗？

我计划为 NLP 项目编写一个网络爬虫每次以特定的时间间隔读取论坛的线程结构并用新内容解析每个线程通过正则表达式提取新帖子的作者日期和内容然后结果被存储在数据库中爬虫使用的语言和平台必须符合以下条件在多核和 CPU 上轻松扩

Erlang 是网络爬虫的正确选择吗？

Erlang 是网络爬虫的正确选择吗？ 的相关文章

随机推荐

热门标签

Erlang 是网络爬虫的正确选择吗？的相关文章