Scrapy使用正则表达式从页面文本中提取数字

2024-03-06

我花了几个小时来了解如何搜索页面上的所有文本以及如果它与正则表达式匹配则提取它。我的蜘蛛设置如下：

def parse(self, response):
        title = response.xpath('//title/text()').extract()
        units = response.xpath('//body/text()').re(r"Units: (\d)")
        print title, units

我想提取页面上“单位：”后面的数字。当我在正文中包含 Units: 351 的页面上运行 scrapy 时，我只得到页面的标题，前后有一堆转义符，而没有任何单位。

我是 scrapy 新手，有一点 python 经验。任何有关如何提取 Units: 后面的整数并从标题中删除额外的转义字符“u'\r\n\t...”的帮助将不胜感激。

EDIT:根据评论，这里是示例页面的部分 html 摘录。请注意，除了本例中的 p 之外，这可能位于不同的标签内：

<body>
<div> Some content and multiple Divs here <div>
<h1>This is the count for Dala</h1>
<p><strong>Number of Units:</strong> 801</p>
<p>We will have other content here and more divs beyond</p>
</body>

根据下面的答案，这就是大部分内容。仍在努力删除 Units: 和额外的转义字符。

units = response.xpath('string(//body)').re("(Units: [\d]+)")

Try:

response.xpath('string(//body)').re(r"Units: (\d)")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

python27

Scrapy

Scrapy使用正则表达式从页面文本中提取数字的相关文章

.htaccess 如果 URL 错误，请执行某些操作

我正在做我的个人CMS http en wikipedia org wiki Content management system 我想在其中使用很酷友好的 URL 这是我的 htaccess 文件代码 RewriteEngine on
ipython/ pylab/ matplotlib安装和初始化错误

我在 OS X El Captain 上安装了 matplotlib anaconda ipython 然而即使在尝试以所有可能的方式设置环境变量之后我仍无法启动 ipython shell pylab 版本这是错误 ImportEr
在 SQLite 中搜索时排除 HTML 标签和一些 UNICODE 字符

更新 4 我已经成功运行了firstchar例如但现在的问题是使用regex 即使包含头文件它也无法识别regex操作员有什么线索可以解决这个问题吗更新 2 我已经编译了sqlite3我的项目中的库我现在正在寻找任何人帮助我为我的
正则表达式：如何匹配所有大于 954 的数字？

I tried 0 9 d d 4 但它没有给出正确的结果 I 不会使用正则表达式因为你会陷入丑陋的模式链中但是如果仍然必须或想要使用它您可以使用如下正则表达式 1 9 d 3 9 6 9 d 9 5 9 2 工作演示 https r
hive regexp_extract 怪异

我在 regexp extract 方面遇到一些问题我正在查询制表符分隔的文件我正在检查的列具有如下所示的字符串 abc def ghi 现在如果我这样做 select distinct regexp extract name 0 f
有人能给我一个 1 到 5 之间数字的正则表达式吗

有人能给我一个 1 到 5 之间的单个数字的正则表达式吗例如输入必须是 1 到 5 之间的数字 55 或 23 不匹配尝试使用anchors http www regular expressions info anchors html
egrep 和 grep 之间的区别

我有一个问题grep and egrep in unix 由于我最近正在学习shell commands in unix 我想知道grep和egrep有什么区别我发现我们可以将 grep 和egrep 与正则表达式一起使用但是我发现这
请解释*贪婪量词的工作原理

Pattern ptn Pattern compile a Matcher mtch ptn matcher bbaac if mtch find System out println mtch group 输出不打印任何内容 Patte
Vimeo API：获取下载所有视频文件的链接列表

再会我正在尝试从 Vimeo 帐户获取所有视频文件的列表直接下载的链接有没有办法在 1 GET 请求中做到这一点好的如果是API限制的话就100倍我有硬编码脚本我在其中发出 12 个 GET 请求 1100 多个视频根据文
在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
App Engine 上的 Django 与 webapp2 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
正则表达式：匹配未包含在 [] 中的空格

例如对于这个字符串 div img wrapper img title Hello world 我想匹配第一个空格但不匹配第二个空格包含在中正则表达式是什么以下表达式将通过使用前瞻断言来完成这项工作 gt 下划线代表空格该表达
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
如何扩展路径中的波形符（~）[重复]

这个问题在这里已经有答案了我有一个 shell 脚本可以从用户那里获取目录路径但我需要检查目录是否为空如果用户将他的主路径与而不是绝对路径所以我无法检查它ls echo Specify your project root dir
数字和小数的输入掩码

在测试我的程序后我发现了以下错误我在 sqlserver 中的表包含价格数字 6 2 我的程序的用户输入价格 555 00 就很好了但是当他输入 555555 时这是错误的所以我需要指定掩码其中尾数是可选的 0 到 999 小
删除PHP字符串中所有不匹配的字符？

我有一个文本我想从中删除所有不属于以下字符的字符所需字符 0123456789 abcdefghijklmnopqrstuvwxyz n 最后一个是我确实想保留的 n 换行符要匹配除列出的字符之外的所有字符请使用反转字符集 http
重定向而不改变url

我总是不喜欢 htaccess 我正在尝试建立一个所有请求都通过index php 的网站但我希望URL 类似于www sample com home 该网址实际上会加载 www sample com index php page hom
正则表达式，提取不在两个括号之间的字符串

好的正则表达式问题如何提取不在两个字符之间的字符在本例中是括号我有一个字符串例如字1 字2 字3 字 4 我只想获取第一个和最后一个管道而不是括号之间的第二个管道我已经尝试了无数次负克拉和负分组的尝试但似乎无法使其发挥作
在 Python 中解析 TCL 列表

我需要在双括号上拆分以空格分隔的 TCL 列表例如 OUTPUT 172 25 50 10 01 01 Ethernet 172 25 50 10 01 02 Ethernet Traffic Item 1 172 25 50 10 01
替换字符串/文本中“从第 n 次到最后一次”出现的单词

这个问题以前曾被问过但尚未得到令提问者满意的答案 https stackoverflow com questions 36368712 how to use stringrs replace all function to replace

随机推荐

修改并重新编译Android SDK

我知道Android中实现的一些方法和一些类没有导出到Android公共SDK中我已经能够通过编译我的应用程序并将其放置在 Android 树中来创建一个使用其中一些功能的应用程序是否可以通过从源代码重新编译这些函数来将其导出到 And
如何将一个数组输入与另一个数组输入关联起来？

假设我有 2 个扫描仪填充的阵列 name and age 每一项都按顺序填写如果我要找到数组中最年长的人如何使用数组打印出他们的名字和年龄例如最大的条目age was 78 有没有办法将其与name 数组来打印它参考代码 publ
当元素有多个类时，jquery 按特定类查找元素

所以我正在做一些后端团队在构建时没有经过深思熟虑的事情这给我留下了一个充满 div 的文档我正在做的是从我需要单击的元素回滚获取父容器然后在父容器中找到一个元素class alert box warn class alert box
在自定义损失函数中重塑张量

我有一个类似的问题这个问题 https stackoverflow com questions 43056512 reshape tensorflow tensor inside keras loss function 我正在尝试在 ker
使用 WorkflowServiceHost 进行 WF4 工作流版本控制

相关这个问题 https stackoverflow com questions 2064518 loading persisted workflow after workflowdefinition has changed in wf4
Android：ListAdapter 示例重绘相同内容

我使用此示例中的 ListAdapter http code google com p au optimizing layouts 201 source browse au optimizinglayouts src com example
显示在 SQL Management Studio (2008) 中为表创建命令

我刚刚开始使用 SQL Management Studio 我想知道是否可以显示现有表的创建命令我已经能够在 Oracle SQL Developer 中做到这一点我试图问 google 叔叔但可能只使用过错误的搜索命令无论如何有
背景图像路径在 CSS 中不起作用

相对路径在 CSS 中不起作用尽管它是正确的 width 64px background url images abc xyz bottom navigation jpg no repeat 0 0 萤火虫给出这个错误 Folder pa
Django内连接查询

我正在使用 django 很难掌握如何进行复杂的查询这是我的模型 class TankJournal models Model user models ForeignKey User tank models ForeignKey Tank
如何取消目标c中的本地单个通知

你能帮我看看如何在 iOS 10 中取消本地通知吗 UNUserNotificationCenter center UNUserNotificationCenter currentNotificationCenter center remo
反序列化动态 XML

The XML下面总是采用这种格式但是下面的元素
如何在自定义 TF2.4 训练循环中使用指数移动平均线

我有一个自定义训练循环可以简化如下 inputs tf keras Input dtype tf float32 shape None None 3 model tf keras Model inputs inputs loss f in
JRMP 连接建立时出错

我收到以下异常跟踪 java rmi ConnectIOException error during JRMP connection establishment nested exception is java net SocketTime
如何使用 Ruby 正则表达式匹配多位数字范围？

我正在尝试将 0000 格式的时间码匹配到 2459 如何匹配特定范围内的数字以便可以专门匹配 0 到 24 之间的所有数字以及 0 到 59 之间的所有数字而不大于或小于我知道如何匹配每个单独的数字但这不会达到我想要的效果因为例
如何使android列表视图中的文本从右到左对齐？

拜托我想让我的列表视图的项目像这样从右到左开始我该怎么做将以下内容添加到布局中 android layoutDirection rtl
Spring Tool Suite创建新的spring starter项目报错

我使用的是 spring 工具套件版本 3 8 3 在尝试创建新的 spring 启动项目时我收到错误 UnknownHostException start spring io 但我可以创建 Maven 项目并添加 Spring Boot
使 Web API 控制器异步返回 IQueryable 列表

我一直在尝试使以下控制器方法异步 public IQueryable
DbFit - 无法弄清楚如何在独立模式下运行

好吧我还是 DBFit 的新手我从这里下载了文件 Dbfit下载页面 https github com dbfit dbfit releases download v2 1 1 dbfit complete 2 1 1 zip 并运行s
为什么我会收到编译错误“org/codehaus/groovy/control/CompilationFailedException”？

我正在尝试使用 Ant 脚本和 Java 编译我的 JasperReports 模板我收到此错误 jasper java lang NoClassDefFoundError org codehaus groovy control Comp
Scrapy使用正则表达式从页面文本中提取数字

我花了几个小时来了解如何搜索页面上的所有文本以及如果它与正则表达式匹配则提取它我的蜘蛛设置如下 def parse self response title response xpath title text extract units r

Scrapy使用正则表达式从页面文本中提取数字

Scrapy使用正则表达式从页面文本中提取数字 的相关文章

随机推荐

热门标签

Scrapy使用正则表达式从页面文本中提取数字的相关文章