从html标签中提取信息到pandas中

2024-01-29

我有一个充满 html 文件的文件夹。我试图选择正确的 html 标签，以便正确打印引文，并且我需要的输出只是出版号和标题。到目前为止，我在 SO 中各个帖子的帮助下做到了这一点

with open(filename, 'r',encoding='utf-8') as f:# start loop to read HTML files in folder
    patent = f.read()
    #print(filename)
    soup = BeautifulSoup(patent, 'html.parser') 
    x=soup.select('tr[itemprop="backwardReferencesOrig"]')
    backorigdf= pd.read_html(str(x))
    print(backorigdf.loc[: , ['Publication number', 'Title']

但我收到错误消息 ValueError: Notablesfound。我希望以 pandas 数据帧格式输出多个 HTML 文件引用，以便我更容易分析数据。有人可以告诉我我做错了什么吗？这是 HTML 文件的链接https://patents.google.com/patent/US4458945?oq=US4458945A https://patents.google.com/patent/US4458945?oq=US4458945A。该文件以 HTML 文件形式保存在我的计算机上，我不想从 URL 中读取。我想用代码从 HTML 文档中获取。

了解预期结果的总数将有所帮助。在下面，我使用 :contains 来定位引文 h2 元素，然后移动到相邻的表，从而检索 25 个唯一结果

from bs4 import BeautifulSoup as bs
import requests
import pandas as pd
 
r = requests.get('https://patents.google.com/patent/US4458945?oq=US4458945A')
soup = bs(r.content, 'lxml')
df = pd.concat([pd.read_html(str(t.find_next('table')))[0]
                for t in soup.select('h2:contains("Citations", "Family Cites")')])

df.drop_duplicates(inplace=True)
df.sort_values(by=['Priority date'], inplace=True)
df.reset_index(drop=True, inplace=True) 
print(df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

pandas

string

beautifulsoup

从html标签中提取信息到pandas中的相关文章

Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
如何在codeigniter中将上传图片比例限制为16:9？

这是我用来上传图像的代码 this gt load gt library upload ext pathinfo file name PATHINFO EXTENSION img name now ext imgConfig upload
在Python中获取文件描述符的位置

比如说我有一个原始数字文件描述符我需要根据它获取文件中的当前位置 import os psutil some code that works with file lp lib open path to file p psutil Pro
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
Fabric env.roledefs 未按预期运行

On the 面料网站 http docs fabfile org en 1 10 usage execution html 给出这个例子 from fabric api import env env roledefs web hosts
刷新页面时保存用户的选择

我目前有一个页面显示不同团队的数据我有一些数据用户可以单击使其处于打开或关闭状态并为每个数据显示不同的图标它基本上就像一个清单只是没有物理复选框我想记住哪些复选框已被选中即使在用户刷新页面或关闭浏览器并稍后返回之后
将图像分割成多个网格

我使用下面的代码将图像分割成网格的 20 个相等的部分 import cv2 im cv2 imread apple jpg im cv2 resize im 1000 500 imgwidth im shape 0 imgheight i
如何在 Swift 2.0 中使用 stringByAddingPercentEncodingWithAllowedCharacters() 作为 URL

我在 Swift 1 2 中使用过这个 let urlwithPercentEscapes myurlstring stringByAddingPercentEscapesUsingEncoding NSUTF8StringEncoding
图像背景不透明度不影响边框

如何设置背景不透明度而不影响边框线不透明度我找到的解决方案没有帮助 div class selected img src assets img image product 1 thumbnail jpg alt product 1 thu
为字典中的一个键附加多个值[重复]

这个问题在这里已经有答案了我是 python 新手我有每年的年份和值列表我想要做的是检查字典中是否已存在该年份如果存在则将该值附加到特定键的值列表中例如我有一个年份列表并且每年都有一个值 2010 2 2009 4 1989
仅将 char[] 的一部分复制到 String 中

我有一个数组 char ch 我的问题如下如何将 ch 2 到 ch 7 的值合并到字符串中我想在不循环 char 数组的情况下实现这一点有什么建议么感谢您花时间回答我的问题 Use new String value offset
类型错误：预期单个张量时的张量列表 - 将 const 与 tf.random_normal 一起使用时

我有以下 TensorFlow 代码 tf constant tf random normal time step batch size 1 1 我正进入状态TypeError List of Tensors when single Te
Conda SafetyError：文件大小不正确

使用创建 Conda 环境时conda create n env name python 3 6 我收到以下警告 Preparing transaction done Verifying transaction SafetyError Th
如何创建适合屏幕宽度的等宽/高框？ [复制]

这个问题在这里已经有答案了我正在尝试建立一个网站其中有很多宽度和高度相等的框例如我有一个页面其中并排有两个相同大小的框简单的解决方案是将宽度和高度设置为 50vw 这在出现滚动条之前效果很好我已经用谷歌搜索了几个小时但无法理
使用 Python 绘制 2D 核密度估计

I would like to plot a 2D kernel density estimation I find the seaborn package very useful here However after searching
使用css bootstrap时如何仅向一列添加右边框？

我正在尝试使用CSS引导框架 http getbootstrap com css tables在我的项目中我正在使用带有以下类的表table table bordered table striped 我想删除除第一列之外的所有列的边框这
Python：如何将列表列表的元素转换为无向图？

我有一个程序可以检索 PubMed 出版物列表并希望构建一个共同作者图这意味着对于每篇文章我想将每个作者如果尚未存在添加为顶点并添加无向边或增加每个合著者之间的权重我设法编写了第一个程序该程序检索每个出版物的作者列表并
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O

随机推荐

轮播引导程序中的拉伸图像

我正在使用 Bootstrap 4 那里有一个带有图片的轮播图像一直显示拉伸不知道出了什么问题 carousel margin bottom 4rem position relative carousel caption bottom
在非常大的树上执行 DFS 的最佳方法是什么？

情况是这样的应用世界由数十万个状态组成给定一个状态我可以计算出一组 3 或 4 个其他可到达的状态一个简单的递归可以构建一个状态树它会变得非常大且非常快我需要从根状态到该树中的特定深度执行 DFS 以搜索包含最小状态的子树
Dalvik 和 Android 工具链可以带来哪些优化？

我正在开发一个高性能 Android 应用程序一款游戏虽然我首先尝试编写代码以提高可读性但我喜欢在脑海中保留一幅幕后发生的事情的图片通过 C 我对编译器能为我做什么和不能做什么有了相当好的直觉我正在尝试为 Java Android
使用 std::vector 调用 std::lock ()

我想将以下代码替换为std lock for mutex m mutexes m gt lock 无论如何我可以调用std lock 在那些给定的互斥体上std vector
如何在 ActiveSupport::TestCase 中存根方法

In RSpec我可以像这样存根方法 allow company to receive foo 300 我怎样才能存根一个方法ActiveSupport TestCase 我有一个这样的测试 class CompanyTest lt Act
对文件中所有奇数行求和的 Pythonic 方法

我正在学习 Python 以便参加研究生院的编程分班测试这实际上是我为了感受它而编写的第一个小脚本我的背景主要是C 和PHP 但是我在测试中不能使用任何一种语言我的测试脚本读取以下文本文件 test file1 txt 偶数行包含样本
应该如何创建一个可能抛出异常的 akka actor？

我正在将一个项目从 scala Actor 迁移到 Akka Actor 我曾经有过类似的情况如果某个系统资源不可用 MyActor 的构造函数可能会抛出异常 var myActor MyActor null try myActor ne
如何制作基本的 FullCalendar 自定义视图

下面的代码来自 FullCalendar 的自定义视图 https fullcalendar io docs views Custom Views 文档这似乎是一个很好的开始但是对于像我这样的新手来说拥有一些呈现最简单的自定义视图带
仅将最后一个 shell 命令的标准输出放入 Python 变量中[重复]

这个问题在这里已经有答案了 prova sh 包含 bin bash echo Output that I don t want echo Output that I don t want echo Output that I don t
java.text.ParseException：使用 Clock.systemUTC() 时出现无法解析的日期错误[重复]

这个问题在这里已经有答案了我在解析日期时遇到解析错误 java text ParseException 无法解析的日期 2021 06 17T05 49 41 174Z 无法解析的日期 2021 06 17T05 49 41 174Z 我
使用 dgtsv_ 或 sgtsv_ 求解 A*X = B 类型的方程

我正在尝试求解 SWIFT 中的 A X B 类型的线性方程组我已经能够使用基于 LU 分解的算法来做到这一点该算法消耗 O N 2 内存由于我的数组通常很大 10000 个样本或更多因此我正在研究 LAPACK 它具有一些特定于三
登录 OS X，验证 iOS 和 OSStatus -9809

我正在使用苹果的安全框架 https developer apple com library mac documentation Security Reference SecurityFrameworkReference 我能够在 OS X
如何让 bash 将 stderr 重定向到 >( 命令替换)？

我可以很好地将标准输出重定向到命令重定向 echo stdout gt 2 echo stderr gt gt rev stderr tuodts 但是当我尝试将 stderr 重定向到另一个时它似乎通过了 stdout 通道 echo
Git：如何使用多个存储库？

我有一个远程只读 git 存储库A 我已将其克隆到本地文件系统中 A定期更新每次更新后我都会将更新的代码拉取并合并到我的系统中我想与我的团队成员就以下文件进行协作A 为此我创建了一个新的远程存储库B 我如何管理同步B与我的本地存储库
避免在终端/cmd 上运行 FFmpeg

I m using FFmpeg for a small project so I built a GUI basic application for video editing here is the image 一切工作正常但我只是想
如何使用 WPF 将文本换行到标签中？

我有一个TextBox和一个标签单击按钮后我执行以下代码 label1 Content textbox1 Text 我的问题是如何启用标签的文本换行一行上可能显示太多文本如果是这种情况我希望它自动换行为多行 The Label控
如何将 CSRF 令牌从服务器传递到客户端？

这听起来可能是一个愚蠢的问题我想澄清这一点如果首先将令牌发送给客户端并且客户端发回相同的令牌 csrf 令牌如何帮助识别跨站请求恶意客户端不会得到服务器的响应吗如果我们在发送令牌时检查来源那么令牌检查的事情是不是显得多余我们如何
ASP.NET MVC 如何在布局中使用 Partial View？

我需要使用部分视图在布局中渲染菜单如果有更好的方法请告诉我我这样做在布局中 if User IsInRole Admin Html Partial AdminMenu 我在控制器中这样称呼它 public ActionResult
从 xarray 数据集中的某些变量中删除维度

我有一个 xarray 数据集其中某些变量的维度超出了必要的维度例如纬度和经度变量也随时间变化的 3D 数据集如何删除多余的尺寸例如在下面的数据集中 bar 是沿x and y轴沿轴具有恒定值x轴我该如何删除x尺寸来自
从html标签中提取信息到pandas中

我有一个充满 html 文件的文件夹我试图选择正确的 html 标签以便正确打印引文并且我需要的输出只是出版号和标题到目前为止我在 SO 中各个帖子的帮助下做到了这一点 with open filename r encoding

从html标签中提取信息到pandas中

从html标签中提取信息到pandas中 的相关文章

随机推荐

热门标签

从html标签中提取信息到pandas中的相关文章