从 Google Scholar 搜索结果中抓取和解析引文信息

2023-12-26

我有大约 20000 篇文章标题的列表，我想scrape他们来自谷歌学术的引用计数。我是 BeautifulSoup 库的新手。我有这个代码：

import requests
from bs4 import BeautifulSoup

query = ['Role for migratory wild birds in the global spread of avian 
 influenza H5N8','Uncoupling conformational states from activity in an 
 allosteric enzyme','Technological Analysis of the World’s Earliest 
 Shamanic Costume: A Multi-Scalar, Experimental Study of a Red Deer 
 Headdress from the Early Holocene Site of Star Carr, North Yorkshire, 
 UK','Oxidative potential of PM 2.5  during Atlanta rush hour: 
 Measurements of in-vehicle dithiothreitol (DTT) activity','Primary 
 Prevention of CVD','Growth and Deposition of Au Nanoclusters on Polymer- 
 wrapped Graphene and Their Oxygen Reduction Activity','Relations of 
 Preschoolers Visual-Motor and Object Manipulation Skills With Executive 
 Function and Social Behavior','We Know Who Likes Us, but Not Who Competes 
 Against Us']

url = 'https://scholar.google.com/scholar?q=' + query + '&ie=UTF-8&oe=UTF- 
       8&hl=en&btnG=Search'

content = requests.get(url).text
page = BeautifulSoup(content, 'lxml')
results = []
for entry in page.find_all("h3", attrs={"class": "gs_rt"}):
    results.append({"title": entry.a.text, "url": entry.a['href']})

但它只返回标题和网址。我不知道如何从另一个标签获取引文信息。请帮我一下。

您需要循环该列表。您可以使用 Session 来提高效率。以下是针对 bs 4.7.1 支持的:contains用于查找引用计数的伪类。看起来你可以删除h3从 css 选择器中输入选择器，然后在之前使用 classa i.e. .gs_rt a。如果您没有 4.7.1。您可以使用[title=Cite] + a选择引用计数。

import requests
from bs4 import BeautifulSoup as bs

queries = ['Role for migratory wild birds in the global spread of avian influenza H5N8',
         'Uncoupling conformational states from activity in an allosteric enzyme',
         'Technological Analysis of the World’s Earliest Shamanic Costume: A Multi-Scalar, Experimental Study of a Red Deer Headdress from the Early Holocene Site of Star Carr, North Yorkshire, UK',
         'Oxidative potential of PM 2.5  during Atlanta rush hour: Measurements of in-vehicle dithiothreitol (DTT) activity',
         'Primary Prevention of CVD','Growth and Deposition of Au Nanoclusters on Polymer-wrapped Graphene and Their Oxygen Reduction Activity',
         'Relations of Preschoolers Visual-Motor and Object Manipulation Skills With Executive Function and Social Behavior',
         'We Know Who Likes Us, but Not Who Competes Against Us']

with requests.Session() as s:
    for query in queries:
        url = 'https://scholar.google.com/scholar?q=' + query + '&ie=UTF-8&oe=UTF-8&hl=en&btnG=Search'
        r = s.get(url)
        soup = bs(r.content, 'lxml') # or 'html.parser'
        title = soup.select_one('h3.gs_rt a').text if soup.select_one('h3.gs_rt a') is not None else 'No title'
        link = soup.select_one('h3.gs_rt a')['href'] if title != 'No title' else 'No link'
        citations = soup.select_one('a:contains("Cited by")').text if soup.select_one('a:contains("Cited by")') is not None else 'No citation count'
        print(title, link, citations)

with requests.Session() as s:
    for query in queries:
        url = 'https://scholar.google.com/scholar?q=' + query + '&ie=UTF-8&oe=UTF-8&hl=en&btnG=Search'
        r = s.get(url)
        soup = bs(r.content, 'lxml') # or 'html.parser'
        title = soup.select_one('.gs_rt a')
        if title is None:
            title = 'No title'
            link = 'No link'
        else:  
            link = title['href']
            title = title.text
        citations = soup.select_one('[title=Cite] + a')
        if citations is None:
            citations = 'No citation count'
        else:
             citations = citations.text
        print(title, link, citations)

感谢@facelessuser 的评论，底层版本被重新编写。留下的顶级版本进行比较：

在单行 if 语句中不要调用 select_one 两次可能会更有效。当模式构建被缓存时，返回的标签不会被缓存。我个人会将变量设置为 select_one 返回的任何内容，然后，仅当变量为 None 时，将其更改为 No link 或 No title 等。它不是那么紧凑，但会更有效

[...]始终检查 if tag 是否为 None: 而不仅仅是 if tag:。对于选择器来说，这并不是什么大问题，因为它们只会返回标签，但如果你曾经做过类似 for x in tag.descendants 的事情：你会得到文本节点（字符串）和标签，并且空字符串将评估为 false，即使它是一个有效的节点。在这种情况下，检查 None 是最安全的

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 Google Scholar 搜索结果中抓取和解析引文信息的相关文章

导入错误：无法导入名称“FFProbe”

我无法获取ffprobe包 https github com simonh10 ffprobe在 Python 3 6 中工作我使用 pip 安装它但是当我输入import ffprobe it says Traceback most
在函数内的 for 循环上使用 tqdm 来检查进度

我正在使用 for 循环迭代目录树内的一大组文件这样做时我想通过控制台中的进度条来监视进度因此我决定使用 tqdm 来实现此目的目前我的代码如下所示 for dirPath subdirList fileList in tqdm
从 torch.autograd.gradcheck 导入 zero_gradients

我想复制代码here https github com LTS4 DeepFool blob master Python deepfool py 并且我在 Google Colab 中运行时收到以下错误 ImportError 无法导入名称
使用管理员权限打开cmd（Windows 10）

我有自己的 python 脚本来管理我的计算机上的 IP 地址它主要在命令行 Windows 10 中执行netsh命令您必须具有管理员权限这是我自己的计算机我是管理员运行脚本时我已经使用管理员类型的用户 Adrian 登录我无
动态字段取决于 WTForms 的先前字段

我正在使用 WTForms 制作表格目前我有这个 class UploadForm flask wtf Form fichier wtforms fields FileField u Fichier description wtform
了解 Python 2.7 中的缩进错误

在编写 python 代码时我往往会遇到很多缩进错误有时当我删除并重写该行时错误就会消失有人可以为菜鸟提供 python 中 IndentationErrors 的高级解释吗以下是我在玩 CheckIO 时收到的最近 inden
如何从 python 脚本执行 7zip 命令

我试图了解如何使用 os system 模块来执行 7zip 命令现在我不想用 Popen 或 subprocess 让事情变得复杂我已经安装了 7zip 并将 7zip exe 复制到我的用户文件夹中我只想提取我的测试文件 inst
使用会话在 Django 中将文件从一个视图传递到另一个视图

我当前的工作项目要求我允许用户上传各种格式的文件目前仅处理 CSV 格式然后使用包含的数据来绘制图表Pandas http pandas pydata org 图书馆我决定将图形渲染到模板的最简单方法是为图形创建特定视图然后将图像从
Python在没有pandas的情况下解码excel表

我正在尝试在 python 中读取 excel 文件而不使用pandas or xlrd 我一直在尝试将结果转换为bytes to utf 8没有任何成功 xls 文件中的数据 colA colB colC spc 1D0 20190705
Snakemake：将多个输入用于具有多个子组的一个输出的规则

我有一个工作管道用于下载比对和对公共测序数据执行变体调用问题是它目前只能在每个样本的基础上工作 i e作为每个单独测序实验的样本如果我想对一组实验例如样本的生物和或技术复制执行变体调用则它不起作用我试图解决它但我无法让它
Eclipse/PyDev 中未使用导入警告，尽管已使用

我正在我的文件中导入一个绘图包如下所示 import matplotlib pyplot as plt 稍后我会在我的代码中成功使用此导入 fig plt figure figsize 16 10 然而 Eclipse 告诉我未使用的导
将图与热图（可能是对数）配对？

How to create a pair plot in Python like the following but with heat maps instead of points or instead of a hex bin plot
数据损坏 C++ 和 Python 之间的管道

我正在编写一些代码从 Python 获取二进制数据将其通过管道传输到 C 对数据进行一些处理在本例中计算互信息度量然后将结果通过管道传输回 Python 在测试时我发现如果我发送的数据是一组尺寸小于 1500 X 1500 的 2
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件
如何检测一个二维数组是否在另一个二维数组内？

因此在堆栈溢出成员的帮助下我得到了以下代码 data needle s which is a png image base64 code goes here decoded data decode base64 f cStringIO
从给定的项目列表创建子列表

我首先要说的是以下问题不是为了家庭作业目的即使因为我几个月前就完成了软件工程师的工作无论如何今天我正在工作一位朋友向我询问了这个奇怪的排序问题我有一个包含 1000 行的列表每行代表一个数字我想创建 10 个子列表每个子列表都
用 pandas DataFrame 替换 mysql 数据库表中的行

Python 版本 2 7 6 熊猫版本 0 17 1 MySQLdb 版本 1 2 5 在我的数据库中 PRODUCT 我有一张桌子 XML FEED 表 XML FEED 很大数百万条记录我有一个 pandas DataFrame
PyQt5按钮lambda变量变成布尔值[重复]

这个问题在这里已经有答案了当我运行下面的代码时它显示如下为什么 x 不是 x 而是变成布尔值这种情况仅发生在传递到用 lambda 调用的函数中的第一个参数上错误的 y home me model some file from P
使用 python 将 CSV 文件上传到 Microsoft Azure 存储帐户

我正在尝试上传一个 csv使用 python 将文件写入 Microsoft Azure 存储帐户我已经发现C sharp https blogs msdn microsoft com jmstall 2012 08 03 convert

随机推荐

在 Pandas 中使用 ELIF 创建列

Question 我无法弄清楚如何根据其他两列中的值创建新的 DataFrame 列我需要使用 if elif else 逻辑但我找到的所有文档和示例都只显示 if else 逻辑这是我正在尝试做的事情的示例 Code df comb
TSQL - 选择插入的行

有没有办法选择插入的行我正在尝试使用运行以下查询SqlCommand 它用于在数据库中保留给定的id INSERT INTO tbl id SELECT COUNT 1 AS id from tbl 有没有办法返回插入的 id 列以便我
需要 sigsuspend 的解释

我需要对 sigsuspend 主题进行澄清我有一个简化的例子 sigset t mask oldmask sigemptyset mask sigaddset mask SIGRTMIN 1 sigprocmask SIG BLOCK
如何恢复/重新创建 mysql 的默认“mysql”数据库

当我安装mysql时它附带了两个数据库 mysql和信息模式我不小心删除了mysql数据库有什么办法可以重新创建它吗另外由于它包含一个包含用户信息的表是否有什么方法可以在没有它的情况下查看用户信息如果您仍然能够登录我假设您不
Facebook API 错误子代码 33

我有一个应用程序可以获取leads当潜在客户填写表单时在 webhook 请求后来自 facebook 某些页面抛出此错误 error message Unsupported get request Object with ID 2333
通过react获取cookie

我需要知道我的用户是否已连接为此我想读取我在服务器端使用express session设置的cookie app use session secret crypted key resave false saveUninitialized
为什么用分号连接多个 MySQL 查询不能与 Perl DBI 一起使用？

我想使用将值插入到两个单独的 MySQL 表中DBI https metacpan org pod DBI 我尝试将两个工作结合起来INSERT通过插入一个来查询它们之间 dbh gt do q INSERT INTO testA tes
在 docker 中运行 npm update，而不使用该特定更新的缓存

背景我正在编写代码node js using npm and docker 我试图让我的 docker 文件在构建时使用缓存这样就不会花费太长时间我们有一个通用存储库用于保存在各种存储库中使用的逻辑并且通过 npm 包进行传播
使用 OpenMP 并行化 while 循环

我有一个非常大的数据文件这个数据文件中的每条记录有4行我编写了一个非常简单的 C 程序来分析这种类型的文件并打印出一些有用的信息该程序的基本思想是这样的 int main char buffer BUFFER SIZE while f
JPA onetoMany/ManytoOne 持续存在 - 违反完整性约束 - 找不到父键

我的映射文件相关数据 Parent Entity Table name ATTRIBUTE NAME uniqueConstraints UniqueConstraint columnNames NAME TEXT SequenceGen
使用 Laravel Passport oauth/token 发送更多数据

所以我正在使用 Laravel Passport 到目前为止一切正常但是我想对护照代码进行一些小的更改好吧我希望不在供应商文件夹中一旦我会要求用户更改其密码以防他正在进行第一次登录所以我需要的是两件事我相信 1 如何在
mysql 查询优化

我的 x 表中有大约总共 1 049 906 个查询花费了 0 0005 秒如果我只是检索尝试检索特定字段记录花了不到6分钟这是我的查询 SELECT CUSTOMER CODE FROM X TBL 客户代码 gt 唯一上述查
如何配置 Express 响应对象以自动向 JSON 添加属性？

我有一个对象 var obj stuff stuff 在 Express 中我将其发送给客户端如下所示 res json obj 有没有办法配置响应对象自动将属性添加到它生成的 json 中例如输出 status ok data s
PHP 无需 cURL 即可获取 http 标头响应代码

我编写了一个类来检测 cURL 是否可用如果可用则使用 cURL 执行 GET POST DELETE 在我使用的 cURL 版本中curl getinfo curl CURLINFO HTTP CODE 获取 HTTP 代码如果 c
监控传出互联网流量

有没有办法以编程方式监控互联网流量我想记录用户在互联网上访问的页面这可以通过 NET 代码实现吗是否有可用于检索数据的第 3 方 NET 组件有关互联网流量的信息必须存储到数据库中因此我无法使用 IE 的插件或其他东西我们还希望
Python 3：从元组列表中删除空元组

我有一个元组列表内容如下 gt gt gt myList c e ca ea d do dog ear eat cat car dogs cars done eats cats ears don 我希望它是这样读的 gt gt gt my
标准输出未正确传递？

特殊的问题由于某种原因标准输出中的值无法被正确识别我想做的是 grep 正在侦听的端口的值并尝试匹配如果定义的端口存在即被监听产生一条消息如果不存在则产生另一条消息 name check prometheus status
搜索并替换为 ruby 正则表达式

我的 MySQL 列中有一个包含 HTML 的文本 blob 字段我必须更改一些标记所以我想我会在 ruby 脚本中完成它 Ruby 在这里无关紧要但很高兴看到它的答案标记如下所示 h5 foo h5 table tbody tbo
在 C++ 中忽略 std::cin 上的 EOF

我有一个实现交互式 shell 的应用程序类似于 Python 控制台 irb 的工作方式现在的问题是如果用户不小心点击了 DEOF 已发出我的getline 调用返回一个空字符串我将其视为无输入并再次显示提示这会导致打印提
从 Google Scholar 搜索结果中抓取和解析引文信息

我有大约 20000 篇文章标题的列表我想scrape他们来自谷歌学术的引用计数我是 BeautifulSoup 库的新手我有这个代码 import requests from bs4 import BeautifulSoup que

从 Google Scholar 搜索结果中抓取和解析引文信息

从 Google Scholar 搜索结果中抓取和解析引文信息 的相关文章

随机推荐

热门标签

从 Google Scholar 搜索结果中抓取和解析引文信息的相关文章