通过抓取信息创建新列

2023-12-07

我正在尝试将从网站上抓取的信息添加到列中。我有一个数据集，如下所示：

COL1   COL2    COL3
...     ...    bbc.co.uk

我想要一个包含新列的数据集：

 COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk

IP Address  Server Location    City       Region

这些新专栏来自该网站：https://www.urlvoid.com/scan/bbc.co.uk。我需要在每一列中填写相关信息。

例如：

  COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk         Bbc.co.uk         9 days ago       0/35

Domain Registration               IP Address       Server Location    City       Region
1996-08-01 | 24 years ago       151.101.64.81    (US) United States   Unknown    Unknown

不幸的是，我在创建新专栏并用从网站上抓取的信息填充它们时遇到了一些问题。我可能还有更多网站要检查，不仅仅是 bbc.co.uk。请参阅下面使用的代码。我确信有更好的（并且不那么混乱）的方法来做到这一点。如果您能帮我解决问题，我将非常感激。谢谢

EDIT:

如上例所示，对于已经存在的数据集，包括三列（col1, col2 and col3）我还应该添加来自抓取的字段（Website Address,Last Analysis,Blacklist Status, ...）。对于每个 url，我应该有与其相关的信息（例如bbc.co.uk在示例中）。

 COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk          Bbc.co.uk         9 days ago       0/35
...     ...    stackoverflow.com
...     ...    ...


IP Address  Server Location    City       Region
  COL1   COL2    COL3          Website Address   Last Analysis   Blacklist Status \  
...     ...    bbc.co.uk         Bbc.co.uk         9 days ago       0/35
...     ...    stackoverflow.com Stackoverflow.com  7 days ago      0/35


Domain Registration               IP Address       Server Location    ...
996-08-01 | 24 years ago       151.101.64.81    (US) United States    ...
2003-12-26 | 17 years ago      ...

（格式不好，但我认为这足以让您了解预期的输出）。

更新的代码：

urls= ['bbc.co.uk', 'stackoverflow.com', ...]

for x in urls:
        print(x)
        r = requests.get('https://www.urlvoid.com/scan/'+x)
        soup = BeautifulSoup(r.content, 'lxml')
        tab = soup.select("table.table.table-custom.table-striped")
        dat = tab[0].select('tr')
        for d in dat:
                row = d.select('td')
                original_dataset[row[0].text]=row[1].text

不幸的是，我做错了一些事情，因为它仅将网站（即 bbc.co.uk）上检查的第一个网址中的信息复制到新列下的所有行上。

让我知道这是否是您正在寻找的：

cols = ['Col1','Col2']
rows = ['something','something else']
my_df= pd.DataFrame(rows,index=cols).transpose()
my_df

从这一行获取现有代码：

dat = tab[0].select('tr')

add:

for d in dat:
    row = d.select('td')
    my_df[row[0].text]=row[1].text
my_df

输出（抱歉格式问题）：

    Col1       Col2       Website Address   Last Analysis   Blacklist Status    Domain Registration     Domain Information  IP Address  Reverse DNS     ASN     Server Location     Latitude\Longitude  City    Region
0   something   something else  Bbc.com     11 days ago  |  Rescan  0/35    1989-07-15 | 31 years ago   WHOIS Lookup | DNS Records | Ping   151.101.192.81   Find Websites  |  IPVoid  |  ...   Unknown     AS54113 FASTLY  (US) United States  37.751 / -97.822   Google Map   Unknown     Unknown

Edit:

要使用多个 url 来执行此操作，请尝试如下操作：

urls = ['bbc.com', 'stackoverflow.com']
ares = []
for u in urls:
    url = 'https://www.urlvoid.com/scan/'+u
    r = requests.get(url)
    ares.append(r)
rows = []
cols = []
for ar in ares:
    soup = bs(ar.content, 'lxml')
    tab = soup.select("table.table.table-custom.table-striped")        
    dat = tab[0].select('tr')
    line= []
    header=[]
    for d in dat:
        row = d.select('td')
        line.append(row[1].text)
        new_header = row[0].text
        if not new_header in cols:
            cols.append(new_header)

    rows.append(line)

my_df = pd.DataFrame(rows,columns=cols)   
my_df

Output:

Website Address     Last Analysis   Blacklist Status    Domain Registration     Domain Information  IP Address  Reverse DNS     ASN     Server Location     Latitude\Longitude  City    Region
0   Bbc.com     12 days ago  |  Rescan  0/35    1989-07-15 | 31 years ago   WHOIS Lookup | DNS Records | Ping   151.101.192.81   Find Websites  |  IPVoid  |  ...   Unknown     AS54113 FASTLY  (US) United States  37.751 / -97.822   Google Map   Unknown     Unknown
1   Stackoverflow.com   5 minutes ago  |  Rescan    0/35    2003-12-26 | 17 years ago   WHOIS Lookup | DNS Records | Ping   151.101.1.69   Find Websites  |  IPVoid  |  Whois   Unknown     AS54113 FASTLY  (US) United States  37.751 / -97.822   Google Map   Unknown     Unknown

请注意，这没有您现有的两个列（因为我不知道它们是什么），因此您必须将它们单独附加到数据框。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

通过抓取信息创建新列的相关文章

为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
多输出堆叠回归器

一次性问题我正在尝试构建一个多输入堆叠回归器添加到 sklearn 0 22 据我了解我必须结合StackingRegressor and MultiOutputRegressor 经过多次尝试这似乎是正确的顺序 import nu
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
Django Rest Framework 是否有第三方应用程序来自动生成 swagger.yaml 文件？

我有大量的 API 端点编写在django rest framework并且不断增加和更新如何创建和维护最新的 API 文档我当前的版本是 Create swagger yaml文件并以某种方式在每次端点更改时自动生成然后使用此文件作
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
打印数字时添加千位分隔符[重复]

这个问题在这里已经有答案了我真的不知道这个问题的名称所以它可能是一个不正确的标题但问题很简单如果我有一个数字例如 number 23543 second 68471243 我想要它使print 像这样 23 54368 471
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

gapi 帐户数据 url 变为 404

有谁知道 GAPI 1 3 1 类使用的新帐户数据 url 目前的一个是 https www google com analytics feeds accounts default但它会转到 404 Regards 转到 https cod
使用元素将 xml 加载到 mysql 表中

我正在尝试在表中加载 xml 文件问题在于 XML 元素与其数据一起插入到表中这是表字段节目名程序地址目录名称最近更新时间姓名关键词描述存货单元制造商制造商编号统一产品代码货币价格购买网址印象网址图片网址
C# NetSuite WebServices：从保存的搜索中的自定义字段获取值 (ItemSearchAdvanced)

我正在使用 C MVC 通过其 WebServices API 连接到 NetSuite 我有一些当前的代码可以调用已保存的库存项目搜索这是当前运行完美的代码 ItemSearchAdvanced searchItems new Ite
Firebase firestore 查询：“错误：9 FAILED_PRECONDITION：查询需要索引。您可以在此处创建它”

我有一个我认为是对名为电子邮件的集合的简单查询 const emailQuery admin firestore collection email where sendAt gt new Date where orderId doc o
在 SQL Server 2014 中使用 sp_send_dbmail 出现一般失败

我正在尝试使用sp send dbmail通过 SQL Server 2014 中的 SQLAgent 作业发送查询结果我相信我的 DBMail 配置文件设置正确但运行此命令时 exec msdb dbo sp send dbmail
如何合并两个 csv 文件中的所有内容，其中记录与 1 列匹配

我有两个 csv 文件他们都有SamAccountName共同点用户记录可能会也可能不会为两个文件之间的每条记录找到匹配项这一点非常重要我基本上试图将所有列及其值合并到一个文件中基于第一个文件中找到的 SamAccountNa
Miniconda 无法激活虚拟环境

当我在 Windows 8 上的 Miniconda 中创建虚拟环境并在 PowerShell 中激活它 activate env 时它说该环境正在被激活但是在输入 conda env list 时它显示我仍然在根环境我检查了 Mi
Javascript如何合并数组以使两个数组中原始元素的索引保持相同

如何在JS中合并数组以使两个数组中原始元素的索引保持相同看来扩展数组没有满足我的需要 let testArray Array
moment js 返回 iso 时间戳的错误格式值

我路过 2018 01 31T22 55 02 907Z 这个时间戳到moment 函数但在格式化日期部分后返回错误的值 console log moment 2018 01 31T22 55 02 907Z format YYYY MM
jQuery.load()，混合 HTTP/HTTPS 和 Internet Explorer

我正在尝试使用以下命令加载远程 HTML 页面jQuery load https someurl com someClass 执行加载的页面位于 HTTPS 上远程页面可用作 HTTP 和 HTTPS 在合理的浏览器中一切正常但 IE
vb.net SQL 查询在 SQL Server 中有效，但从复选框调用时无效

我有一个带有复选框的数据网格它调用一个名为 checkbox CheckedChanged 的例程到目前为止一切都很好我已经设法让它计算出数据视图中另一列的值这使我能够确定正在处理的行的 id 我试图让它更改定义复选框初始值的列
Javascript 自执行应该可以工作吗？

我有这个代码 function i alert i 3 它不起作用所以在 StackOverFlow 问题之后我将其更改为 function i alert i 3 它有效我不得不 wrap所有代码但后来我在其他网站上看到了这段代码
FileSystemWatcher 一段时间后不会触发

我有以下代码用于监视目录中的文本文件该目录每天两次获取新文件代码在一段时间内工作正常但之后它停止触发 OnCreated 事件 PermissionSet SecurityAction Demand Name FullTrust p
elmah 错误处理 - 存储在数据库中

如何让 ELMAH 将缓存的错误存储在我的数据库中有人已经实施了吗如果是请指导我如何一步一步地做到这一点谢谢以下文章介绍了如何配置 ELMAH 以登录到 SQL Server 数据库 http www codeproject co
TypeScript：接口多态问题

我有一个基地Account界面 interface Account id number email string password string type AccountType where 帐户类型 enum AccountType Fo
如何将 OO Perl 转换为 Java？

我继承了庞大的 OO Perl 代码需要逐渐转换为 Java 根据客户端请求我懂两种语言但对 Perl 技能却很生疏你们有没有可以推荐的工具 Eclipse 插件来减轻痛苦 OO 代码使用 Moose 吗如果是则可以使用内省自
mysqlclient 构建轮子失败

我下载了wheel到最新版本但我不完全确定如何理解这个半神秘的错误消息 Failed building wheel for mysql python Command Users username Desktop Project venv
php curl：我需要一个简单的发布请求和页面示例检索

我想知道如何在curl中发送post请求并获取响应页面像这样的事情怎么样 ch curl init curlConfig array CURLOPT URL gt http www example com yourscript php C
如何获取有关 SQLite 中外键的信息？

sqlite master 表似乎缺少信息我如何获得有关我的表的一些额外信息例如约束信息等有什么例子吗或者是否有一些我从未听说过的有用的图书馆 Use PRAGMA foreign key list table 它返回表的外键然后
通过抓取信息创建新列

我正在尝试将从网站上抓取的信息添加到列中我有一个数据集如下所示 COL1 COL2 COL3 bbc co uk 我想要一个包含新列的数据集 COL1 COL2 COL3 Website Address Last Analysis Bl

通过抓取信息创建新列

通过抓取信息创建新列 的相关文章

随机推荐

热门标签

通过抓取信息创建新列的相关文章