使用 BeautifulSoup 仅从 blogspot 提取特定部分的链接

2023-11-29

我正在尝试仅从 Blogspot 中提取某些部分的链接。但输出显示代码提取了页面内的所有链接。

这是代码：

import urlparse
import urllib
from bs4 import BeautifulSoup

url = "http://ellywonderland.blogspot.com/"

urls = [url]
visited = [url]

while len(urls) >0:
      try:
          htmltext = urllib.urlopen(urls[0]).read()
      except:
          print urls[0]

      soup = BeautifulSoup(htmltext)

      urls.pop(0)
      print len (urls)

      for tags in soup.find_all(attrs={'class': "post-title entry-title"}):
           for tag in soup.findAll('a',href=True):
                tag['href'] = urlparse.urljoin(url,tag['href'])
                if url in tag['href'] and tag['href'] not in visited:
                    urls.append(tag['href'])
                    visited.append(tag['href'])

print visited

这是我要提取的部分的 html 代码：

<h3 class="post-title entry-title" itemprop="name">
<a href="http://ellywonderland.blogspot.com/2011/02/pre-wedding-vintage.html">Pre-wedding * Vintage*</a>

谢谢。

如果你不一定需要使用BeautifulSoup我认为这样做会更容易：

import feedparser

url = feedparser.parse('http://ellywonderland.blogspot.com/feeds/posts/default?alt=rss')
for x in url.entries:
    print str(x.link)

Output:

http://ellywonderland.blogspot.com/2011/03/my-vintage-pre-wedding.html
http://ellywonderland.blogspot.com/2011/02/pre-wedding-vintage.html
http://ellywonderland.blogspot.com/2010/12/tissue-paper-flower-crepe-paper.html
http://ellywonderland.blogspot.com/2010/12/menguap-menurut-islam.html
http://ellywonderland.blogspot.com/2010/12/weddings-idea.html
http://ellywonderland.blogspot.com/2010/12/kawin.html
http://ellywonderland.blogspot.com/2010/11/vitamin-c-collagen.html
http://ellywonderland.blogspot.com/2010/11/port-dickson.html
http://ellywonderland.blogspot.com/2010/11/ellys-world.html

feed解析器可以解析 blogspot 页面的 RSS feed 并可以返回你想要的数据，在本例中是href对于帖子标题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

webcrawler

使用 BeautifulSoup 仅从 blogspot 提取特定部分的链接的相关文章

PyList_SetItem 与 PyList_SETITEM

据我所知 PyList SetItem 和 PyList SETITEM 之间的区别在于 PyList SetItem 会降低它覆盖的列表项的引用计数而 PyList SETITEM 不会我有什么理由不应该一直使用 PyList Set
具有多处理功能的 Python 代码无法在 Windows 上运行

以下简单的绝对初学者代码在 Ubuntu 14 04 Python 2 7 6 和 Cygwin Python 2 7 8 上运行 100 但在 Windows 64 位 Python 2 7 8 上挂起我使用另一个片段观察到了同样的情况
python导入模块时如何避免一直写模块名？

我用math最近模块很多我不想写math sqrt x and math sin x 每时每刻我想缩短它并写sqrt x and sin x How 对于较长的模块名称通常会缩短它们例如 import numpy as np 然后您
子进程改变目录

我想在子目录超级目录中执行脚本我需要首先进入该子目录超级目录我无法得到subprocess进入我的子目录 tducin localhost Projekty tests ve python Python 2 7 4 default
将 API 数据存储到 DataFrame 中

我正在运行 Python 脚本来从 Interactive Brokers API 收集金融市场数据连接到API后终端打印出请求的历史数据如何将数据保存到数据帧中而不是在终端中流式传输 from ibapi wrapper impor
如何从谷歌云存储桶读取音频文件并在datalab笔记本中使用ipd播放

我想在数据实验室笔记本中播放我从谷歌云存储桶中读取的声音文件这个怎么做 import numpy as np import IPython display as ipd import librosa import soundfile as
如何找到列表S的所有分区为k个子集（可以为空）？

我有一个唯一元素列表比方说 1 2 我想将其拆分为 k 2 个子列表现在我想要所有可能的子列表 1 2 1 2 2 1 1 2 我想分成 1 1 2 我怎样才能用 Python 3 做到这一点更新我的目标是获取 N 个唯一数字列表的
使用 Scipy imsave 将 Numpy 数组保存到图像时保留未更改的数据

使用 Scipy 保存二维 Numpy 数组单个值时toimage or imsave像素值与 Numpy 数组中的像素值不完全匹配相反在某些区域主要是边缘图像算法似乎使用某种插值是否有一个选项可以停止插值并保留准确的数据例
Python 正则表达式部分匹配或“hitEnd”

我正在编写一个扫描器因此我将任意字符串与正则表达式规则列表进行匹配如果我可以模拟 Java hitEnd 功能不仅知道正则表达式何时不匹配还知道何时匹配这将非常有用 can t匹配当正则表达式匹配器在决定拒绝输入之前到达输入末尾
错误：无法访问文件“$libdir/plpython2”：没有这样的文件或目录

我正在运行 postgresql 9 4 PostgreSQL 9 4 4 on x86 64 unknown linux gnu compiled by gcc GCC 4 1 2 20070626 Red Hat 4 1 2 14 64
杂乱的扭曲连接在不干净的时尚中消失了。没有代理。已经尝试过标题

我正在尝试抓取这个网站 https www5 apply2jobs com jupitermed ProfExt index cfm fuseaction mExternal searchJobs https www5 apply2jobs
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
Python 视频框架

我正在寻找一个 Python 框架它将使我能够播放视频并在该视频上绘图用于标记目的我尝试过 Pyglet 但这似乎效果不是特别好在现有视频上绘图时会出现闪烁即使使用双缓冲和所有这些好东西而且似乎没有办法在每帧回调期间获取视频中
如何检查列表是否为空？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动例如如果通过以下内容 a 我如何检查是否a是空的 if not a print Lis
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
Jupyter Notebook：没有名为 pandas 的模块

我搜索了其他问题但没有找到任何有帮助的内容大多数只是建议您使用 conda 或 pip 安装 pandas 在我的 jupyter 笔记本中我试图导入 pandas import pandas as pd 但我收到以下错误 Modul
为什么 bot.get_channel() 会产生 NoneType？

我正在制作一个 Discord 机器人来处理公告命令当使用该命令时我希望机器人在特定通道中发送一条消息并向用户发送一条消息以表明该命令已发送但是我无法将消息发送到频道我尝试了这段代码 import discord import
SQLAlchemy：避免声明式样式类定义中的重复

我正在使用 SQLAlchemy 并且我的对象模型中的许多类具有相同的两个属性 id 和整数和主键以及名称字符串我试图避免在每个类中声明它们如下所示 class C1 declarative base id Column Inte
在游戏中实现功能

我在完成这部分作业时遇到了麻烦我必须宣布游戏的获胜者然后输入到函数中输入所有 if 语句后我必须创建一个函数def playGame 这必须包括 showRules user getUserChoice computer getCo

随机推荐

如何将SqlAlchemy结果序列化为JSON？

Django 有一些很好的自动序列化功能可以将 ORM 模型从 DB 返回为 JSON 格式如何将SQLAlchemy查询结果序列化为JSON格式 I tried jsonpickle encode但它对查询对象本身进行编码我试过js
Angular 2：从父组件获取RouteParams

如何从父组件获取 RouteParams App ts Component RouteConfig path component HomeComponent as Home path username component ParentCom
在“for”循环中绘制几张不同大小的图片

我是 knitr 和 markdown 的新手这是我问的第一个问题也许这个问题有一个我找不到的简单答案我有一个 for 循环它创建了 3 个 ggplots 根据数据输入循环运行 300 到 400 次我想将这3张图片的大小定义
对许多实体使用一类 Voter

这是函数支持类课堂上的选民 http symfony com doc 2 5 cookbook security voters data permission html public function supportsClass class
按日期平均 Pandas 数据框

我有以下数据框的日期列表 debt date 2017 11 17 16 00 00 77 2017 11 17 17 00 00 73 2017 11 17 18 00 00 74 2017 11 17 19 00 00 73 2017
Rails .where() 查询不起作用

非常感谢你的帮助我有一个locations and ads桌子地点has many ads我对位置模型执行以下查询 locations Location joins ads where location params require l
如何替换mootools 1.3中的bindwithevent

我想知道如何替换Mootools 1 3中的bindWithEvent函数文档中的示例非常基本 Element addEvent click function e myFunction bind bind e 但是如果我需要将参数传递给
为什么在 scala 中使用 return 是一个坏习惯

我正在通过 coursera 上的函数式编程课程学习 scala 我注意到自动样式检查器告诉我使用 return 是一个坏习惯这是为什么对我来说使用 return 似乎会使代码更具可读性因为任何其他程序员都可以立即看到它以及函数返回
setNote 最后修改值

function onEdit e Set a comment on the edited cell to indicate when it was changed var range e range range setNote Last
当 Base64Encoded 图像嵌入到包含 html 的丰富电子邮件中时，图像尺寸会减小

我正在编写代码来生成富文本 html 作为邮件内容作为 eml 文件我已关注以下链接 https jsfiddle net seadotcom yd1n8Lfh 复制此问题的 JsFiddler 是 https jsfiddle net
在 Twisted 中实现 Direct Connect 客户端的正确方法？

我正在为 Direct Connect P2P 网络编写一个 Python 客户端本质上它的工作原理是连接到中央服务器并响应正在搜索文件的其他用户有时另一个客户会要求我们连接到他们他们可能会开始从我们这里下载文件这是与其他客户
保留换行符txt php

我怎样才能阅读 txt来自我的服务器的文件并保留它的换行符请注意换行符不是这样的 n或者什么他们更像是这你知道只是纯文本的新行我想附和 txt来自我的服务器的文件这是用 PHP 或其他语言编写的同时保留换行符提前谢谢
无法解析：com.facebook.android:facebook-android-sdk:4.0.0

我正在使用 Android Studio 1 1 0 我点击了此链接https developers facebook com docs android getting started 但出现错误无法解决教程 mavenCentral 中
Spring Boot 2.0.0 和同一应用程序具有不同域的静态资源

我已将一个 Web 应用程序从 Spring Boot 1 5 10 迁移到 2 0 0 该应用程序通过不同的域提供内容并使用 Heroku 进行部署主域工作正常但对于其他域 Javascript CSS 图像和图标等静态元素不起作用
尝试运行 awk 可执行文件时出现“错误解释器”错误消息

我正在尝试使 awk 文件可执行我已经写好了剧本并且做到了chmod x filename 这是代码 bin awk v TOPNUM 1 pick1 pick one random number out of y main routi
奇怪的断断续续的 WPF 动画

我正在制作一个在桌面上滚动信息的应用程序窗户是透明的我从简单开始试图找到动画效果的最低 CPU 使用率我从一个简单的 TextBlock 开始在我的开发机器上通过 DoubleAnimation 设置 Canvas Left 属
PHP 拼写检查工具

有没有这样的工具可以查找 PHP 代码中代码注释和字符串中的语言拼写错误例如如果我运行这样的工具那么它会为我找到 Hollo commont 和 anothor 拼写错误看看PHP功能pspell check 这是一部分Pspel
如何在swift中执行终端命令？

我是 Sswift 的新手我如何从 Swift 代码运行这个过程打开终端窗口 execute cd Desktop firebase mac execute npm start 我实际上想做的是通过 Swift 代码单击来启动 Node
Gettin 枚举类型可能无法实例化异常

我收到 RuntimeException 枚举类型不能被实例化我不知道为什么我想要的是通过一个整数值来标识年份比如我有 9 所以其他方法的年份是 2006 年代码 public class P21Make enum Catalog
使用 BeautifulSoup 仅从 blogspot 提取特定部分的链接

我正在尝试仅从 Blogspot 中提取某些部分的链接但输出显示代码提取了页面内的所有链接这是代码 import urlparse import urllib from bs4 import BeautifulSoup url http

使用 BeautifulSoup 仅从 blogspot 提取特定部分的链接

使用 BeautifulSoup 仅从 blogspot 提取特定部分的链接 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 仅从 blogspot 提取特定部分的链接的相关文章