BeautifulSoup findall 带有类属性 - unicode 编码错误

2024-03-03

我正在使用 BeautifulSoup 从中提取新闻报道（仅标题）黑客新闻 http://news.ycombinator.com到现在为止就这么多了-

import urllib2
from BeautifulSoup import BeautifulSoup

HN_url = "http://news.ycombinator.com"

def get_page():
    page_html = urllib2.urlopen(HN_url) 
    return page_html

def get_stories(content):
    soup = BeautifulSoup(content)
    titles_html =[]

    for td in soup.findAll("td", { "class":"title" }):
        titles_html += td.findAll("a")

    return titles_html

print get_stories(get_page()

)

然而，当我运行代码时，它给出了一个错误 -

Traceback (most recent call last):
  File "terminalHN.py", line 19, in <module>
    print get_stories(get_page())
UnicodeEncodeError: 'ascii' codec can't encode character u'\xe2' in position 131: ordinal not in range(128)

我该如何让它发挥作用？

因为 BeautifulSoup 在内部使用 unicode 字符串工作。将 unicode 字符串打印到控制台将导致 Python 尝试将 unicode 转换为 Python 的默认编码（通常为 ascii）。对于非 ASCII 网站，这通常会失败。您可以通过谷歌搜索“python + unicode”来了解有关 Python 和 Unicode 的基础知识。同时转换您的 unicode 字符串使用 utf-8

print some_unicode_string.decode('utf-8')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

BeautifulSoup findall 带有类属性 - unicode 编码错误的相关文章

Python 的键盘中断不会中止 Rust 函数 (PyO3)

我有一个使用 PyO3 用 Rust 编写的 Python 库它涉及一些昂贵的计算单个函数调用最多需要 10 分钟从 Python 调用时如何中止执行 Ctrl C 好像只有执行结束后才会处理所以本质上没什么用最小可重现示例 Ca
Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
OpenCV Python cv2.mixChannels()

我试图将其从 C 转换为 Python 但它给出了不同的色调结果 In C Transform it to HSV cvtColor src hsv CV BGR2HSV Use only the Hue value hue create
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
Django：按钮链接

我是一名 Django 新手用户尝试创建一个按钮单击该按钮会链接到我网站中的另一个页面我尝试了一些不同的例子但似乎没有一个对我有用举个例子为什么这不起作用
python 相当于 R 中的 get() （= 使用字符串检索符号的值）

在 R 中 get s 函数检索名称存储在字符变量向量中的符号的值s e g X lt 10 r lt XVI s lt substr r 1 1 X get s 10 取罗马数字的第一个符号r并将其转换为其等效整数尽管花了一些时间翻
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
如何加速Python中的N维区间树？

考虑以下问题给定一组n间隔和一组m浮点数对于每个浮点数确定包含该浮点数的区间子集这个问题已经通过构建一个解决区间树 https en wikipedia org wiki Interval tree 或称为范围树或线段树已经针对一
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
如何在ipywidget按钮中显示全文？

我正在创建一个ipywidget带有一些文本的按钮但按钮中未显示全文我使用的代码如下 import ipywidgets as widgets from IPython display import display button wid
Pygame：有没有简单的方法可以找到按下的任何字母数字的字母/数字？

我目前正在开发的游戏需要让人们以自己的名义在高分板上计时我对如何处理按键有点熟悉但我只处理过寻找特定的按键有没有一种简单的方法可以按下任意键的字母而不必执行以下操作 for event in pygame event get if
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
每个 X 具有多个 Y 值的 Python 散点图

我正在尝试使用 Python 创建一个散点图其中包含两个 X 类别 cat1 cat2 每个类别都有多个 Y 值如果每个 X 值的 Y 值的数量相同我可以使用以下代码使其工作 import numpy as np import mat
有人用过 Dabo 做过中型项目吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我们正处于一个新的 ERP 风格的客户端服务器应用程序的开始阶段该应用程序是作为 Python 富客户端开发的我们目前正在评估 Dabo
如何计算 pandas 数据帧上的连续有序值

我试图从给定的数据帧中获取连续 0 值的最大计数其中包含来自 pandas 数据帧的 id date value 列如下所示 id date value 354 2019 03 01 0 354 2019 03 02 0 354 201
在 Qt 中自动调整标签文本大小 - 奇怪的行为

在 Qt 中我有一个复合小部件它由排列在 QBoxLayouts 内的多个 QLabels 组成当小部件调整大小时我希望标签文本缩放以填充标签区域并且我已经在 resizeEvent 中实现了文本大小的调整这可行但似乎发生了某
从列表指向字典变量

假设你有一个清单 a 3 4 1 我想用这些信息来指向字典 b 3 4 1 现在我需要的是一个常规看到该值后在 b 的位置内读写一个值我不喜欢复制变量我想直接改变变量b的内容假设b是一个嵌套字典你可以这样做 reduce di
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

如何忽略部分文本并在剩余部分进行搜索和替换？ [复制]

这个问题在这里已经有答案了在文本文件中进行正则表达式查找和替换时我想跳过并忽略文本的某些片段也就是说应该将文本的某些部分排除在搜索之外而只对其余部分进行搜索和替换标准是 1 任何介于START and END应从搜索和替换中排除
通过 Enum 快速递增

我喜欢 Swift 允许使用枚举方法我正在尝试使用一种方法但正在寻找一种更具可扩展性的方法来执行此操作 enum CopyState case binary hex both init self both mutating func n
转换运算符：gcc 与 clang

考虑以下代码 https godbolt org z s17aoczj6 https godbolt org z s17aoczj6 template
使用 D3 创建 DIV 动态列表

我一直在使用D3 http d3js org创建精美的动画图表并且示例很棒然而我正在尝试做一些看似更基本的事情但遇到了麻烦将数据绑定到简单的 DIV 列表我设置了enter 以不透明度 0 初始化元素 transition 让它
使用尺寸类别时 UITableViewCell 子视图报告不正确的宽度

由于某种原因当在 xcode 6 中使用尺寸类时我的单元格中的子视图宽度不正确我有一个UIImageView使用自动布局调整大小常量顶部左右底部为 10 当从以下位置调用以下内容时tableView tableView UI
jQuery 'mmenu' 打开时的回调事件

使用 jQuery菜单插件 http mmenu frebsite nl 我需要在菜单打开后调用 JavaScript 函数我看不到从API文档 http mmenu frebsite nl documentation api html如
如何将字符转换为等效的 System.Windows.Input.Key Enum 值？

我想写一个这样的函数 public System Windows Input Key ResolveKey char charToResolve Code goes here that resolves the charToResolve
Flask SQLAlchemy 不会关闭 MySQL 数据库连接

我有一个 Flask 应用程序使用 Flask SQLAlchemy 和 MySQL 数据库其中数据库定义如下 db py from flask sqlalchemy import SQLAlchemy db SQLAlchemy ma
VBA宏快速删除行

我有几个非常大的 Excel 数据文件我需要遍历它们并删除 T 列中单元格值为 1 的所有行现在我的代码如下所示 Sub test Dim cell As Range For Each cell In Worksheets Sheet1
下载blob存储并返回Json对象

我正在尝试下载一个 json我存储在容器中的 blobAzure Storage using Newtonsoft Json将其写入对象我通过调用来做到这一点 CloudBlockBlob blob DownloadToStream st
PostgreSQL - 错误：查询没有结果数据的目标

为什么我会收到以下错误错误查询没有结果数据的目标这是我的功能 CREATE OR REPLACE FUNCTION public SumASCII value character varying RETURNS int LANGUAG
由点聚类着色的等高线图 matlab

我有两个向量它们是成对的值 size X 1e4 x 1 size Y 1e4 x 1 是否可以绘制一个contour plot某种方式通过最高密度的点来制作轮廓即最高聚类红色然后在其他地方渐变颜色如果您需要更多说明请询问问候
引用另一个 Snakemake 规则的输入或输出文件

如何以编程方式引用另一个 Snakemake 规则的属性我需要更换什么
为什么惰性评估有用？

我长期以来一直想知道为什么惰性评估有用我还没有人以一种有意义的方式向我解释大多数情况下它最终都会归结为相信我注意我的意思不是记忆主要是因为它可以更有效如果不使用值则不需要计算它们例如我可以将三个值传递到一个函数中但根
如何消除数字范围中的重叠 (AWK)

我正在尝试删除文件内的重叠部分有一堆以 A 开头的记录并且具有起始值和结束值还有一堆以 B 开头的记录也有范围并且显示与以 A 开头的记录可能重叠这个想法是从 A 中删除重叠范围以便只存在非重叠范围 B 中的某些记录具有
为什么GCC的ifstream >> double分配这么多内存？

我需要读取一系列数字以空格分隔的人类可读文件 https earth info nga mil GandG wgs84 gravitymod egm96 ww15mgh grd z并做了一些数学计算但我在读取文件时遇到了一些真正奇怪的内存
WPF 在单独的 UI 线程上加载动画？（C＃）

好的我有一个加载动画在填充大型数据表时运行让用户知道程序尚未冻结我的动画工作正常但在数据表更新时它也会冻结是否有某种方法可以拥有多个 UI 线程以便在 DataTable 加载信息时动画能够继续运行编辑当前代码如下 pri
检查 git 存储库的完整性

当我的磁盘在访问 git 存储库时报告了一长串不可恢复的读取错误后我担心我对其他存储库进行了一些推送这些存储库可能会将错误的内容转发给它们顺便说一句在使用提交推拉访问存储库时没有任何 git 命令报告任何错误但访问存储库
PyQt QML 错误控制台丢失

标题几乎说明了一切假设我有这个简单的应用程序 main py gt gt gt import sys from PyQt5 QtCore import QUrl from PyQt5 QtWidgets import QApplicati
BeautifulSoup findall 带有类属性 - unicode 编码错误

我正在使用 BeautifulSoup 从中提取新闻报道仅标题黑客新闻 http news ycombinator com到现在为止就这么多了 import urllib2 from BeautifulSoup import Beaut

BeautifulSoup findall 带有类属性 - unicode 编码错误

BeautifulSoup findall 带有类属性 - unicode 编码错误 的相关文章

随机推荐

热门标签

BeautifulSoup findall 带有类属性 - unicode 编码错误的相关文章