使用 urllib 删除 python 中的换行符

2023-12-05

我正在使用Python 3.x。使用时urllib.request要下载网页，我得到了很多\n之间。我正在尝试使用论坛其他线程中给出的方法删除它，但我无法这样做。我用过strip()函数和replace()功能...但没有运气！我在 eclipse 上运行这段代码。这是我的代码：

import urllib.request

#Downloading entire Web Document 
def download_page(a):
    opener = urllib.request.FancyURLopener({})
    try:
        open_url = opener.open(a)
        page = str(open_url.read())
        return page
    except:
        return""  
raw_html = download_page("http://www.zseries.in")
print("Raw HTML = " + raw_html)

#Remove line breaks
raw_html2 = raw_html.replace('\n', '')
print("Raw HTML2 = " + raw_html2)

我无法找出获得大量的原因\n in the raw_html多变的。

Your download_page()函数破坏了 html (str()打电话）这就是为什么你会看到\n（两个字符\ and n）在输出中。不要使用.replace()或其他类似的解决方案，修复download_page()函数代替：

from urllib.request import urlopen

with urlopen("http://www.zseries.in") as response:
    html_content = response.read()

在此刻html_content包含一个bytes目的。要将其作为文本获取，您需要知道其字符编码，例如，从Content-Typehttp标头：

encoding = response.headers.get_content_charset('utf-8')
html_text = html_content.decode(encoding)

See 在 Python 中获取 HTTP 响应的字符集/编码的好方法.

如果服务器没有传入字符集Content-Type标题然后有计算 html5 文档中字符编码的复杂规则例如，它可以在 html 文档中指定：<meta charset="utf-8">（你需要一个 html 解析器来获取它）。

如果你正确地阅读了 html 那么你不应该看到文字字符\n在页面中。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 urllib 删除 python 中的换行符的相关文章

如何在 __init__ 中使用await设置类属性

我如何定义一个类await在构造函数或类体中例如我想要的 import asyncio some code class Foo object async def init self settings self settings setti
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
使用主题交换运行多个 Celery 任务

我正在用 Celery 替换一些自制代码但很难复制当前的行为我期望的行为如下创建新用户时应向tasks与交换user created路由键该消息应该触发两个 Celery 任务即send user activate email
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
为什么一旦我离开内置的运行服务器，Django 就无法找到我的管理媒体文件？

当我使用内置的简单服务器时一切正常管理界面很漂亮 python manage py runserver 但是当我尝试使用 wsgi 服务器为我的应用程序提供服务时django core handlers wsgi WSGIHandle
Java 和 Python 可以在同一个应用程序中共存吗？

我需要一个 Java 实例直接从 Python 实例数据存储中获取数据我不知道这是否可能数据存储是否透明唯一或者每个实例如果它们确实可以共存都有其单独的数据存储总结一下 Java 应用程序如何从 Python 应用程序的数据存
Python GTK+ 画布

我目前正在通过 PyGobject 学习 GTK 需要画布之类的东西我已经搜索了文档发现两个小部件似乎可以完成这项工作 GtkDrawingArea 和 GtkLayout 我需要一些基本函数如 fillrect 或 drawline
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
无效的选择器：使用 Selenium 时不允许出现复合类名错误

我正在尝试通过 Web Whatsapp 打印聊天中的一条消息我可以通过控制台选项卡中的 Javascript 来完成此操作我就是这样做的 recived msg document getElementsByClassName XE
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
如何在 Flask 中的视图函数/会话之间传递复杂对象

我正在编写一个 Web 应用程序当且仅当用户登录时该应用程序从第三方服务器接收大量数据这些数据被解析为自定义对象并存储在list 现在用户在应用程序中使用这些数据调用不同的视图例如发送不同的请求我不确定什么是最好的模式在视
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

通过参考返回

PHP 文档中写道不要使用按引用返回来提高性能引擎会自动对其进行优化我希望返回对数组的引用这是我的类的属性 PHP 如何优化这个因为数组不是对象如果数组有10亿个条目如果我不通过引用传递它我不会得到两个在内存中存储有10亿
MySQL SUM 函数在多个连接中

嗨这是我的情况我有那些桌子 Customer id name Charges id amount customer id Taxes id amount charge id 所以我想计算费用和税费的总和然后按客户 ID 分组这是我的
EL 空运算符在 JSF 中如何工作？

在 JSF 中可以使用 EL 空运算符来呈现或不呈现组件 rendered not empty myBean myList 据我了解该运算符既可以用作空检查也可以检查列表是否为空我想对我自己的自定义类的某些对象进行空检查我需要实现
访问共享内存进行读取时锁定

如果我以只读方式访问共享内存请检查某个条件if 块我还应该锁定互斥锁吗例如 mutex lock if var shared memory mutex unlock 这里是否需要锁定并且是良好的做法如果您正在读取的变量可以同时写入
如何使用 Matlab 按字母顺序对属性值对进行排序

我想向现有文件添加属性值对同时所有属性应按字母顺序排序例如 Info property 1 value 1 system property 2 value 2 我如何添加其他属性以便所有属性都按字母顺序排序我能够使用以下命令将属性
使用 HTML5 音频更改在 Chrome 中有效，但在 Safari 中无效

我正在尝试制作一个可在每个主要浏览器中使用的 HTML5 音频播放列表 Chrome Safari Firefox IE9 但是我不知道如何以跨浏览器兼容的方式更改源 UPDATED例如更改
迭代器无法正确访问问题

我正在尝试使用迭代器访问向量的元素但我得到奇怪的输出 std vector
Excel VBA 循环遍历可见的筛选行

我有一个带有自动过滤器的 Excel 表格在过滤表中我只过滤了几行我的目标是迭代所有可见行以收集数据以复制到另一张工作表我想要一种方法来收集具有第一个可见行号的变量我的草稿代码是 Dim cnp As String Dim nom
我们是否应该在 React 功能组件的每个函数处理程序中使用 useCallback

假设我们有这样的组件 const Example gt const counter setCounter useState 0 const increment gt setCounter counter gt counter 1 retur
使用具有 PhoneStateListener 功能的 BroadcastReceiver

我正在尝试制作一个 MissCall 应用程序当收到未接来电时该应用程序会自动发送消息我已经完成了我的应用程序并且运行良好这是完整的场景问题该应用程序运行良好但是当我重新启动设备时应用程序无法运行它仅在我启动我的应用程序至少
是否可以将占位符文本从头到尾转换？

我想在已知宽度的文本输入中从头到尾转换单行动态占位符文本隐藏溢出现在我知道对于常规容器 div 我可以利用转换来转换正确的长度因此对于长度为 100px 的容器我可以使用以下命令过渡到文本末尾 transform translat
Swift 2 - 将数组分成带有从 A 到 Z 的键的字典

例如我有一个数组 Apple Banana Blueberry Eggplant 我想将其转换为字典如下所示 A Apple B Banana Blueberry C D E Eggplant 我在 Xcode 7 beta 4 上使用
ArrayList并发访问

我知道ArrayList不是线程安全的但我不确定这的确切含义如果是ThreadA and ThreadB两者都使用ArrayList 哪些情况会导致问题并需要同步两个线程同时读取相同的索引 ThreadA替换一个元素ThreadB正在
如何将 plone 的内容块插入到重氮主题中

我在 Plone 4 1 中使用重氮当前为 plone app theming 1 0b1 r48205 我想完全使用 Plone 的 html 作为搜索小部件除了我想替换
当函数返回由模板类型和另一个类型组成的类型时，模板参数推导

标题很难用文字表达但这是我试图在不可编译的代码中实现的目标 template
如何在服务器上设置 SvelteKit 存储并保持反应性？

我正在尝试构建一台使用 setInterval 回调更改服务器上数据的机器在理想的情况下服务器间歇性地检查数据并将其保存在缓存中前端组件使用该缓存将其呈现在浏览器中现在我的 server ts 文件says它会定期更改数据并将其添加
使用 Gluon ShareService 共享多个文件（图像和 txt）

我们想知道如何使用 Gluon ShareService 共享多个文件图像和 txt 文件特别是如何与 PictureService 共享先前拍摄并存储在图库中的图像但我们需要先创建一个包含路径和图像名称的文件不幸的是 Pict
如何关闭由邮件合并启动的 Excel 实例

如何关闭由邮件合并启动的 Excel 实例在启动器内运行的此代码无法访问通过 DDE 运行的 Excel For i 1 To Workbooks Count MsgBox here Workbooks i Name If Workboo
为什么父类的受保护变量为空？

我有一个受保护的变量Father类中该变量的内容将发生变化Father类但我需要在子类中使用这个变量即 class Father protected body function construct this gt body test
使用 urllib 删除 python 中的换行符

我正在使用Python 3 x 使用时urllib request要下载网页我得到了很多 n之间我正在尝试使用论坛其他线程中给出的方法删除它但我无法这样做我用过strip 函数和replace 功能但没有运气我在 eclipse

使用 urllib 删除 python 中的换行符

使用 urllib 删除 python 中的换行符 的相关文章

随机推荐

热门标签

使用 urllib 删除 python 中的换行符的相关文章