scrapy“请求网址中缺少方案”

2023-12-27

下面是我的代码-

import scrapy
from scrapy.http import Request

class lyricsFetch(scrapy.Spider):
    name = "lyricsFetch"
    allowed_domains = ["metrolyrics.com"]


print "\nEnter the name of the ARTIST of the song for which you want the lyrics for. Minimise the spelling mistakes, if possible."
artist_name = raw_input('>')

print "\nNow comes the main part. Enter the NAME of the song itself now. Again, try not to have any spelling mistakes."
song_name = raw_input('>')


artist_name = artist_name.replace(" ", "_")
song_name = song_name.replace(" ","_")
first_letter = artist_name[0]
print artist_name
print song_name

start_urls = ["www.lyricsmode.com/lyrics/"+first_letter+"/"+artist_name+"/"+song_name+".html" ]

print "\nParsing this link\t "+ str(start_urls)

def start_requests(self):
    yield Request("www.lyricsmode.com/feed.xml")

def parse(self, response):

    lyrics = response.xpath('//p[@id="lyrics_text"]/text()').extract()

    with open ("lyrics.txt",'wb') as lyr:
        lyr.write(str(lyrics))

    #yield lyrics

    print lyrics

当我使用 scrapy shell 时，我得到了正确的输出，但是，每当我尝试使用 scrapy scrapy 运行脚本时，我都会得到 ValueError。我究竟做错了什么？我浏览了这个网站和其他网站，但一无所获。我想到了通过这里的另一个问题来产生请求的想法，但它仍然不起作用。有什么帮助吗？

我的回溯-

Enter the name of the ARTIST of the song for which you want the lyrics for. Minimise the spelling mistakes, if possible.
>bullet for my valentine

Now comes the main part. Enter the NAME of the song itself now. Again, try not to have any spelling mistakes.
>your betrayal
bullet_for_my_valentine
your_betrayal

Parsing this link        ['www.lyricsmode.com/lyrics/b/bullet_for_my_valentine/your_betrayal.html']
2016-01-24 19:58:25 [scrapy] INFO: Scrapy 1.0.3 started (bot: lyricsFetch)
2016-01-24 19:58:25 [scrapy] INFO: Optional features available: ssl, http11
2016-01-24 19:58:25 [scrapy] INFO: Overridden settings: {'NEWSPIDER_MODULE': 'lyricsFetch.spiders', 'SPIDER_MODULES': ['lyricsFetch.spiders'], 'BOT_NAME': 'lyricsFetch'}
2016-01-24 19:58:27 [scrapy] INFO: Enabled extensions: CloseSpider, TelnetConsole, LogStats, CoreStats, SpiderState
2016-01-24 19:58:28 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2016-01-24 19:58:28 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2016-01-24 19:58:28 [scrapy] INFO: Enabled item pipelines:
2016-01-24 19:58:28 [scrapy] INFO: Spider opened
2016-01-24 19:58:28 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2016-01-24 19:58:28 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2016-01-24 19:58:28 [scrapy] ERROR: Error while obtaining start requests
Traceback (most recent call last):
  File "C:\Users\Nishank\Miniconda2\lib\site-packages\scrapy\core\engine.py", line 110, in _next_request
    request = next(slot.start_requests)
  File "C:\Users\Nishank\Desktop\SNU\Python\lyricsFetch\lyricsFetch\spiders\lyricsFetch.py", line 26, in start_requests
    yield Request("www.lyricsmode.com/feed.xml")
  File "C:\Users\Nishank\Miniconda2\lib\site-packages\scrapy\http\request\__init__.py", line 24, in __init__
    self._set_url(url)
  File "C:\Users\Nishank\Miniconda2\lib\site-packages\scrapy\http\request\__init__.py", line 59, in _set_url
    raise ValueError('Missing scheme in request url: %s' % self._url)
ValueError: Missing scheme in request url: www.lyricsmode.com/feed.xml
2016-01-24 19:58:28 [scrapy] INFO: Closing spider (finished)
2016-01-24 19:58:28 [scrapy] INFO: Dumping Scrapy stats:
{'finish_reason': 'finished',
 'finish_time': datetime.datetime(2016, 1, 24, 14, 28, 28, 231000),
 'log_count/DEBUG': 1,
 'log_count/ERROR': 1,
 'log_count/INFO': 7,
 'start_time': datetime.datetime(2016, 1, 24, 14, 28, 28, 215000)}
2016-01-24 19:58:28 [scrapy] INFO: Spider closed (finished)

正如@tintin所说，你错过了httpURL 中的方案。 Scrapy 需要完全限定的 URL 才能处理请求。

据我所知，您错过了以下方案：

start_urls = ["www.lyricsmode.com/lyrics/ ...

and

yield Request("www.lyricsmode.com/feed.xml")

如果您要从 HTML 内容解析 URL，则应该使用urljoin确保您获得完全限定的 URL，例如：

next_url = response.urljoin(href)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

response

Scrapy

scrapy“请求网址中缺少方案” 的相关文章

Python带有负数的排序列表[重复]

这个问题在这里已经有答案了为了尝试通过练习来学习Python 我正在尝试使用Python来实现和测试快速排序算法实现本身并不困难但是排序的结果有点令人费解当我对列表进行排序时 35 1 2 7 8 3 4 20 6 53 结果给了我
尽管脚本是“纯”Python，但 .py 和 .ipy 文件的 IPython 行为不同（自定义异常处理程序挂钩停止工作）

我编写了一个异常处理程序旨在记录所有未捕获的异常在调用普通 python 异常挂钩之前的代码中 Python 和 iPython 执行此操作的方法略有不同我发现 iPython 这样做的方法仅在从交互式会话中运行时有效或者当使用
Python UnicodeEncodeError：“ascii”编解码器无法对位置 0 中的字符进行编码：序号不在范围（128）[重复]

这个问题在这里已经有答案了在 Python 2 7 中当尝试转换类型以确保其与输出架构匹配时请参阅以下错误 UnicodeEncodeError ascii 编解码器无法对字符进行编码 0 序数不在范围内 128 试图找出原因并在木星
用ast重写代码； Python

我正在学习 AST 它看起来很强大但我很困惑代码去了哪里以及为什么它消失了说我想重写 example def fake x n y useless list n return x as example def fake x n retu
ubuntu 12.10 上使用 https 和 python 2.7 时出现 urlopen 错误 [Errno 110]

预先感谢您提供的任何帮助我在 ubuntu 12 10 上安装了 python 2 7 我根据其他帖子编写了一个简单的脚本来测试 http 和 https 连接 import urllib2 urllib def set proxy pr
os.listdir 和 os.path.isdir 混淆，isdir 是随机的吗？

我有下面这个简单的过程来列出文件夹的内容 def some process self dir3 os listdir Users somepath programming somepathanother Data samples for d
Iron Python 错误：预期或 bytearray，得到用于串行通信

无法理解这一点当我使用 python shell 运行时它可以工作但不能当使用 Iron python 调用时它抛出上面的错误 C scriptEngine ExecuteFile path var testFn scriptSc
PyCharm 调试模式下的键盘中断

在调试模式下有什么方法可以在 PyCharm IDE 3 1 中发送键盘中断事件吗不幸的是没有简单的方法可以做到这一点您将需要使用psutil和signal模块为此您需要安装psutil最好的方法是通过pip pip insta
使用 Selenium 在选项卡之间切换并对个人执行操作

我正在尝试提取 URL 将其打开到新选项卡中然后执行一些操作我的代码是 urls self driver find elements by xpath div id maincontent table tbody tr td a hre
Ubuntu Python shebang 线不工作

无法让 shebang 线在 Ubuntu 中为 python 脚本工作我每次只收到命令未找到错误 test py usr bin env python print Ran which python usr bin python 在 sh
使用解析将 ** 运算符更改为幂函数？

我的要求是将运算符更改为幂函数例如 1 Input B 2 Output power B 2 2 B 2 T 2 X Output power B 2 我写了下面的正则表达式来解决这个问题 rx r a zA Z0 9 a zA Z0
检测计算机何时解锁 Windows

我用过这个优秀的方法 https stackoverflow com questions 20733441 lock windows workstation using python 20733443锁定 Windows 计算机那部分工作
Scrapy - 持续从数据库中获取要爬取的url

我想不断地从数据库中获取要爬行的网址到目前为止我成功地从基地获取了 url 但我希望我的蜘蛛继续从该基地读取因为该表将由另一个线程填充我有一个管道一旦爬行工作就会从表中删除 url 换句话说我想使用我的数据库作为队列我尝试
Scrapy - 如何抓取网站并将数据存储在 Microsoft SQL Server 数据库中？

我正在尝试从我们公司创建的网站中提取内容我在 MSSQL Server 中为 Scrapy 数据创建了一个表我还设置了 Scrapy 并配置了 Python 来抓取和提取网页数据我的问题是如何将Scrapy爬取的数据导出到我本地的M
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
通过 Scrapy 抓取 Google Analytics

我一直在尝试使用 Scrapy 从 Google Analytics 获取一些数据尽管我是一个完全的 Python 新手但我已经取得了一些进展我现在可以通过 Scrapy 登录 Google Analytics 但我需要发出 AJAX
ipython/ pylab/ matplotlib安装和初始化错误

我在 OS X El Captain 上安装了 matplotlib anaconda ipython 然而即使在尝试以所有可能的方式设置环境变量之后我仍无法启动 ipython shell pylab 版本这是错误 ImportEr
PyQt：数据不可 JSON 序列化

我是 PyQt GUI 的新手我想获取a的数据QLineEdit文本框为此我正在使用text 方法我正在获取数据但数据类型是QString 我需要将其作为 json 数据传输到服务器为此我使用json dumps 方法但我收到错
Python Scrapy：“runspider”和“crawl”命令有什么区别？

有人可以解释一下两者之间的区别吗运行蜘蛛 and crawl命令应该在什么情况下使用它们在命令中 scrapy crawl options
PyOpenCL：如何创建本地内存缓冲区？

这里可能是非常简单的问题但我已经搜索了几个小时但没有任何结果我有这段代码我希望有一个 256 位 8 uint32 bitstring gpu 作为设备中的本地内存指针 def Get Bitstring GPU Buffer ctx

随机推荐

从 C# 调用特定版本的 PowerShell

我正在尝试使用Get VM从 Hyper V 主机上的 C 调用 Cmdlet 显然相应的PowerShell模块Hyper V必须先导入然而导入失败显然是因为该模块仅在 PowerShell 3 0 上受支持至少我是这么认为的
jquery text().replace('','') 不起作用

您好我在添加文本字符串后尝试了几个小时再次删除它我有一个处理手风琴的脚本其中的文本有一些冗余所以我想在打开或关闭手风琴行时添加和删除多余的文本这是我的代码 var redundantText text text text a hr
在Java中，我可以合并两个使用JspWriter和另一个PrintWriter的类似函数吗？

我有以下类正如您将看到的它有一个相当冗余的 formatNameAndAddress 方法 package hu flux helper import java io PrintWriter import javax servlet j
如何使用 .NET 读取 ASP.NET 内部服务器错误描述？

看代码 using var client new WebClient try var bytesReceived client UploadData http localhost bytesToPost var response clien
Yii 2.0 如何在没有
的情况下生成表单？
是否可以用没有函数的语言进行函数式编程？

In 这条评论 https stackoverflow com questions 12272856 why cant i string print comment16458824 12272872 据说 Ruby 没有函数只有方法如果
多线程堆管理

在 C C 中我可以在一个线程中分配内存并在另一个线程中删除它然而每当有人从堆请求内存时堆分配器就需要遍历堆以找到大小合适的空闲区域两个线程如何有效地访问同一个堆而不破坏堆这是通过锁定堆来完成的吗一般来说您不需要担心内存分配
了解何时使用有状态服务以及何时依赖 Azure Service Fabric 中的外部持久性

我花了很多晚上的时间评估 Azure Service Fabric 作为我们当前 WebApps CloudServices 堆栈的替代品并且有点不确定如何决定何时具有状态的服务参与者应该是有状态参与者以及何时应该是无状态参与者外部持
JUnit4 是否开始支持测试排序？是故意的吗？

JUnit 实际上是 JUnit 4 的新手遇到了执行测试的套件方法 RunWith Suite class Suite SuiteClasses CreateNewProfile class EditProfile class publ
该命令返回一个非零代码：127

我正在尝试构建下面的 Dockerfile 但它一直失败RUN ocp indent help saying ocp indent not found The command bin sh c ocp indent help returne
在 iPhone 中裁剪星形图像

我有一个矩形图像但我想在我的 iPhone 应用程序中将此图像裁剪为星形那么请问有人可以建议我如何做到这一点吗请建议谢谢 See the 对相关问题发表评论 https stackoverflow com questions 262
如何使用派生列转换将字符串 (YYMMDD) 转换为日期时间？

我有一个输入文本文件其中包含几列即TransactionID receiveddt description等等 recieveddt列具有以下格式的日期值120419 yymmdd 我想将 txt 输入文件加载到数据库中但目标列rec
有没有java api可以访问bugzilla？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有一个独立的 java api 将 XML RPC 接口包装到 bugzilla 我不想为它编写
Magento - 在所有页面中创建固定块

如何在不点击模块名称的情况下在包括主页在内的所有页面中可见的右列中创建一个块谢谢希望能很好地理解你的问题 1 创建一个模块例如Mynamespace Mymodule 2 在模块中创建一个块例如 Mynamespace Mymodu
Spock Test，只检查方法是否被调用，不执行

在我们的 Spock 测试中我们想要检查我们的软件中是否选择了正确的路径但我们不想测试所调用方法的功能这是在单独的测试中完成的 def Test setup service metaClass innerMethod gt retur
SSIS 任务导入不一致的列数？

问题我经常收到来自不同供应商的提要文件尽管列名称一致但当某些供应商发送源文件中包含或多或少列的文本文件时就会出现问题此外这些文件的排列不一致除了 Cozy Roc 提供的动态数据流任务之外还有另一种方法可以导入这些文件我不
如何使用 Mockito 模拟 void 方法

如何模拟具有 void 返回类型的方法我实现了一个观察者模式但我无法用 Mockito 模拟它因为我不知道如何做我试图在互联网上找到一个例子但没有成功我的班级是这样的 public class World List
我什么时候应该在 UML 图中使用依赖关键字 <>？

参考这个来源 https www uml diagrams org dependency html UML的定义是依赖性是一种有向关系用于表明某个 UML 元素或一组元素需要需要或依赖于其他模型元素来进行规范或实现但后来根据教科书的
如何在android中的gridview布局中添加页脚

我需要在 android 中的 gridview 布局中添加某种页脚视图没有我可以找到的官方文档而且我无法找到在我的谷歌搜索中实际有效的方法有人取得了任何成就吗像这样我需要制作一个显示在 gridview 底部的按钮以便我可以在
scrapy“请求网址中缺少方案”

下面是我的代码 import scrapy from scrapy http import Request class lyricsFetch scrapy Spider name lyricsFetch allowed domains m

scrapy“请求网址中缺少方案”

scrapy“请求网址中缺少方案” 的相关文章

随机推荐

热门标签