在使用 Scrapy 进行身份验证时抓取 LinkedIn

2023-11-24

所以我读过在 Scrapy 中使用经过身份验证的会话进行爬网我挂断了，我 99% 确信我的解析代码是正确的，我只是不相信登录正在重定向并且成功。

我也遇到了 check_login_response() 的问题，不确定它正在检查哪个页面。尽管“退出”是有意义的。

======更新======

from scrapy.contrib.spiders.init import InitSpider
from scrapy.http import Request, FormRequest
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.contrib.spiders import Rule

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector

from linkedpy.items import LinkedPyItem

class LinkedPySpider(InitSpider):
    name = 'LinkedPy'
    allowed_domains = ['linkedin.com']
    login_page = 'https://www.linkedin.com/uas/login'
    start_urls = ["http://www.linkedin.com/csearch/results?type=companies&keywords=&pplSearchOrigin=GLHD&pageKey=member-home&search=Search#facets=pplSearchOrigin%3DFCTD%26keywords%3D%26search%3DSubmit%26facet_CS%3DC%26facet_I%3D80%26openFacets%3DJO%252CN%252CCS%252CNFR%252CF%252CCCR%252CI"]

    def init_request(self):
        #"""This function is called before crawling starts."""
        return Request(url=self.login_page, callback=self.login)

    def login(self, response):
        #"""Generate a login request."""
        return FormRequest.from_response(response,
                    formdata={'session_key': '[email protected]', 'session_password': 'somepassword'},
                    callback=self.check_login_response)

    def check_login_response(self, response):
        #"""Check the response returned by a login request to see if we aresuccessfully logged in."""
        if "Sign Out" in response.body:
            self.log("\n\n\nSuccessfully logged in. Let's start crawling!\n\n\n")
            # Now the crawling can begin..

            return self.initialized() # ****THIS LINE FIXED THE LAST PROBLEM*****

        else:
            self.log("\n\n\nFailed, Bad times :(\n\n\n")
            # Something went wrong, we couldn't log in, so nothing happens.

    def parse(self, response):
        self.log("\n\n\n We got data! \n\n\n")
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//ol[@id=\'result-set\']/li')
        items = []
        for site in sites:
            item = LinkedPyItem()
            item['title'] = site.select('h2/a/text()').extract()
            item['link'] = site.select('h2/a/@href').extract()
            items.append(item)
        return items

通过在 self.initialized() 前面添加“Return”解决了该问题

再次感谢！ -标记

class LinkedPySpider(BaseSpider):

应该：

class LinkedPySpider(InitSpider):

另外你不应该覆盖parse正如我在此处的回答中提到的功能：https://stackoverflow.com/a/5857202/crawling-with-an-authenticated-session-in-scrapy

如果您不明白如何定义提取链接的规则，只需正确阅读文档即可：
http://readthedocs.org/docs/scrapy/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule
http://readthedocs.org/docs/scrapy/en/latest/topics/link-extractors.html#topics-link-extractors

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

linkedinapi

Scrapy

scraper

在使用 Scrapy 进行身份验证时抓取 LinkedIn 的相关文章

Django 管理员在模型编辑时间歇性返回 404

我们使用 Django Admin 来维护导出到我们的一些站点的一些数据有时当单击标准更改列表视图来获取模型编辑表单而不是路由到正确的页面时我们会得到 Django 404 页面模板它是偶尔发生的我们可以通过重新加载三次来重现它
通过最小元素比较对 5 个元素进行排序

我必须在 python 中使用元素之间的最小比较次数来建模对 5 个元素的列表进行排序的执行计划除此之外复杂性是无关紧要的结果是一个对的列表表示在另一时间对列表进行排序所需的比较我知道有一种算法可以通过 7 次比较总是在元素之间
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
PyUSB 1.0：NotImplementedError：此平台不支持或未实现操作

我刚刚开始使用 pyusb 基本上我正在玩示例代码here https github com walac pyusb blob master docs tutorial rst 我使用的是 Windows 7 64 位并从以下地址下载 z
根据列值突出显示数据框中的行？

假设我有这样的数据框 col1 col2 col3 col4 0 A A 1 pass 2 1 A A 2 pass 4 2 A A 1 fail 4 3 A A 1 fail 5 4 A A 1 pass 3 5 A A 2 fail 2
Spark KMeans 无法处理大数据吗？

KMeans 有几个参数training http spark apache org docs latest api python pyspark mllib html highlight kmeans pyspark mllib clus
OpenCV 无法从 MacBook Pro iSight 捕获

几天后我无法再从 opencv 应用程序内部打开我的 iSight 相机 cap cv2 VideoCapture 0 返回并且cap isOpened 回报true 然而 cap grab 刚刚返回false 有任何想法吗示例代码
从 Flask 访问 Heroku 变量

我已经使用以下命令在 Heroku 配置中设置了数据库变量 heroku config add server xxx xxx xxx xxx heroku config add user userName heroku config add
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
BeautifulSoup 中的嵌套标签 - Python

我在网站和 stackoverflow 上查看了许多示例但找不到解决我的问题的通用解决方案我正在处理一个非常混乱的网站我想抓取一些数据标记看起来像这样 table tbody tr tr tr td td td table tr t
如何使用Python创建历史时间线

So I ve seen a few answers on here that helped a bit but my dataset is larger than the ones that have been answered prev
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
向 Altair 图表添加背景实心填充

I like Altair a lot for making graphs in Python As a tribute I wanted to regenerate the Economist graph s in Mistakes we
有没有办法检测正在运行的代码是否正在上下文管理器内执行？

正如标题所述有没有办法做到这样的事情 def call back if called inside context print running in context else print called outside context 这将
使用其构造函数初始化 OrderedDict 以便保留初始数据的顺序的正确方法？

初始化有序字典 OD 以使其保留初始数据的顺序的正确方法是什么 from collections import OrderedDict Obviously wrong because regular dict loses order d O
使用 Python 的 matplotlib 选择在屏幕上显示哪些图形以及将哪些图形保存到文件中

我想用Python创建不同的图形matplotlib pyplot 然后我想将其中一些保存到文件中而另一些则应使用show 命令然而 show 显示all创建的数字我可以通过调用来避免这种情况close 创建我不想在屏幕上显示的绘图
导入错误：没有名为 site 的模块 - mac

我已经有这个问题几个月了每次我想获取一个新的 python 包并使用它时我都会在终端中收到此错误 ImportError No module named site 我不知道为什么会出现这个错误实际上我无法使用任何新软件包因为每次我
如何使用 Pycharm 安装 tkinter？ [复制]

这个问题在这里已经有答案了 I used sudo apt get install python3 6 tk而且效果很好如果我在终端中打开 python Tkinter 就可以工作但我无法将其安装在我的 Pycharm 项目上 pip

随机推荐

如何使用webview下载文件？（这个案例很奇怪）

我想使用webview从网站下载文件例如 mp3 但问题是每当我点击链接时它都会打开浏览器默认浏览器在关闭之前会出现一秒钟并且没有下载任何文件这是我的代码 import android app Activity import a
后续：从python执行.sql文件

一年多前有人问过这样的问题在Python中执行用于在SQL Management Studio中运行的 sql文件我正在用 python 编写一个脚本该脚本连接到 SQL 服务器并根据大型几 GB sql 文件中的 SQL 命令
Pandas：将 TimeGrouper 与另一个 Groupby 参数结合起来

我有以下数据框 df pd DataFrame Branch A A A A A B split Buyer Carl Mark Carl Joe Joe Carl split Quantity 1 3 5 8 9 3 Date DT da
使用 Retrofit 2 进行日志记录

我正在尝试获取请求中发送的确切 JSON 这是我的代码 OkHttpClient client new OkHttpClient client interceptors add new Interceptor Override public
在 C# 中以编程方式将 .crt + .key 文件转换为 X509Certificate2

我在 Linux 计算机上有一个 crt 证书和一个 key 私钥文件私钥采用加密的 PKCS 8 格式 BEGIN ENCRYPTED PRIVATE KEY 我想将它们导入 X509Certificate2 对象以供进一步使用由于我
使用 pytables 构建一个巨大的 numpy 数组

如何使用 pytables 创建一个巨大的 numpy 数组我尝试了这个但给了我 ValueError 数组太大错误 import numpy as np import tables as tb ndim 60000 h5file t
(Excel VBA) 如果单元格值等于“”则显示/隐藏图像

我正在开发一个 Excel 电子表格当选择下拉框值时将弹出一个图像如果选择另一个值它将隐藏当前图像并弹出与所选内容相关的图像我发现一些仅使用纸张并使用坐标定位图像的方法太耗时这并不完全是我想要走的路线在使用 StackOver
如何使用 Play 框架中的演化在 PostgreSQL 中创建函数？

使用 Play 框架 2 1 我在演化过程中定义了以下 SQL CREATE OR REPLACE FUNCTION idx myArray anyarray myElement anyelement RETURNS int AS SELE
Newtonsoft.Json - 从 JSON 获取反序列化对象的相应行号，以更好地处理错误

我的应用程序接受来自客户端的长 JSON 模板并对其进行反序列化和处理我想向客户提供更好的错误处理信息其中包含 JSON 文本中无效对象的行号请注意这是针对后处理中发生的错误NOT用于反序列化期间发生的错误因为这已由 Newto
SimpleDateFormat 始终返回 1970.01.17 且时区错误

我一直在使用Processing 3 0 当我的Arduino输出某些值时我试图打印一个简单的时间戳但它不起作用我尝试使用 SimpleDateFormat 但它总是返回1970 01 17 17 48 35 GMT 而不是实际时间
Swift：闭包是否引用常量或变量？

我知道有几个相关的问题而且我可以在互联网上找到很多帖子但是我无法理解闭包可以保存引用的事实对于引用类型这是完全常见且非常合理的但是对于值类型包括struct and enum 请参阅此代码 let counter gt Int
Android全屏对话框回调问题

我无法理解某些事情但让我首先描述一下我的设置我有一个引用 3 个片段的活动每个片段都会在正确的时间显示这是 ChildrenSpecificationFragment 的样子如果用户单击浮动操作按钮则会打开以下 DialogFr
解析/反序列化 MTOM/XOP 数据 .NET

我如何解析反序列化MTOM XOP我使用 WCF 从 Web 服务获得的响应我在磁盘上有回复我已复制以下回复 Date Wed 02 May 2012 09 38 57 GMT Server Microsoft IIS 6 0 P3P
SceneKit 将统一向量传递给着色器修改器

我正在尝试通过GLKVector4到一个着色器该着色器应该将其接收为vec4 我正在使用片段着色器修改器 material shaderModifiers SCNShaderModifierEntryPoint fragment shad
Netbeans 自动完成变量代码

我发现了一个有趣的 Stackoverflow 主题但这是一个旧主题我担心人们不会再做出反应所以我希望可以创建一个新主题首先我正在使用 Netbeans 7 2 并且我想更多地使用自动代码完成它适用于带有的方法类已经但我
如何在 Linux 上初始化共享库

我正在 Linux 下使用 C 开发一个共享库我希望这个库使用 log4cxx 进行日志记录但是我不确定如何设置为了让 log4cxx 工作我需要创建一个记录器对象如何确保在加载库时创建该对象我怀疑最简单的方法是将记录器对象创
在Wordpress的特定页面上运行特定的Js

我想在特定页面上运行特定的js 即 wwww custom com english 我尝试了以下两个代码 header php 和functions php 但它们都不起作用 Code 1 Code 2 function my script
exifinterface 27.1.0 ，animated-vector-drawable:27.1.1 ，所有 com.android.support 库必须使用完全相同的版本

为什么 gradle 总是说所有 com android support 库必须使用完全相同的版本规范混合版本可能导致运行时崩溃成立版本 27 1 1 27 1 0 例子包括com android support animated
减去日历对象中的天数[重复]

这个问题在这里已经有答案了可能的重复有人知道使用java日历减去X天的日期的简单方法吗我需要给定日期 givenDate 减去 365 天 Calendar calendar Calendar getInstance calendar
在使用 Scrapy 进行身份验证时抓取 LinkedIn

所以我读过在 Scrapy 中使用经过身份验证的会话进行爬网我挂断了我 99 确信我的解析代码是正确的我只是不相信登录正在重定向并且成功我也遇到了 check login response 的问题不确定它正在检查哪个页面尽管退出

在使用 Scrapy 进行身份验证时抓取 LinkedIn

在使用 Scrapy 进行身份验证时抓取 LinkedIn 的相关文章

随机推荐

热门标签