我怎样才能用承诺重写这个？

2024-01-21

我正在为 T 恤网站构建内容抓取器。

目标是仅通过一个硬编码的 url 进入网站：http://shirts4mike.com

然后，我将找到每件 T 恤的所有产品页面，然后创建一个包含其详细信息的对象。然后将其添加到数组中。

当数组填满 T 恤时，我将处理该数组并将其记录到 CSV 文件中。

现在，我在请求/响应和函数调用的时间安排上遇到了一些麻烦。

如何确保在正确的时间调用 NEXT 函数？我知道它不起作用，因为它是异步的。

我怎样才能打电话secondScrape, lastScraper and convertJson2Csv在正确的时间，以便他们正在使用的变量不是未定义的？

我尝试使用诸如response.end()但这不起作用。

我假设我需要使用承诺才能使其正常工作？并且要清晰易读？

有任何想法吗？我的代码如下：

//Modules being used:
var cheerio = require('cheerio');
var request = require('request');
var moment = require('moment');

//hardcoded url
var url = 'http://shirts4mike.com/';

//url for tshirt pages
var urlSet = new Set();

var remainder;
var tshirtArray;


// Load front page of shirts4mike
request(url, function(error, response, html) {
    if(!error && response.statusCode == 200){
        var $ = cheerio.load(html);

    //iterate over links with 'shirt'
        $("a[href*=shirt]").each(function(){
            var a = $(this).attr('href');

            //create new link
            var scrapeLink = url + a;

            //for each new link, go in and find out if there is a submit button. 
            //If there, add it to the set
            request(scrapeLink, function(error,response, html){
                if(!error && response.statusCode == 200) {
                    var $ = cheerio.load(html);

                    //if page has a submit it must be a product page
                    if($('[type=submit]').length !== 0){

                        //add page to set
                        urlSet.add(scrapeLink);

                    } else if(remainder === undefined) {
                        //if not a product page, add it to remainder so it another scrape can be performed.
                        remainder = scrapeLink;                     
                    }
                }
            });
        });     
    }
    //call second scrape for remainder
    secondScrape();
});


function secondScrape() {
    request(remainder, function(error, response, html) {
        if(!error && response.statusCode == 200){
            var $ = cheerio.load(html);

            $("a[href*=shirt]").each(function(){
                var a = $(this).attr('href');

                //create new link
                var scrapeLink = url + a;

                request(scrapeLink, function(error,response, html){
                    if(!error && response.statusCode == 200){

                        var $ = cheerio.load(html);

                        //collect remaining product pages and add to set
                        if($('[type=submit]').length !== 0){
                            urlSet.add(scrapeLink);
                        }
                    }
                });
            });     
        }
    });
    console.log(urlSet);
    //call lastScraper so we can grab data from the set (product pages)
    lastScraper();
};



function lastScraper(){
    //scrape set, product pages
    for(var i = 0; i < urlSet.length; i++){
        var url = urlSet[i];

        request(url, function(error, response, html){
            if(!error && response.statusCode == 200){
                var $ = cheerio.load(html);

                //grab data and store as variables
                var price = $('.price').text();
                var img = $('.shirt-picture').find("img").attr("src");
                var title = $('body').find(".shirt-details > h1").text().slice(4);

                var tshirtObject = {};
                //add values into tshirt object

                tshirtObject.price = price;
                tshirtObject.img = img;
                tshirtObject.title = title;
                tshirtObject.url = url;
                tshirtObject.date = moment().format('MMMM Do YYYY, h:mm:ss a');

                //add the object into the array of tshirts
                tshirtArray.push(tshirtObject); 
            }
        });
    }
    //call function to iterate through tshirt objects in array in order to convert to JSON, then into CSV to be logged
    convertJson2Csv();
};

有一个 npm 模块叫做请求-承诺 https://www.npmjs.com/package/request-promise.

simply:

var rp = require("request-promise");

无论您在哪里提出请求，都可以使用请求-承诺进行切换。

例如：

rp(url)
.then(function(value){
  //do whatever
})
.catch(function(err){
  console.log(err)
})

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

javascript

nodejs

webscraping

promise

我怎样才能用承诺重写这个？的相关文章

错误找不到“pages”目录。请在项目根目录下创建一个”

以前我的项目设置是 public next src pages components assets next config js 这工作正常但我将结构更改为以下 public src client next config js jscon
如果替换路径中的最后一个元素，React Router v6 useNavigate() 不会导航

我有一个具有以下功能的反应组件 const handleNavigate clientId gt console log clientId navigate dashboard clients clientId console log 显示
未捕获的类型错误：无法读取未定义的属性“toLowerCase”

我收到此错误它源自 jquery 框架当我尝试加载准备好的文档上的选择列表时出现此错误我似乎无法找到为什么会出现此错误它适用于更改事件但在尝试手动执行该函数时出现错误未捕获的类型错误无法读取未定义的属性 toLowerCas
匹配数组中的对象并合并

UPDATE 我有一个名为的对象数组cars包含 li 标签其中包含有关汽车的属性数据例如价格汽车类型等我的目标是如果这些汽车符合某些标准则将它们合并到一个列表中要求快速性能保持相同的汽车数组结构 Main Goal Ma
如何使用 Nodejs 创建 Excel 文件？

我是一名 Nodejs 程序员现在我有一个数据表我想将其保存为 Excel 文件格式我该怎么做呢我找到了一些 Node 库但其中大多数是 Excel 解析器而不是 Excel 编写器我使用的是 Linux 服务器因此需要一些可
用不同的颜色为 Google 热图着色

我试图开发一个遵循 Google Map API 的热度 https developers google com maps documentation javascript examples layer heatmap https deve
如何修复网站 iframe 错误？

当我访问此网址时警告推荐使用一些广告拦截器网页链接加载良好没有错误但是当我尝试通过加载同一页面时iframe在我的html代码中出现错误我的html代码
Angular.js：未捕获的错误，没有模块：myapp

我也在尝试引导 angular js 项目这是我的index html div p Loading p div
在 javascript 中访问 ajax POST 响应

我正在从 javascript 函数发出 ajax POST 请求 function UpdateMetrics ajax type POST url MyHandler ashx Param1 value1 data contentTyp
这种 JavaScript 编码风格有什么问题？（闭包与原型）

我们一直在讨论如何最好地处理我们的 JS 应用程序中的对象研究 Stoyan Stefanov 的书阅读无数关于新这个原型闭包等的 SO 帖子事实上有很多而且它们有这么多相互竞争的理论表明没有完全明显的答案让我们假设我们
有没有好的 JQuery twitter 小部件可以循环推文？

我想知道是否有任何 JQuery 小部件提供了循环加载推文的功能例如在官方小部件中http twitter com about resources widgets widget profile http twitter com about
为什么 document.getelementbyId 在 Firefox 中不起作用？

我不明白为什么 document getElementById 在 Firefox 中不起作用 document getElementById main style width 100 当我检查 Firebug 时它说类型错误 docu
React + Semantic-UI：在 UI MODAL 中使用表单

在没有 React 的普通旧 Semantic UI 中我已经能够毫无问题地将表单放入 Modal 中使用 Semantic UI React 版本我能够在模态中显示表单但它并没有按照我期望的方式工作例如模态框显示后模态框内的
socket.io 作为客户端

有什么方法可以将socketio作为客户端运行不是浏览器而是nodejs脚本我需要将数据从服务器广播到一些客户端浏览器和另一台linux机器仅运行nodejs来获取变量没有浏览器欢迎任何想法 Regards github上有
ExpressJS - DELETE 请求后 res.redirect

我一直在寻找如何执行此操作我正在尝试在发出删除请求后重定向这是我正在使用的代码没有重定向 exports remove function req res var postId req params id Post remove id p
允许使用 grunt browserify 进行全局转换

我已将 jQuery 添加为 html 文件中的脚本标记并将其添加到package json与一起工作browserify shim如下 browserify transform browserify shim browserify sh
在角度控制器中监听文档事件

如何捕获角度控制器中的事件我有文档级事件所以我需要在角度控制器中捕获事件这可能吗 Update 我有独立的 js 文件来处理来自相机的一些操作 document addEventListener myCameraEvent handl
使用 javascript Array reduce() 方法有什么真正的好处吗？

reduce 方法的大多数用例都可以使用 for 循环轻松重写对 JSPerf 的测试表明 reduce 通常会慢 60 75 具体取决于每次迭代内执行的操作除了能够以函数式风格编写代码之外还有什么真正的理由使用reduce 吗
Nodejs 一个接一个地运行异步函数

我是 JS nodejs 的新手所以如果我不能提出切中要害的问题请原谅我所以基本上如果我有两个异步函数 async function init async function main 如何确保在 init 完成其异步请求后调用 ma
利用重力效果拖动元素

我想完成类似于 photoshop com 和此网站的功能 http mrdoob com projects chromeexperiments google gravity http mrdoob com projects chromee

随机推荐

调试时 Epplus Save()、SaveAs() 等方法运行速度非常慢

环境 Windows 10 Visual Studio 2017 netcore2 0 调试版本在调试时使用 Epplus 4 1 1 保存 Excel 文件时保存操作花费的时间比我预期的要长得多这是使用调试 gt 开始调试运行时
将每个 R for 循环迭代保存在新列表中

我正在使用dataprepSynth 包的功能参见https cran r project org web packages Synth Synth pdf https cran r project org web packages Sy
算法优化[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 这里是link https www
将参数传递给 Laravel 作业不起作用

我之前读过这个问题的解决方案但似乎我做错了其他事情这就是我问的原因通常解决方案是将参数添加到类的主体以及 construct 方法中但甚至这样做它不起作用
释放R中的内存

在 R 中我尝试将几组时间序列数据组合并转换为 xtshttp www truefx com page downloads http www truefx com page downloads但是这些文件很大并且有很多文件因此这导致我
正确记录日志

所以我的问题是关于日志记录以及如何处理可能影响您的代码和运行时行为的日志语句日志文件每个程序都应该编写这些文件以正确解决问题但如何正确执行呢大多数日志语句的获取成本非常高因为它们应该提供有用的信息并且即使完全禁用日志记录它们
了解 Lambda 闭包类型如何删除默认构造函数

从5 1 2开始 19 与 lambda 表达式关联的闭包类型有一个已删除的 8 4 3 默认构造函数和一个被删除的复制赋值运算符它有一个隐式声明的复制构造函数 12 8 并且可能有一个隐式声明的移动构造函数 12 8 注意复制移
'已溢出其堆栈”' aria-label='构造大树时“线程'
'已溢出其堆栈”'> 构造大树时“线程'
'已溢出其堆栈”

我实现了一个树结构 use std collections VecDeque use std rc Rc Weak use std cell RefCell struct A children Option
中心标签还有效吗？

我主要使用 HTML
切换/切换 div (jQuery)

我希望完成一项相当简单的任务我希望我有两个 div 标签和一个锚标签如下所示 a href forgot password a div div div style display none div 我希望使用锚标记在两个 div 标记
如何使用终端运行特定的 Android 应用程序？ [复制]

这个问题在这里已经有答案了我已经安装了 Eclipse 和 Android SDK 一切都运行良好我想安装 apk 文件因此我已按照说明进行操作但问题是当我启动模拟器时它不会自动运行我的应用程序终端中是否有命令允许我运行我要求
iOS 上 UIImage 的运动模糊效果

有没有办法在 UIImage 上获得运动模糊效果我尝试了 GPUImage Filtrr 和 iOS Core Image 但所有这些都有常规模糊没有运动模糊我也尝试过 UIImage DSP 但它的运动模糊几乎不可见我需要更强大的
java.lang.IllegalArgumentException：尝试打开下载的图像时未知的 URI

我无法打开下载的图像DownloadManager单击通知时这就是它的可重现性我使用从网络下载图像DownloadManager 然后当我单击有关此下载的通知时操作系统会显示一个对话框我可以在其中选择应用程序来打开下载的图像但是
ASP.NET MVC 路由, Html.BeginForm

div div
innerHTML 返回 NaN 和文本

我遇到一个问题我尝试返回一个值innerHTML但我得到了一个 NaN 我知道我的变量不是数字但为什么他一直告诉我这个 function checkWord id nameOutput var pattern new RegExp b
是否可以在操作系统级别限制 php 可以通过 exec 传递哪些命令？

我目前正在主持一个Drupal http drupal org CentOS 计算机上的 6 个站点德鲁帕尔 CMS http en wikipedia org wiki Content management system 配置包含几十个
在 C++ 中设置差异

如果我知道一个集合是另一个集合的子集并且我想找出差异那么最有效的方法是什么前任伪代码 gt set
对于生成 1..n 范围内的 N 个唯一随机数，以下哪种算法在性能和顺序方面更好？

1 取一个包含 n 个元素的数组 1 2 3 n 使用任意随机洗牌数组的标准算法对数组进行洗牌修改后的数组的前 N 个元素就是您要查找的内容 2 只需使用Random Next 循环并检查它是否已经存在于Dictionary 直到我们有
未显示数据库中的 JSF bean

我有以下豆 import java util List import javax faces bean RequestScoped import javax annotations ManagedBean import javax pers
我怎样才能用承诺重写这个？

我正在为 T 恤网站构建内容抓取器目标是仅通过一个硬编码的 url 进入网站 http shirts4mike com 然后我将找到每件 T 恤的所有产品页面然后创建一个包含其详细信息的对象然后将其添加到数组中当数组填满 T 恤时

我怎样才能用承诺重写这个？

我怎样才能用承诺重写这个？ 的相关文章

随机推荐

热门标签

我怎样才能用承诺重写这个？的相关文章