对于我的爬虫项目,我需要从 JavaScript 对象获取产品详细信息。
如何从以下 JavaScript 中有效获取对象详细信息?我使用 XPath 和 HTMLAgilityPack。
<script type="text/javascript">
var product = {
identifier: '2051189775', //PRODUCT ID
fn: 'Fit- Whiskered Dark Wash Skirt',
category: ['sale'],
brand: 'Brand Name',
price: '22.90', // this would be the discount price
amount: '31.80', // this would be the original price
currency: 'USD',
//List can me even more.
};
</script>
我之前没有尝试过从 JavaScript 对象获取详细信息。我直接从其他爬虫的 HTML 中获取详细信息。
由于 HTML Agility Pack 不评估 HTML 的任何内容,因此 javascript 代码应仅被视为纯文本。使用SelectSingleNode
方法找到 Javascript 片段,然后只需获取 InnerHtml 即可获取内容。
要么找到一个 C# javascript 解析器 (Iron JS例如)或使用标准文本操作技术编写解析器(String.*
or Regex
提取你想要的部分。
一旦你有了大括号之间的位,你就可以使用前面提到的解析器或类似的库来解析它们Json.NET,因为大括号之间的部分似乎是有效的 json。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)