我尝试抓取 sitemap.xml 的所有链接以重新缓存网站。但是 wget 的递归选项不起作用,我只得到响应:
远程文件存在,但不包含任何链接——无法检索。
但可以肯定的是,sitemap.xml 充满了“http://...”链接。
我尝试了 wget 的几乎所有选项,但没有任何对我有用:
wget -r --mirror http://mysite.com/sitemap.xml
有谁知道如何打开网站 sitemap.xml 内的所有链接?
谢谢,
多米尼克
看起来wget
无法解析 XML。因此,您必须手动提取链接。你可以这样做:
wget --quiet http://www.mysite.com/sitemap.xml --output-document - | egrep -o "https?://[^<]+" | wget -i -
我学会了这个技巧here http://www.wezm.net/technical/2009/05/spider-a-site-with-wget-using-sitemap-xml/.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)