刚开始学习爬虫,记录一下。
我爬了一页的数据,想要爬取多页的,只需要遍历,改变url中最后的数字,44是一页显示的条数,第二页就是2*44,以此类推。
url中q后面是你要搜索的关键字,可以根据自己需求更改
import requests
import re
import xlwt
url = 'https://s.taobao.com/search?q=%E5%92%96%E5%95%A1&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20180920&ie=utf8&style=grid&sort=sale-desc&s=44'
heads = {
'User-Agent': '从浏览器复制',
'cookie': 'cokie从浏览器登录后复制就可以了'
}
response = requests.get(url, headers=heads)
content = response.text
img_pat='"pic_url":"(//.*?)"'#商品图片
name_pat='"raw_title":"(.*?)"'#商品名字
nick_pat='"nick":"(.*?)"'#淘宝店铺名称
price_pat='"view_price":"(.*?)"'#商品价格
fee_pat='"view_fee":"(.*?)"'#运费
sales_pat='"view_sales":"(.*?)人收货'#收货人数
comment_pat='"comment_count":"(.*?)"'#商品评论数,
city_pat='"item_loc":"(.*?)"'#淘宝店所在城市
detail_url_pat='detail_url":"(.*?)"'#商品详细地址
nameL=re.compile(name_pat).findall(content)
priceL=re.compile(price_pat).findall(content)
salesL=re.compile(sales_pat).findall(content)
cityL=re.compile(city_pat).findall(content)
wb = xlwt.Workbook()
ws = wb.add_sheet('point')
ws.write(0, 0, "商品名称")
ws.write(0, 1, "价格")
ws.write(0, 2, "销量")
ws.write(0, 3, "发货地")
for j in range(len(nameL)):
ws.write(j+1, 0, nameL[j])
ws.write(j+1, 1, priceL[j])
ws.write(j+1, 2, salesL[j])
ws.write(j+1, 3, cityL[j])
wb.save('./咖啡.xls')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)