import requests
import pandas as pd
from lxml import etree
from pandas import Series, DataFrame
import time
# 请求头,伪装成浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4209.400'
}
#爬取多少页,一页是5条
for page in range(1,18):
x=[]
y=[]
print(page)
# 网址
url ='https://loox.io/widget/Ek-NmagOgF/reviews/5534546722968?page='\
+str(page)+'&total=90&h=1599499703061&variant=visible'
# 请求响应
print(url)
html = requests.get(url=url,headers=headers)
bs = etree.HTML(html.text)
for i in range(0,5):
title = bs.xpath('//div[@class="pre-wrap main-text action"]')[i].text
x.append(title)
imgs = bs.xpath('//div[@class="item-img box"]/img/@src')
for img in imgs:
y.append(img)
test=pd.concat([pd.DataFrame({'Comment': x}), pd.DataFrame({'url':y})],axis=1)
#test.to_csv('result.csv',mode='a+',index=None,encoding = 'utf_8_sig')
test.to_csv('result5.csv',mode='a+',header=False,index=None,encoding = 'utf_8_sig')
print("结束")
爬虫
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...
- scrapy框架是爬虫界最为强大的框架,没有之一,它的强大在于它的高可扩展性和低耦合,使使用者能够轻松的实现更改和...
- 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔...