import requests
import pandas as pd
from lxml import etree
from pandas import Series, DataFrame
import time
# 请求头,伪装成浏览器
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4209.400'
}
#爬取多少页,一页是5条
for page in range(1,18):
x=[]
y=[]
print(page)
# 网址
url ='https://loox.io/widget/Ek-NmagOgF/reviews/5534546722968?page='\
+str(page)+'&total=90&h=1599499703061&variant=visible'
# 请求响应
print(url)
html = requests.get(url=url,headers=headers)
bs = etree.HTML(html.text)
for i in range(0,5):
title = bs.xpath('//div[@class="pre-wrap main-text action"]')[i].text
x.append(title)
imgs = bs.xpath('//div[@class="item-img box"]/img/@src')
for img in imgs:
y.append(img)
test=pd.concat([pd.DataFrame({'Comment': x}), pd.DataFrame({'url':y})],axis=1)
#test.to_csv('result.csv',mode='a+',index=None,encoding = 'utf_8_sig')
test.to_csv('result5.csv',mode='a+',header=False,index=None,encoding = 'utf_8_sig')
print("结束")
爬虫
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
相关阅读更多精彩内容
- 通用爬虫和聚焦爬虫 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 通用爬虫 通用网络爬虫 是 捜索...
- scrapy框架是爬虫界最为强大的框架,没有之一,它的强大在于它的高可扩展性和低耦合,使使用者能够轻松的实现更改和...
- 爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔...