爬虫

import requests
import pandas as pd
from lxml import etree
from pandas import Series, DataFrame
import time
# 请求头,伪装成浏览器 
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4209.400'
}
#爬取多少页,一页是5条
for page in range(1,18):
    x=[]
    y=[]
    print(page)
    # 网址
    url ='https://loox.io/widget/Ek-NmagOgF/reviews/5534546722968?page='\
            +str(page)+'&total=90&h=1599499703061&variant=visible'
    # 请求响应
    print(url)
    html = requests.get(url=url,headers=headers)
    bs = etree.HTML(html.text)
    for i in range(0,5):
        title = bs.xpath('//div[@class="pre-wrap main-text action"]')[i].text
        x.append(title)
    imgs = bs.xpath('//div[@class="item-img box"]/img/@src')
    for img in imgs:
        y.append(img)        
    test=pd.concat([pd.DataFrame({'Comment': x}), pd.DataFrame({'url':y})],axis=1)
    #test.to_csv('result.csv',mode='a+',index=None,encoding = 'utf_8_sig')
    test.to_csv('result5.csv',mode='a+',header=False,index=None,encoding = 'utf_8_sig')
    print("结束")
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容