2019-12-24

#! /usr/bin/python3

# -*- coding:UTF-8

import requests

from lxml import etree

url = 'https://movie.douban.com/top250?'

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36",

}

new_url = ''

file = open('xiaoshuo.txt', 'r+', encoding="utf-8")

for i in range(0, 10):

    new_url = url + 'start=' + str(i*25) + '&filter='

    response = requests.get(new_url, headers=headers)

    html = etree.HTML(response.text)

    title_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[1]/a/span[1]/text()')

    inf_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[1]/text()')

    score_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/div/span[2]/text()')

    quote_list = html.xpath('//*[@id="content"]/div/div[1]/ol/li/div/div[2]/div[2]/p[2]/span/text()')

    for j in range(0, 25):

        str1 = title_list[j] + ' ' + inf_list[2*j].strip() + inf_list[2*j+1].strip() +' 评分为:' + score_list[j] + ' "' + quote_list[j] + '"\n'

        file.write(str1)

        print(str1)

print('电影爬取完毕')

file.close()

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • def compare(str1, str2): str1_list = list(str1) str2_list...
    可可可以可爱阅读 1,873评论 3 0
  • 作业: 爬取快代理ip 网址: http://www.kuaidaili.com/free/inha/1/ 示例代...
    但丁的学习笔记阅读 1,747评论 0 2
  • 高在开发的过程中,我们往往会使父级的高度自适应(没有固定高度,高度由子级撑开),但是有时需要子级浮动(float)...
    codezhong阅读 1,216评论 1 0
  • 不管您从事什么职业,在生活中扮演着什么样的角色,会说话,尤其是得体地与人沟通是非常重要的事情。因为自己表达不清,而...
    赵墨香阅读 1,517评论 0 0
  • 说好的爬字呢,怎么这几天都在画画,有点不务正业了
    耄小毛阅读 2,701评论 1 4

友情链接更多精彩内容