Python作业2:使用LXML方法爬取数据

import requests

from lxml import etree

import xlwt

all_info_list=[]

def get_info(url):

      res = requests.get(url)

      html = etree.HTML(res.text)

      infos = html.xpath('//ul[@class="rank_list"]/li')

      for infoin infos:

           rank1 = info.xpath('em ')[0]

           rank = rank1.xpath('string(.)').strip()

           name = info.xpath('a/text()')[0]

           size = info.xpath('i/text()')[0]

           popularity = info.xpath('span/text()')[0]

           # print(game,size,popularity)

           info_list = [rank,name,size,popularity]

           all_info_list.append(info_list)

if __name__ =='__main__':

      book = xlwt.Workbook(encoding='utf-8')

      sheet = book.add_sheet('Sheet1')

      header = ['rank','name','size','popularity']

      for t  in range(len(header)):

            sheet.write(0, t, header[t])

      urls = ['http://www.doyo.cn/rank/shouji/100/page/{}'.format(str(i))for i  in range(1,4)]

      for url in urls:

              get_info(url)

       i =1

       for list in all_info_list:

             j =0

             for datain list:

                    sheet.write(i, j, data)

                     j +=1

              i +=1

    book.save('C:/Users/Xumeiling/Desktop/手机游戏排行榜.xls')


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • # 本程序用于爬取酷我音乐网站中新歌榜前200名的歌曲和歌手信息 # # 获取信息保存在xls文件中 import...
    穿透烟雾lily阅读 349评论 0 0
  • **2014真题Directions:Read the following text. Choose the be...
    又是夜半惊坐起阅读 9,998评论 0 23
  • 还想抓住青春的尾巴,还想品尝读书的苦中带甜,还想好好体验学生的生活,上课认真地听老师讲课,认真地做笔记,而不是带着...
    COS后期阅读 310评论 0 2
  • 这两天突然心情大好,或者说是放松吧。妞说,别人到了医院都是垂头丧气,怎么感觉你这么亢奋呢?是啊,是有些小兴奋...
    Leohunter阅读 169评论 0 0
  • 于徘徊中归来 潜藏着败北的忧伤 你站在那里 不言不语 逃过落日故人情 掩饰着孤独的滋味 我站在那里 一生忧伤 失败...
    你说那是什么阅读 198评论 0 0