登录注册写文章

Python作业2:使用LXML方法爬取数据

工程部徐美玲

Python作业2:使用LXML方法爬取数据

import requests

from lxml import etree

import xlwt

all_info_list=[]

def get_info(url):

res = requests.get(url)

html = etree.HTML(res.text)

infos = html.xpath('//ul[@class="rank_list"]/li')

for infoin infos:

rank1 = info.xpath('em ')[0]

rank = rank1.xpath('string(.)').strip()

name = info.xpath('a/text()')[0]

size = info.xpath('i/text()')[0]

popularity = info.xpath('span/text()')[0]

# print(game,size,popularity)

info_list = [rank,name,size,popularity]

all_info_list.append(info_list)

if __name__ =='__main__':

book = xlwt.Workbook(encoding='utf-8')

sheet = book.add_sheet('Sheet1')

header = ['rank','name','size','popularity']

for t in range(len(header)):

sheet.write(0, t, header[t])

urls = ['http://www.doyo.cn/rank/shouji/100/page/{}'.format(str(i))for i in range(1,4)]

for url in urls:

get_info(url)

i =1

for list in all_info_list:

j =0

for datain list:

sheet.write(i, j, data)

j +=1

i +=1

book.save('C:/Users/Xumeiling/Desktop/手机游戏排行榜.xls')

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

第二次作业：爬取网页数据
# 本程序用于爬取酷我音乐网站中新歌榜前200名的歌曲和歌手信息 # # 获取信息保存在xls文件中 import...
穿透烟雾lily阅读 2,675评论 0赞 0
2003-2014考研真题
**2014真题Directions:Read the following text. Choose the be...
又是夜半惊坐起阅读 13,478评论 0赞 23

这一刻，请停下
还想抓住青春的尾巴，还想品尝读书的苦中带甜，还想好好体验学生的生活，上课认真地听老师讲课，认真地做笔记，而不是带着...
COS后期阅读 2,299评论 0赞 2
假期，你好，好久不见。
这两天突然心情大好，或者说是放松吧。妞说，别人到了医院都是垂头丧气，怎么感觉你这么亢奋呢？是啊，是有些小兴奋...
Leohunter阅读 1,105评论 0赞 0
失败
于徘徊中归来潜藏着败北的忧伤你站在那里不言不语逃过落日故人情掩饰着孤独的滋味我站在那里一生忧伤失败...
你说那是什么阅读 1,300评论 0赞 0

1赞2赞

赞赏

手机看全文