python实战计划：爬取商品信息-本地文件

Date:2016-10-1
By:Black Crow

前言：

本次作业为第一周的第二节作业，假期老师提醒交作业，补写了此节的作业。
文件为本地网页，读取分析商品的各项信息

作业效果：

效果.png

我的代码：

20161001代码

from bs4 import BeautifulSoup
path = 'C://Users/chefuyin/PycharmProjects/homework/homework_W1P2/index.html'
with open(path,'r')as file:#只读打开
file_content = file.read()#本地文件，先读取。
soup =BeautifulSoup(file_content,'lxml')
#print(soup)
imgs = soup.select('div.thumbnail > img')
titles =soup.select('div.caption > h4 > a')
prices = soup.select('h4.pull-right')
stars =soup.select('div > div.ratings')
reviews =soup.select('p.pull-right')
#print(stars)
for img,title,price,star,review in zip(imgs,titles,prices,stars,reviews):
data={
'img':img.get('src'),
'title':title.get_text(),
'price':price.get_text(),
'star':len(star.find_all('span','glyphicon glyphicon-star')),#加了span和后面两个才出来？
'review':review.get_text(),
}
print(data)


####总结：
>1. find_all查找五角星个数时后单个信息无法查找出个数，两个齐备时才能查找出，对于find_all的用法还需要回去翻文档才行。
2. 本地网页打开时先的read获取内容，与读取网络连接时使用requests略有不同。

最后编辑于：2017.12.04 04:46:54

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python实战计划：爬取商品信息-本地文件