from bs4 import BeautifulSoup
path = './1_2_homework_required/index.html'
with open(path, 'r') as wb_data:
soup = BeautifulSoup(wb_data, 'lxml')
# print(wb_data)
titles = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a')
images = Soup.select('body > div > div > div.col-md-9 > div > div > div > img')
reviews = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')
prices = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')
stars = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)')
for title, image, review, price, star in zip(titles, images, reviews, prices, stars):
data = {
'title': title.get_text(),
'image': image.get('src'),
'review': review.get_text(),
'price': price.get_text(),
'star': len(star.find_all("span", class_='glyphicon glyphicon-star'))
}
print(data)
第一周作业2 爬取商品信息
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
相关阅读更多精彩内容
- 实战计划0430-石头的练习作业 作业的要求如下 html的重要结构如下 实现的代码如下 笔记、思考与总结 1、h...