python实战计划第一周,第二个项目

爬取商品信息

import requests
from bs4 import BeautifulSoup
import os

os.chdir('/Users/baidu/Desktop/爬虫/Plan-for-combating-master/week1/1_2/1_2answer_of_homework/1_2_homework_required/')

with open('index.html', 'r') as wb_data:
    soup = BeautifulSoup(wb_data, 'lxml')

    images = soup.find_all('div', {'class': 'thumbnail'})
    prices = soup.find_all('h4', {'class': 'pull-right'})
    titles = soup.find_all('div', {'class': 'caption'})
    reviews = soup.find_all('div', {'class': 'ratings'})
    stars = soup.find_all('div', {'class': 'ratings'})

for image, price, title, review, star in zip(images, prices, titles, reviews, stars):
    star_num = len(star.find_all('p')[1].find_all('span', {'class': 'glyphicon glyphicon-star'}))
    data = {
    'image': image.img['src'],
    'price': price.get_text(),
    'title': title.a.get_text(),
    'review': review.p.get_text().split(' ')[0],
    'star': str(star_num) + '星'
    }
    print(data)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 第二节练习项目:爬取商品信息 学习了如何获取数组长度 了解基础的正则表达式知识 第三节练习项目:爬取租房信息 --...
    飞飞幻想阅读 3,240评论 1 0
  • 这周正式开始学习,今天星期四,前面三天都花了很多时间去敲代码。截止昨天,我完成了所有第一周的学习和作业,打算做一个...
    bbjoe阅读 5,438评论 0 0
  • python实战计划的第七个项目:爬取武汉赶集网。 1.任务介绍 大致可以分为3个层次: a.第一个层次:获取类目...
    乐小Pi孩_VoV阅读 3,150评论 0 0
  • 爬取短租房前三页,并将数据存储在mongodb中,打印出大于等于500元的租房信息。代码: 总结:1、理解了网页的...
    kaurala阅读 1,625评论 0 0
  • 我的绿眼睛像切开的两片 松花蛋 是的,它们不是只会惹人流泪的洋葱头 我不想做布娃娃 她们被人安排从不受伤只会笑 (...
    草籽阅读 2,206评论 2 5

友情链接更多精彩内容