Python实战课程第一周第四课:练习提取一个本地网页信息

昨天看完教程之后,重新敲了一次代码,今天开始做后面的练习题。练习题基本和课程差不多,目标是提取评分高于4星的文章标题和评论数。

我的成果

13.JPG

我的代码

from bs4 import BeautifulSoup
info = []
with open('E:/1080P/1_2_homework_required/index.html','r') as wb_data:
    Soup = BeautifulSoup(wb_data,'lxml')
#    print(Soup)
    images = Soup.select('body > div > div > div.col-md-9 > div > div > div > img')
    titles = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4 > a')
    prices = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.caption > h4.pull-right')
    stars = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p:nth-of-type(2)')
    nums = Soup.select('body > div > div > div.col-md-9 > div > div > div > div.ratings > p.pull-right')
 #   print(stars)
#for star in stars:
 #   print(list(star.find_all("span")))


for title,image,price,star,num in zip(titles,images,prices,stars,nums):
    data = {
    'title':title.get_text(),
    'image':image.get('src'),
    'price':price.get_text(),
    'star': len(star.find_all("span", class_ = 'glyphicon glyphicon-star')),
    'num':num.get_text()
    }
 #   print(data)
    info.append(data)

for i in info:
    if float(i['star'])>4:
        print(i['title'],i['price'])

我的总结

  1. 练习题的难点在于那几个星星的统计。由于教程上提示可以使用find_all函数解决,于是我仔细地看了看教程,先尝试自己解决。
star.find_all("span")

这是我刚开始的想法,因为我看到星星的网页内容是这样的:

<span class="glyphicon glyphicon-star"></span>

上面就代表了一个星星,我还以为find_all能知道帮忙查到有几个星星,结果不是。然后我想,是不是要让这些星星先像列表那样全部排列出来,然后再统计有多少个。
搞了好久,我最后还是看了看答案。原来要用到len统计函数,还要指向class,而且是class_不要忘了后面的" _ "。
还有路径,我一开始就将不要的东西全删掉了,原来是要保留最后的部分的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 177,811评论 25 709
  • 转至元数据结尾创建: 董潇伟,最新修改于: 十二月 23, 2016 转至元数据起始第一章:isa和Class一....
    40c0490e5268阅读 1,988评论 0 9
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 34,230评论 18 399
  • 不是不会痛,而是觉得不值得,但是想想切觉得伤心
    奈若何夕阅读 198评论 0 0
  • 【致敬100天后的奔跑的自己,因为无法知道远方,所以,前行】 来一桶哥们, 细思人生一转眼经历90个100天,很多...
    贺小桶阅读 232评论 2 9

友情链接更多精彩内容