课时10

  • 用chrome 来获取cookies 在Network选项中。
1.jpg

为了筛选出 这一类的标题,那么分析后市发现他们有共同属性的,就包括 图片也一样。

titles = soup.select('div.property_title > a[target="_blank"]')
imgs = soup.select('img[width="160"]')

这里面 标题就是都有相同的 父级标签,而 图片宽度都是160 的。

我们是不需要带有聚合性标签的标题,那么我们就要分析 他和其他普通标签是有什么不一样的地方。

1.jpg

看一下两个具体链接有什么不一样的 地方

1.jpg
  • 我们想要的 链接里面有单独的 target 标签 所以我们 的代码应该如下。
titles  = soup.select('div.property_title > a[target="_blank"]')
  • 制造头信息
headers = { 'User-Agent':'',  'Cookie':''}
wb_data = requests.get(url,headers = headers)
1.jpg
  • 自动化链接
urls =['http://www.tripadvisor.cn/Attractions-g60763-Activities-oa{}-New_York_City_New_York.html#ATTRACTION_LIST'.format(str(i)) for i in range(0,930,30)]

知识点,{} .format() str(i) for i in range(0,930,30) 并且把这些链接放入一个列表。
那么要访问里面的 每一个链接, 我们需要的是 用for 循环来解决。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,009评论 19 139
  • 背景 一年多以前我在知乎上答了有关LeetCode的问题, 分享了一些自己做题目的经验。 张土汪:刷leetcod...
    土汪阅读 12,779评论 0 33
  • Date:2016-9-21update:2016-9-30By:Black Crow 前言: 终于进入到网络页面...
    black_crow阅读 887评论 0 2
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,789评论 6 28
  • 欧阳子方夜读书,闻有声自西南来者,悚然而听之,曰:“异哉!”初淅沥以萧飒,忽奔腾而砰湃,如波涛夜惊,风雨骤至。其触...
    大达堂阅读 1,611评论 3 1