- 用chrome 来获取cookies 在Network选项中。
为了筛选出 这一类的标题,那么分析后市发现他们有共同属性的,就包括 图片也一样。
titles = soup.select('div.property_title > a[target="_blank"]')
imgs = soup.select('img[width="160"]')
这里面 标题就是都有相同的 父级标签,而 图片宽度都是160 的。
我们是不需要带有聚合性标签的标题,那么我们就要分析 他和其他普通标签是有什么不一样的地方。
看一下两个具体链接有什么不一样的 地方
- 我们想要的 链接里面有单独的 target 标签 所以我们 的代码应该如下。
titles = soup.select('div.property_title > a[target="_blank"]')
- 制造头信息
headers = { 'User-Agent':'', 'Cookie':''}
wb_data = requests.get(url,headers = headers)
- 自动化链接
urls =['http://www.tripadvisor.cn/Attractions-g60763-Activities-oa{}-New_York_City_New_York.html#ATTRACTION_LIST'.format(str(i)) for i in range(0,930,30)]
知识点,{} .format() str(i) for i in range(0,930,30) 并且把这些链接放入一个列表。
那么要访问里面的 每一个链接, 我们需要的是 用for 循环来解决。