记爬虫小分队(六)

  • 2017年5月18日
    今天有同学问我贴吧为什么信息提取不出来?



    下面是同学的源代码:

import requests
from bs4 import BeautifulSoup

start_url = "http://tieba.baidu.com/p/4957100148"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER"}
response = requests.get(start_url,headers = headers).text
soup  = BeautifulSoup(response,"html.parser")
infos = soup.select('div.d_post_content j_d_post_content  clearfix')

他是同find方法,找的div的class标签,对于这个问题,我们可以换个思路,这个定位找不到,就往上找,我的代码:

import requests
from bs4 import BeautifulSoup

start_url = "http://tieba.baidu.com/p/4957100148"
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.75 Safari/537.36 LBBROWSER"}
response = requests.get(start_url,headers = headers).text
soup  = BeautifulSoup(response,"html.parser")
infos = soup.select('cc > div')
for info in infos:
    print(info.get_text().strip())

总结:各种爬取方法都需要灵活使用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 转至元数据结尾创建: 董潇伟,最新修改于: 十二月 23, 2016 转至元数据起始第一章:isa和Class一....
    40c0490e5268阅读 1,767评论 0 9
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,175评论 25 708
  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,768评论 6 28
  • 成熟是一种状态和习惯,一种稳重和庄严,一种温和和精神。 不要拘束自己活在自己的世界,应该敞开心扉去与人交流和合作。...
    云上行者168阅读 222评论 0 0