Python爬虫——BeautifulSoup4库入门

  1. 创建BeautifulSoup对象的两种方式:
  • 从字符串创建:soup = BeautifulSoup(html_str,'html.parser')
  • 从html文件创建:soup = BeautifulSoup(open('xx.html'))
  1. 解析器比较
解析器 优势
"html.parser" python内置标准库;速度适中;容错强
"lxml" 速度快;容错强;需要pip install lxml
"xml" 速度快;支持XML的解析器
"html5lib" 容错性最强;生成HTML5格式的文档;速度慢

常用对象

Tag

  • 与HTML或XML中的Tag相同,就是标签,有两个重要属性:nameattributes
  • name抽取方式:<Tag>.name (Beautiful对象也可以看作是一个Tag)
  • attributes 抽取方式: <Tag>.attrs可以拿到标签的所有属性,返回一个dict
    如果要提取某个属性(比如class属性)的值,可以用<Tag>.get('class')或者<Tag>['class'],返回一个列表。

NavigableString

获取标记内部的文字:<Tag>.string

遍历文档树

  1. <Tag>.contents的方式可以将Tag的子节点以列表的形式输出;<Tag>.children同理,但是输出的是一个生成器,可以用循环来读取。<Tag>.decendants可以对tag的所有子孙节点都循环递归出来。
  2. <Tag>.parent可以获得某个元素的父节点,<Tag>.parents则得到所有的父辈节点(与decendants一致)
  3. <Tag>.next_siblings可以迭代出该节点后面的所有兄弟节点。(处于同一个父节点下面的)

检索方法

  • find_all()方法
    函数原型:find_all(name, attrs, recursive, text, **kwargs)
    1.name参数——标签名。
    直接传入标签名的字符串即可,也支持传入一个字符串数组
    可以传入一个正则表达式,比如re.compile('^b')可以检索到以b开头的标记比如body,b,br
  1. kwargs参数——可以传入id,href,_class(因为python中已有class作为保留字,故用_class代替class)等属性。
    比如soup.find_all('a', class_= 'sister', id = 'link')就是说找a标签,class属性为'sister,id为'link'的标签;
    href = True则搜索包含href属性的标签;
    另外,同样支持传入一个正则表达式
    如果某些html5里面的值不能用id = 'x'来表达,那么可以传入attrs = {'id' : 'x'}来表示。
    3.limit参数:可以用来限定返回个数,比如设置为limit =2 返回两个值。
    4.recursive参数:迭代,默认为True,若设置为False则只返回子节点内的搜索。
  • CSS选择器
    1.用soup.select(Tag)来找标签,返回是一个标签列表,比如soup.select('p')可以找到所有段落。soup.select('img')找到所有图片。
  1. 常见是' '表示标签,'.xxx'表示CSS class xxx属性。'div span'表示所有在div元素之内的span元素。 'div>span'表示直接在div下一级的span 。#comic表示带有id属性为comic的元素。'.t'代表class属性为t的元素。
  2. 是否存在某个属性来查找:'a[href]'可以查找出所有带有href属性的a标签。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,546评论 6 507
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,224评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,911评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,737评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,753评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,598评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,338评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,249评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,696评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,888评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,013评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,731评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,348评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,929评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,048评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,203评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,960评论 2 355

推荐阅读更多精彩内容