<Web Scraping with Python> Chapter 1 & 2

Chapter 1 & 2: Your First Web Scraper & Advanced HTML Parsing

  • BeautifulSoup package
  • Navigating Trees
  • Regular Expression

1.Key:

urlib or urlib2?

If you’ve used the urllib2 library in Python 2.x, you might have noticed that things have changed somewhat between urllib2 and urllib. In Python 3.x, urllib2 was renamed urllib and was split into several submodules: urllib.request, urllib.parse, and url lib.error. Although function names mostly remain the same, you might want to note which functions have moved to submodules when using the new urllib.

在学习这本书之前,使用过此 package(我一开始学习 Python 就用的是 3.x,Mac 自带 Python2.x),当时出错了,上 Stackoverflow 找到了答案,现在这本书提到了这点,重新回顾一下:

如果你用过 Python 2.x 里的 urllib2 库,可能会发现 urllib2urllib 有些不同。在 Python 3.x 里,urllib2 改名为 urllib,被分成一些子模块:urllib.requesturllib.parseurllib.error。尽管函数名称大多和原来一样,但是在用新的 urllib 库时需要注意哪些函数被移动到子模块里了。


When to get_text() and When to Preserve Tags?

.get_text() strips all tags from the document you are working with and returns a string containing the text only. For example, if you are working with a large block of text that contains many hyperlinks, paragraphs, and other tags, all those will be stripped away and you’ll be left with a tagless block of text.

Keep in mind that it’s much easier to find what you’re looking for in a BeautifulSoup object than in a block of text. Calling .get_text() should always be the last thing you do, immediately before you print, store, or manipulate your final data. In general, you should try to preserve the tag structure of a document as long as possible.

简而言之,通常在我们准备打印、存储和操作数据的时候,即最后的时候才使用 .get_text()。一般情况下,我们应该尽可能地保留 HTML 文档的标签结构。


find() and findAll() with BeautifulSoup?

  • findAll(tag, attributes, recursive, text, limit, keywords)
  • find(tag, attributes, recursive, text, keywords)

先说结论,再仔细说说参数的用法。
find() is equivalent to the same findAll() call, with a limit of 1.
find() 其实等价于 findAll() 的 limit 等于 1 时的特殊情况。

  • tag: 我们可以传一个标签的名称或多个标签名称组成的 Python 列表做标签参数。例如:(”span”, “h1” , {“span”, “h1”}, {“h1”, “h2”, “h3”})。其实就是一个「或」关系的过滤器(即我们可以选择带有 spanh1h2 等的一列标签)。
  • attributes: 这是一个用 Python 字典封装某一标签的若干属性和对应的属性值。例如:{“class”: {“green”, “red”}}
  • recursive: 一般情况下,这个参数不需要设置,除非我们真正了解自己需要哪些信息,而且抓取速度非常重要,因为这个参数会根据我们的要求去查找标签参数的所有子标签,以及子标签的子标签。
  • limit: 只适用于 findAll() 方法,如果我们只对网页中获取的前 x 项结果感兴趣,我们就可以通过设置 limit 来获取。但是需要注意的是:获得的前几项结果是按照网页上的顺序排序的,未必是我们想要的前几项,所以我们还需要额外做一些自己的排序。
  • keyword: 使我们选择那些具有制定属性的标签成为可能。

keyword 关键词参数的主意事项:
使用 keyword 偶尔会出现问题,尤其是在用 class 属性查找标签的时候,因为 class 是 Python 中受保护的关键字。也就是说,class 是 Python 语言的保留字,在 Python 程序中是不能充当变量或者参数名使用的。假如我们运行下面的代码,Python 就会因为我们误用 class 保留字而产生一个语法错误:
bsObj.findAll(class="green")
不过 BeautifulSoup 提供了一个解决方案,就是在 class 后面增加一个下划线:
bsObj.findAll(class_="green")
我们也可以使用属性参数来将 class 用引号包起来:
bsObj.findAll("",{"class": "green"})

另外,如果说 tag 参数是相当于一个「或」关系的过滤器,那么 keyword 参数就可以为我们构造一个「与」关系的过滤器来提高我们的工作效率,简化我们的工作。


Navigating Trees

如果说 find()findAll() 函数是通过标签的名称和属性来查找标签,那么 Navigating Trees 就是通过标签在文档中的位置来查找标签。

Make Selections Specific

To make your scrapers more robust, it’s best to be as specific as pos‐ sible when making tag selections. Take advantage of tag attributes when they are available.

如果想让我们的爬虫更加稳定,最好还是让标签的选择更加具体。如果有属性,就利用标签的属性。

bsObj.tr
bsObj.table.tr
bsObj.find("table",{"id":"giftList"}).tr

上述三行目的都是获取书本上的网站中的表格的第一行。但是我们应该采用最后一条,用更具体的形式来获取,原因很简单,即使页面上只有一个表格(或者其他的目标标签),只用标签也很容易丢失细节。另外,页面的布局总是不断变化的,一个标签这次是在表格中的第一行的位置,没准哪天就在第二行或者第三行了。


Regular Expression

学好正则表达式,走遍天下都不怕。正则表达式其实就是一个过滤器,如果你给我的字符串符合我写的规则,那么我就返回它。

让我们来看看用正则表达式来表示邮箱地址:

[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)

让我们把它分解开来看:

  1. [A-Za-z0-9\._+]+ :这个表达式把所有可能的序列和符号放在中括号(而不是小括号)里面,表示“括号中的符号里任何一个”。另外注意,后面的加号表示“这些符号都可以出现多次,而且至少出现一次”。
  2. @:这个符号很直接,出现在中间位置,有且仅有一次。
  3. [A-Za-z]+ :可能出现在域名的前半部分、符号@后面用字母。而且,至少有一个字母。
  4. . :域名前必须有一个点号。
  5. (com|org|edu|net) :顶级域名可能有很多种,但是作为参考,这是个后缀够用了。

2.Correct errors in printing:

  • P17:

例如,tr标签是__tabel__标签的子标签,而……

需要更正为:

例如,tr标签是__table__标签的子标签,而……


3.Still have Question:

  1. 子标签和后代标签的代码片段
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,012评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,628评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,653评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,485评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,574评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,590评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,596评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,340评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,794评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,102评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,276评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,940评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,583评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,201评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,441评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,173评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,136评论 2 352

推荐阅读更多精彩内容