练习抓取淘宝商品信息

准备

查看淘宝的页面是不是静态页面,结果是静态页面。
想要抓取的是淘宝搜索某个商品的信息,所以要找到淘宝的搜索接口,经过观察可以看到接口可以这样解决:

word = '书包'
url = 'https://s.taobao.com/search?q=' + word

其实抓取淘宝主要是想加强自己对正则表达式的理解与运用的,于是决定用requests+re来完成此次练习。

调试

抓取网页

调试的第一步获取网页的源代码就遇到了问题,真是不幸。于是开始痛苦的调试过程:

  • 在头部信息中添加浏览器信息
    结果:失败
  • 在头部信息中添加referer
    结果:失败
  • 在头部信息中添加cookie
    结果:返回结果有了变化,于是很高兴的去把requests发起的请求改成session会话发起的请求,结果最后发现虽然和以前返回的内容变了,但源代码还是错误的,简直崩溃,不知道用了什么反爬虫技术。
  • 终极武器----selenium
    用这个直接调用真实的浏览器对其访问,终于不会出错了(这还是要出错,真的是无fuck可说了),但这个要启动浏览器,速度可能会很慢,所以我把源代码保存到了本地,避免重复访问浪费时间。

保存网页

保存的话用二进制的形式保存,不会出现一些乱七八糟的编码错误,而且用浏览器打开的时候可以显示中文,但用Python读取的时候,显示不出来中文,需要解码才能显示中文,可能原因是浏览器打开文件的时候自动解码的。

正则表达式查找

把网页保存到本地后,可以将其读取保存到一个变量中,然后就可以对其进行操作了。个人感觉对于爬虫的话,正则表达式最常用的方法应该是findall方法了吧,为了节省时间,可以先把正则表达式编译,然后再对具体的文本查找。示例:

rst = re.search(r'[1-9]\d{5}', 'bit 100081')  #函数式用法:一次性操作

pat = re.compile(r'[1-9]\d{5}')  #面向对象用法:编译后多次操作
rst = pat.search('bit 100081')

正式开始查找的时候,想把价格先找出来,用的是这行代码:
pat = re.compile(r'.*?<strong.*?>(.*?)</strong>.*?')
可以实现想要的功能。在这过程中遇到两个问题,一个是\d只能匹配到整数,并不能匹配到有小数点的数,所以换成了.*?;还有一个是正则表达式速度太慢了,虽然只是一个网页,但是大小有八百多k,也算是几十万的内容了,一次匹配竟然要八分钟,受不了,可能我的正则写的也不好,但是也掩饰不了它慢的本质了。于是我决定放弃用正则表达式来提取这个网页的内容。

战略改变

技术不行,虽然是静态网页,但是自己并不能用requests获取到正确的网页,只能改用selenium;正则表达式查找太慢,还是用beautifulsoup好。于是从requests+re变成了selenium+beautifulsoup来对网页进行爬取。

selenium库调用浏览器访问网页

比较简单,几行代码搞定对网页的访问。需要注意的是,要等待上那么一段时间让浏览器把页面给加载完成。

try:
        browser.get(url)
        time.sleep(3)
        page = browser.page_source
        return page.encode('utf-8').decode('utf-8')
    except:
        return ''

用bs库提取信息

对价格信息的提取比较简单,有唯一的类属性,可以准确定位到;而对于名称的定位,类属性较多,不过也没啥大碍,全部写进去就行了。唯一麻烦的是它的名称是分开的,不过其实其他的东西是假的,其实就在一个标签的string属性,至于内容不在一起,其实都是空格,用字符串的strip方法轻松搞定。下面的代码是定位到所需标签的父标签:

price_div = soup.find_all('div', class_='g_price-highlight') #div[0].strong.text
name_div = soup.find_all('div', class_='row row-2 title')   #div[0].span.text.strip()

总结

因为对beautifulsoup的使用算是比较熟练的了,所以后面的工作非常顺利的完成了。造成最大麻烦就是找不到淘宝的反爬虫技术到底是什么,技术不够,有点不爽。
附上源代码:

from selenium import webdriver
import time
from bs4 import BeautifulSoup

def get_page(url, browser):
    try:
        browser.get(url)
        time.sleep(10)
        page = browser.page_source
        return page.encode('utf-8').decode('utf-8')
    except:
        return ''

def parse_page(html):
    soup = BeautifulSoup(html, 'html.parser')
    return soup 

def get_message(soup, glist):
    price_div = soup.find_all('div', class_='g_price-highlight') #div[0].strong.text
    name_div = soup.find_all('div', class_='row row-2 title')   #div[0].span.text.strip()
    for i in range(len(price_div)):
        glist.append([name_div[i].a.text.strip(), price_div[i].strong.text])

def main():
    word = '书包'
    url = 'https://s.taobao.com/search?q=' + word   #https://s.taobao.com/search?q=%E4%B9%A6%E5%8C%85&s=88
    br = webdriver.Chrome()

    html = get_page(url, br)
    soup = parse_page(html)
    glist = []  
    get_message(soup, glist)
    print(glist)
    br.close()
    
main()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 12,674评论 6 28
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,587评论 18 139
  • 上初中的时候,学校门口有个新华书店,每次中午等校门开的时间,总是待在书店里看小说,那是我第一次读到莎士比亚的《...
    Bactery阅读 353评论 0 1
  • 注: 译文参考自《隐藏的论语》。 解读是个人暂时的浅见。 接下来几章是从行为的角度来探讨仁。 4.22 【原文】 ...
    吾宗老孙子阅读 275评论 0 0
  • Words and expressions 1.Fascinate 迷住,吸引住 E.g. He has been...
    Donutzpj阅读 332评论 0 0