爬虫系列(1) 一个简单的程序爬取百度百科

目标:爬取百度百科的人物关系,并用三元组储存

Mar-11-2020 16-38-46.gif
image.png
  1. 导入所需的包 这里我们使用requests获得网页源代码 并用xpath解析
import requests
from lxml import etree
import pandas as pd
import time
import random
  1. 用代理ip伪装自己,原理就是爬一页随机换个ip, 百度是有反爬措施的,我从快代理找了5个ip因为总共也就1000页要爬,这就够了
proxy_list = [

    {"http" : "124.88.67.81:80"},

    {"http" : "124.88.67.81:80"},

    {"http" : "124.88.67.81:80"},

    {"http" : "124.88.67.81:80"},

    {"http" : "124.88.67.81:80"}

]

快代理:https://www.kuaidaili.com/free/ 用免费的就好了 各位自行找5个ip把"http" :后面的内容替换掉就好了

  1. 设置请求头:(经常换请求头也是反爬的一个措施,但我这次懒了,就用这一个了)
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
    }
  1. 获取所有待爬取艺术家列表
    我使用的是雅昌上的数据
    https://amma.artron.net/artronindex_artist.php
url = 'https://amma.artron.net/artronindex_artist.php'

page_text = requests.get(url=url,headers=headers,proxies=random.choice(proxy_list)).content.decode('utf-8')
#把网页便变成xpath结构
tree = etree.HTML(page_text)
artlist = tree.xpath('//div[@class="sub-Aritst-Area"]/dl//li/a/text()')
artlist_nn=[]

我这里首先通过request获得源网页之后使用的Xpath解析, XPath的具体使用做了个小总结

- 获取所有节点
    - 获取所有li标签
    - //*  //li
- 获取子节点
    - 我们通过/或//即可查找元素的子节点和子孙节点
    - li节点的所有直接a子节点
    - //li/a
    - 获取ul的所有子孙a节点
    - //ul//a
    
- 获取父节点属性
    - 知道子节点查询父节点
    - //div[@class="filter-wrap"]/../@class'
    - //div[@class="filter-wrap"]/parent::*/@class'
    
- 属性定位
    - 找到当前源码中所有class属性为song的div标签
    - //div[@class="song"]
    
- 层级&索引定位
    - 找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
    - //div[@class="tang"]/ul/li[2]/a
    
- 多属性匹配
    - 从当前源码中找到href属性为空且class属性为song的所有a标签
    - //a[@href="" and @class="song"]
    
- 模糊匹配
    - 找到所有class属性值中包含nb的所有div标签
    - //div[contains(@class,"so")]
    - 找到所有class属性值以zb开头的所有div标签
    - //div[starts-with(@class,"ta")]
    
- 获取文本
    - / 表示获取某个标签下的文本内容
    - // 表示获取某个标签下的文本内容和所有子标签下的文本内容
    - //div[@class="song"]/p[1]/text()
    - //div[@class="tang"]//text()
    
- 获取属性
    - //div[@class="tang"]//li[2]/a/@href

给大家安利一个神器谷歌浏览器的插件 Xpath Helper 鼠标悬停在想获取的内容上按shift可以自动获取xpath表达式,也可以在里面自行编写xpath表达式之后检验正确与否



5.现在所有待爬取的艺术家列表都在artlist_nn里面了,接下来去爬百度百科

for i in artlist :
    try:
        #time.sleep(1) 
        url = 'https://baike.baidu.com/item/'+i
        page_text = requests.get(url=url,headers=headers,proxies=random.choice(proxy_list)).content.decode('utf-8')
        #把网页便变成xpath结构
        tree = etree.HTML(page_text)
        re =tree.xpath('//div[@class="lemma-relation-module viewport"]/ul/li/a/div/span[@class="name"]/text()')
        na =tree.xpath('//div[@class="lemma-relation-module viewport"]/ul/li/a/div/span[@class="title"]/text()')
        if len(re) != 0:
            artlist_nn.append(i)
            df = pd.DataFrame()
            a=a+1
            print(a)
            df['n']=0
            df['r']=re
            df['n']=i
            df['m']=na 
            dfz=pd.concat([dfz,df],axis=0,ignore_index=True)
            #df.to_csv('result/'+i+'.csv',encoding='utf-8')
            dfz.to_csv('result.csv',encoding='utf-8')
    except:
        print('爬取失败')
        pass
    continue

这里值得注意的是有ip地址池中有可能会有ip被封,这时程序会中断,所以我用了try 和 except 使得程序能够在ip被封爬取失败之后继续运行

下面是结果表


image.png

附上完整代码

import requests
from lxml import etree
import pandas as pd
import time
import random

proxy_list = [
    { "http": "http://113.195.23.2:9999" },
    { "http": "http://39.84.114.140:9999" },
    { "http": "http://110.243.7.29:9999" },
    { "http": "http://27.188.65.244:8060" }]

#//div[@class="sub-Aritst-Area"]/dl//li/a/text()
headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
    }
url = 'https://amma.artron.net/artronindex_artist.php'

page_text = requests.get(url=url,headers=headers,proxies=random.choice(proxy_list)).content.decode('utf-8')
#把网页便变成xpath结构
tree = etree.HTML(page_text)
artlist = tree.xpath('//div[@class="sub-Aritst-Area"]/dl//li/a/text()')

#https://baike.baidu.com/item/%E6%9D%8E%E5%8F%AF%E6%9F%93/331468?fr=aladdin
a=0
artlist_nn=[]
dfz=pd.DataFrame(columns=['n','r','m'])

for i in artlist :
    try:
        #time.sleep(1) 
        url = 'https://baike.baidu.com/item/'+i
        page_text = requests.get(url=url,headers=headers,proxies=random.choice(proxy_list)).content.decode('utf-8')
        #把网页便变成xpath结构
        tree = etree.HTML(page_text)
        re =tree.xpath('//div[@class="lemma-relation-module viewport"]/ul/li/a/div/span[@class="name"]/text()')
        na =tree.xpath('//div[@class="lemma-relation-module viewport"]/ul/li/a/div/span[@class="title"]/text()')
        if len(re) != 0:
            artlist_nn.append(i)
            df = pd.DataFrame()
            a=a+1
            print(a)
            df['n']=0
            df['r']=re
            df['n']=i
            df['m']=na 
            dfz=pd.concat([dfz,df],axis=0,ignore_index=True)
            #df.to_csv('result/'+i+'.csv',encoding='utf-8')
            dfz.to_csv('result.csv',encoding='utf-8')
    except:
        print('爬取失败')
        pass
    continue





©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容