【Python爬虫】手机号网段爬虫

整体爬虫逻辑:

1.获取省份和城市的定位,然后定位出各个城市和相对应的url
2.获取到 130 xx号段 (共317个)中的xxx个



3.获取最终的号段号码

先贴上源码

#抓取省份及城市
import requests
from lxml import etree
url='http://www.51hao.cc/'
req=requests.get(url)
req.encoding='gb2312'
html=req.text
select=etree.HTML(html)
infos=select.xpath('//div[@class="fkce"]/div[@class="fkt"][position()>1]')
#print(len(infos))  #核对下省的数量是否一致
for info in infos:
    #定位省的地址
    province=info.xpath('div[@class="fkbj"]/p/a/text()')[0]
    #print(province)
    #定位城市
    citys=info.xpath('div[@class="fklk"]/p/a/text()')
    #print(citys)
    #城市的url
    city_urls = info.xpath('div[@class="fklk"]/p/a/@href')
    #print(province,citys,city_urls)
    city_infos = zip(citys, city_urls)  #zip函数接受任意多个(包括0个和1个)序列作为参数,返回一个tuple列表。
    #print(city_infos)
    for city_info in city_infos:
        city=city_info[0]
        #print(city)
        city_url=city_info[1]
        #print(province,city,city_url)


        url2 = 'http://www.51hao.cc/city/beijing/beijing.php'
        req2 = requests.get(url2)
        req2.encoding = 'gb2312'
        html2 = req2.text
        selector2 = etree.HTML(html2)
        infos = selector2.xpath('//div[@class="all"]//div[@class="num_bg"]')
        num = len(infos)
        # print(num)   #打印出共有多少个
        for i in range(num):
            first_3 = selector2.xpath('//div[@class="all"]/div[%s]/div[1]/span[@class="nums"]/text()' % str(i + 2))[
                0]  # 号码段前三位
            # print(first_3)
            types = selector2.xpath('//div[@class="all"]/div[%s]/div[1]/text()' % str(i + 2))[0]  # xx号段 (共xxx个)
            # print(types)
            mobiles = selector2.xpath('//div[@class="all"]/ul[%s]/li/a/text()' % str(i + 1))  # 号码段内的号码
            # print(mobiles)
            type1 = types.split(" ")[0]  # 获取xx号段 (共xxx个)中xx号段
            # print(type1)
            total = types.split(' ')[1].replace('(共', '').replace('个)', '')  # 获取(共xxx个)中的xxx
            # print(total)
            # print(i+2,first_3,type1,total,mobiles)
            for mobile in mobiles:
                #print(i + 2, first_3, type1, total, mobile)
                print(province, city, first_3, type1, total, mobile)
爬虫结果

关于定位的问题:

 1.   infos=select.xpath('//div[@class="fkce"]/div[@class="fkt"][position()>1]')  

第一个div[class="fkce"]下可以找到省份和城市,可是div[@class="fkce"]下第一个div[@class="fkt"]下的第一个为各省市号段的那一列,要过滤掉第一个div,这里用到position()过滤第一div内的内容。


2.   city_infos = zip(citys, city_urls) #把city是,和city_urls返回一个元祖,再去取里面的值


zip函数接受任意多个(包括0个和1个)序列作为参数,返回一个tuple列表。只能在循环中打印出来。在循环中元祖中选出城市与相对应的url打印出来

城市的获取

在循环中元祖中选出城市与相对应的url打印出来

3. infos=selector.xpath('//div[@class="all"]//div[@class="num_bg"]') #在这个范围内找到     获取到 130 xx号段 (共317个)中的xxx个
WX20170904-170305@2x.png
4.   first_3 = selector.xpath('//div[@class="all"]/div[%s]/div[1]/span[@class="nums"]/text()'%str(i+2))[0]    #号码段前三位

用到了【 】方法


div[%s] %str(i+2))过滤第一个


5.    types = selector.xpath('//div[@class="all"]/div[%s]/div[1]/text()' % str(i + 2))[0] #xx号段 (共xxx个)
      mobiles = selector.xpath('//div[@class="all"]/ul[%s]/li/a/text()' % str(i + 1)) #号码段内的号码
6.   type1=types.split(" ")[0] #获取xx号段 (共xxx个)中xx号段
     total = types.split(' ')[1].replace('(共', '').replace('个)', '')  #获取(共xxx个)中的xxx

最后把获取的连接到一起打印出来

 for mobile in mobiles:
        print(province, city, first_3, type1, total, mobile)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,760评论 19 139
  • 1. Java基础部分 基础部分的顺序:基本语法,类相关的语法,内部类的语法,继承相关的语法,异常的语法,线程的语...
    子非鱼_t_阅读 32,058评论 18 399
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,799评论 25 709
  • “白青青,你这个月的房租要等到什么时候才肯交啊?我告诉你,现在来找我租房子的人多着呢,还有人愿意出两倍的租金呢。你...
    命起涟漪o0阅读 1,436评论 0 0
  • 朝阳区群众又发威了。这次虽没有那个明星进局子,倒是实则把人吓了一跳。 近日,北京CBD商业街一场别开生面的武术团体...
    娱乐当然阅读 3,875评论 0 0