【Python】DAY04-05,爬取某网站的用户名和IP地址,根据IP归属地绘制地图

需求分析

从某网站上,抓取若干用户名和IP地址,并根据地址的归属地和出现频率生成一张地图。

流程步骤

(1)抓取数据

(2)数据存入Excel表格

(3)数据去重,过滤重复IP

(4)读取Excel表格里的IP,依次向IP查询工具网站请求查询结果

(5)将查询结果存入Excel表格

(6)统计出查询结果中各城市的出现频率,从大到小排序

(7)用[城市-出现频率]生成地图。

工具环境

(1)Python版本:3.7.3

(2)pyecharts版本:0.1.9.4

(3)查询IP的工具网站:http://ip.taobao.com

具体实现

(01)def getData():

爬取某网站数据,获取用户名和IP地址,分别存入两个列表:name 和 ip。

(02)def createTable():

创建表格,设置样式,写入的表头格式如下:

image.png

(03)def addName():

将抓取到的用户名列表name存入Excel表格中的[用户名]列。

(04)def addIp():
将抓取到的IP地址列表ip存入Excel表格中的[IP地址]列。

(05)def dropDuplicates():
IP地址去重。由于该网站用户名可以重复,并且存在有在不同的网页中,抓取到同一位用户的情况。所以进行IP地址去重,根据IP地址判断是否为同一用户,如果是,则过滤掉。

(06)def readIp():
从Excel中读取去重后的IP地址,存为列表ipList。

(07)def getArea():
依次从IP地址列表ipList中取值,向IP查询的工具网站[http://ip.taobao.com]请求结果,获取结果中的城市名称[city],存入列表city;如果没有获取到城市名称,则写入[未知]。

(08)def addArea():
将获取到的城市名称列表city中的数据,存入Excel表格中的[归属地]列。

(09)def readArea():
读取Excel表格中的[归属地]列,存为areaList。(话说这里我为什么不直接用上面抓取到的city列表得了......鱼的记忆啊......)

(10)def dataCount():
做数据统计。首先是归属地去重,去重后的归属地存为areaSet;再从areaSet中依次取值,统计每个城市在城市名称列表areaList里出现过多少次,将次数存入timesCount列表;将areaSet和timesCount以键值对的方式存入字典timesDic,按值[values]从大到小排序。将排序后的键值对依次存入Excel表格的[地名]和[频率]两列。

image.png

(11)def drawArea():
利用pyecharts模块中的Map,Geo绘制中国地图(省、直辖市边界线)。

image.png

废话连篇:

从网站爬数据的时候,我的参数就好像一个军队方阵,我是指挥官。然后我喊“开枪!”,所有人依次举起枪朝面前开枪,BoomBoomBoom,后面的士兵就把前面的士兵干掉了。我和最后面的一排兵面面相觑,我的兵呢。(有张动图找不到了)

其实做了不少无用功,比如重复定义同样的变量,明明直接拿来用就好了。

Python3.5以后的版本中,字典的键值对是按照初始化时的排列顺序输出的,但是经过sorted()排序后,print()输出的是排序后的数值,写入Excel表格中却是未经排序的,print()输出的逻辑和write()的不同吗?这点还没搞明白。

总而言之还是有很多的收获,比如Excel文件的读写,Python中的列表、字典,数据的统计、排序,以及明白了IP很珍贵的这个道理,所以不要在写爬虫的时候,有事没事调试运行一下,会被网站判定为访问异常的。不过睡一觉醒来就好了,换个IP也行。

程序要一截一截地运行,爬到满意的数据以后就不要再反复爬了,担心被覆写/被打乱的话可以备份一下,IP珍贵,不要反复爬。

最后,感慨我的美术修养实在不行,地图的配色都是从网上嫖来的。

参考资料:

python xlwt 设置单元格样式
如何使用drop_duplicates进行简单去重(入门篇)
python批量跑IP地址归属地的排坑之路
python最全画地图,可视化数据

感谢各位老哥的技术分享!

源代码:

# 环境:Python 3.7.3
#      pyecharts 0.1.9.4

import random
import re
import requests
import xlwt
import xlrd
import time
from xlutils.copy import copy
import pandas as pd
from pyecharts import Map, Geo

# 设置起始时间
start = time.time()

# 常用的请求头部
userAgentList = [
    'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
    'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
    'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)',
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)',
    'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
    'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
    'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
    'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)',
    'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0',
    'Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
]
# 随机选择一个
userAgent = random.choice(userAgentList)
# 传递给header
headers = {'User-Agent': userAgent}

# 初始化表格存放地址和命名
xlPath = 'IpMap.xlsx'

# 从网站上获取数据并存入列表
def getData():
   ......略......


# 创建表格并设置表格样式
def createTable():
    # 新建一个表格
    wb = xlwt.Workbook()
    # 给表格新建一个sheet
    sheet = wb.add_sheet('sheet1', cell_overwrite_ok=True)
    # 创建一个样式对象并初始化样式
    style = xlwt.XFStyle()
    # 创建一个对齐方式的对象
    al = xlwt.Alignment()
    # 设置水平居中
    al.horz = 0X02
    # 设置垂直居中
    al.vert = 0X01
    style.alignment = al

    # 写表头
    sheet.write(0, 0, '用户名', style)
    sheet.write(0, 1, 'IP地址', style)
    sheet.write(0, 2, '归属地', style)
    sheet.write(0, 3, '地名', style)
    sheet.write(0, 4, '频率', style)
    # 保存数据
    wb.save(xlPath)


# 追加写入用户名
def addName():
    # 打开表格
    wb = xlrd.open_workbook(xlPath)
    # 获取所有sheet
    sheets = wb.sheet_names()
    # 获取第一个sheet
    sheet = wb.sheet_by_name(sheets[0])
    # 获取所有存在数据的行数
    oldRows = sheet.nrows
    # 将xlrd对象copy转化为xlwt对象
    newWb = copy(wb)
    # 获取转换后的第一个sheet
    newSheet = newWb.get_sheet(0)

    # 追加写入数据
    for i in range(0, len(name)):
        newSheet.write(i + oldRows, 0, name[i])
        # 保存表格
        newWb.save(xlPath)


# 追加写入用户IP地址
def addIp():
    # 打开表格
    wb = xlrd.open_workbook(xlPath)
    # 将xlrd对象copy转化为xlwt对象
    newWb = copy(wb)
    # 获取转换后的第一个sheet
    newSheet = newWb.get_sheet(0)

    # 追加写入数据
    for i in range(0, len(ip)):
        newSheet.write(i + 1, 1, ip[i])
        # 保存表格
        newWb.save(xlPath)


# IP地址去重
def dropDuplicates():
    frame = pd.read_excel(xlPath)
    data = pd.DataFrame(frame)
    # subset:需要去重的列名集合;
    # keep:first保留首项(默认),last保留尾项,False全部删除;
    # inplace:布尔值,默认为False,是否直接在原数据上删除重复项或删除重复项后返回副本。
    data.drop_duplicates(subset=['IP地址'], keep='first', inplace=True)
    data.to_excel(xlPath)


# 读取表格里的Ip信息,存入列表
def readIp():
    # 初始化ipList列表
    global ipList
    ipList = []
    # 打开表格
    wb = xlrd.open_workbook(xlPath)
    # 获取所有sheet
    sheets = wb.sheet_names()
    # 获取第一个sheet
    sheet = wb.sheet_by_name(sheets[0])
    # 获取整列的值
    ipList = sheet.col_values(2)
    # 使用del按索引删除列表中指定位置的元素
    del ipList[0]


# 获取IP的归属地信息
def getArea():
    # 初始化area列表
    global area
    area = []
    # 循环查询IP地址
    for i in ipList:
        url = 'http://ip.taobao.com/outGetIpInfo?ip=' + i + '&accessKey=alibaba-inc'
        response = requests.get(url, headers=headers)
        if response.json()['code'] == 0:
            DetailedAddress = response.json()['data']
            city = DetailedAddress['city']
            area.append(city)
        else:
            area.append('未知')


# 追加写入IP归属地
def addArea():
    # 打开表格
    wb = xlrd.open_workbook(xlPath)
    # 将xlrd对象copy转化为xlwt对象
    newWb = copy(wb)
    # 获取转换后的第一个sheet
    newSheet = newWb.get_sheet(0)

    # 追加写入数据
    for i in range(0, len(area)):
        newSheet.write(i + 1, 3, area[i])
        # 保存表格
        newWb.save(xlPath)


# 从表格中读取归属地,存入列表
def readArea():
    # 初始化全局变量
    global areaList
    areaList = []
    # 打开表格
    wb = xlrd.open_workbook(xlPath)
    # 获取所有sheet
    sheets = wb.sheet_names()
    # 获取第一个sheet
    sheet = wb.sheet_by_name(sheets[0])
    # 获取整列的值
    areaList = sheet.col_values(3)
    # 使用del按索引删除列表中指定位置的元素
    del areaList[0]


# 数据统计
def dataCount():
    # 初始化去重后的归属地列表
    global areaSet
    areaSet = []
    # 去重归属地
    areaSet = list(set(areaList))
    # 初始化频率列表
    global timesCount
    timesCount = []
    # 循环统计频率次数存入列表
    for i in areaSet:
        timesCount.append(areaList.count(i))

    # 创建字典
    timesDic = dict(zip(areaSet, timesCount))
    # 按timesCount对字典进行排序
    timesDic = sorted(timesDic.items(), key=lambda item: item[1], reverse=True)

    # 打开表格
    wb = xlrd.open_workbook(xlPath)
    # 将xlrd对象copy转化为xlwt对象
    newWb = copy(wb)
    # 获取转换后的第一个sheet
    newSheet = newWb.get_sheet(0)

    # 草,有没有谁能告诉我为什么直接输出字典键值对到Excel的顺序是乱的
    # 在2.7-3.5的python版本中,字典的键值对是按照哈希表的存储顺序排列输出的,而在3.6及以上版本中,
    # 字典的键值对是按照初始化时的排列顺序输出的。
    # 那为什么print()打印出来又是有序的啊?
    # print()内部调用的方法不同的吗?

    # 声明两个列表用来存放字典中的keys,values
    kList = []
    vList = []
    for k, v in timesDic:
        kList.append(k)
        vList.append(v)
    # 循环将数据写入excel
    for i in range(0, len(kList)):
        newSheet.write(i + 1, 4, kList[i])
        newSheet.write(i + 1, 5, vList[i])
        newWb.save(xlPath)
    # 终于排好序输出了,命都差点去掉半条


# 画图部分
def drawArea():
    geo = Geo("IP归属地统计图", title_color="#303843", width=1100, height=600, background_color='#404A59')
    geo.add("IP归属地频率", areaSet, timesCount, type='heatmap', is_random=True, visual_range=[0, 15],
            visual_text_color="#fff", symbol_size=15, is_visualmap=True, is_roam=False)
    geo.show_config()
    geo.render(path="IP归属地统计图.html")


# 请一截一截地运行,备份数据,请勿短时间内多次调试运行,IP很珍贵的

#第一截:爬取数据,写入Excel并进行去重处理

# 爬取数据
getData()
# 创建表格
createTable()
# 写入用户名
addName()
# 写入IP地址
addIp()
# 去重
dropDuplicates()

# 第二截:获取IP归属地,并存入Excel

# 读取IP列表
readIp()
# 获取位置信息
getArea()
# 写入位置信息
addArea()

# 第三截:对Excel中的数据做统计处理,并绘制地图

# 读取位置列表
readArea()
# 数据统计
dataCount()
# 画图
drawArea()

# 设置终止时间
end = time.time()
print("总共用时:" + str(end - start))

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,576评论 6 515
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,515评论 3 399
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 168,017评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,626评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,625评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,255评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,825评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,729评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,271评论 1 320
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,363评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,498评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,183评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,867评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,338评论 0 24
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,458评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,906评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,507评论 2 359