如何打造类似数据虫巢官网系列教程之一:介绍以及准备工作

数据虫巢 - 题图

文·blogchong

一、俺不是打广告的

本文的标题是“如何打造类似数据虫巢官网系列教程之XX”,那主角当然我们的“数据虫巢官网”,不多说上链接www.mite8.com。

直接上链接好像有点打广告的嫌疑,其实真不是,首先说一下,数据虫巢主要的外在体现是爬虫+数据分析+数据可视化,应简书互联网专题IT彭大主编之邀,特地做一个这个系列。

其实目的很明确,让玩爬虫、数据分析、以及数据可视化的同行朋友,打通数据从收集,到处理,到分析,到网站数据可视化整套流程。

整个数据流向的掌握,外在的展现,细节的把控,最终让人看到你的各种炫丽的图表以及相关劳动成果,是一件很有成就感的事。

当然,这是感官上的好处,实际的好处就是,你把整个流程涉及到技术都掌握了,那么,不想成为半个大牛都难。

对于玩爬虫的应届生朋友,或者有找相关岗位工作的朋友,你把你做好的类似数据虫巢官网这种数据可视化站点,甩到面试官脸上,你的面试总成绩分分钟可以上扬30%。

因为就这一个东西,说不定比你简历上的什么什么项目,都更好使,因为能直接看到呀,更具有说服力。

当然,不能真甩,真甩也别告诉是我教你的,其次你要对其中整个流程环节涉及的技术都清楚,最起码的标准就是面试官难不倒你。

二、上图,不然你们不信

数据虫巢 - 首页导航

这是进入到“数据虫巢官网”后直接看到的首页导航,整体网站分首页模块、政务舆情模块、行业洞察模块、大数据观,以及关于我们五个模块。

其实首页没有过多东西,就是把中间两个模块里的一些比较给力,比较有震撼性的图表搬到首页展示,别让首页空着。

比如,这张图的第一个图表,就是政务舆情模块中的一个图表,是动态图哟,整个图表会随时间轴一秒变化一次,做轮询。

数据虫巢 - 首页中部1

这也是首页中从其他模块拿出来的图表,这是行业洞察里头的一个图表,2016年一整年的数据变化曲线图,看着北京的雾霾影响波动还是蛮有意思的。

大伙儿也可以查一下北京雾霾爆表新闻,看看跟上面的波动能不能对的上,反正我是核查过了,基本上影响波动是一致的,说明俺的分析还是蛮准的嘛。

数据虫巢 - 首页中部2

这同样是首页模块中,一个图表,这个图表也是个动态图,数据不复杂,整个图表是个典型的动态迁移的数据可视化例子,看看就好啦。

数据虫巢 - 首页底部

这是首页模块的底部信息栏,包括了联系信息,以及一个公号的二维码,看着是不是很正式,跟人家商业的数据官网查不了哪去吧,简直以假乱真,当然,这也不是假的。

数据虫巢 - 政务舆情目录

这是政务舆情模块的入口页,从名称上也知道,这部分的重点在于做政务方面的舆情分析相关的事。

这部分包括财政统计分析子模块、问政舆情子模块、教育舆情子模块、外界口碑舆情子模块、人才&招聘舆情子模块、房产舆情子模块,数据是我从地方政府网站、门户网站、地方论坛等爬取而来。

数据虫巢 - 政务舆情样例1

这部分截图是政务舆情中,财政分析子模块里的部分数据可视化报表的截图,涉及到面积图、折线图、柱状图,还有一些更复杂的可视化图表等等。

数据虫巢 - 政务舆情样例2

这部分截图是人才&招聘舆情子模块涉及的部分数据可视化报表截图,涉及到变形的占比图,曲线图,以及图表的组合使用等等。

数据虫巢 - 行业洞察目录

这是行业洞察模块的入口页,行业洞察其实是对某一方面的问题从数据分析层面去剖析。

目前有两个子模块,如图,一个从口罩购买的角度分析全国受雾霾的影响情况分析,另一个是以各大主流招聘大数据相关岗位的数据来分分析大数据职位的需求情况。

前部分数据是爬自京东的口罩购买评论数据,后部分数据是爬自各大主流招聘网站。

其实还有一个对电影《长城》的用户反馈分析,当时《长城》热播,争议颇大,所以爬取了不少豆瓣的电影评论数据,做了具体的相关分析,包括涉及的热点、评论的情感分析等等。

数据虫巢 - 行业洞察样例1

这部分是雾霾影响分析中,涉及的地域分析情况,典型的结合地图,做的数据可视化,当然这个子模块还有其他数据可视化形式,鉴于截图就没法一个个细说了。

数据虫巢 - 行业洞察样例2

这部分是对于大数据需求分析中的部分图表,其中会涉及到玫瑰图、词云、横向柱状图等数据可视化的形式。

数据虫巢 - 大数据观

这个大模块是大数据相关的文章合集,基于数据可视化做的各种数据分析,再辅以大数据相关的文字,能文能武,简直绝了。

这块的数据其实就是来自我的大数据公众号,与官网同名,“数据虫巢”。

这部分对文章划了四个不同的类型:

1 大数据观点,这部分文章偏大数据行业话题讨论

2 大数据挖掘,这部分主要是与大数据结合的价值挖掘部分相关的文章

3 大数据技术,这部分的文章偏大数据技术相关的东西

4 感悟杂谈,这部分的文章比较杂,有生活感悟、工作感叹,鸡汤等等乱七八糟的

数据虫巢 - 关于我们

最后一个大模块,就是关于我们,好吧,这个看着挺唬人的,但是,没有这个部分怎么让整个网站看着更“正规”呢?!

哈哈,已经有不止一个人对我说,你们公司的官网挺炫啊,我能怎么说(得意的大笑三声)。

上面这些基本上数据虫巢官网的所有模块了,当然截图只是截图而已,只是一部分,并且很多动态的数据可视化效果无法展示,想要了解更多只能上去看看咯。

除此之外,页顶的背景中,还有很炫的原子散漫效果,鼠标移动上去,原子效果会聚集、磁化,看上去更有科技感、数据感了,是不是更加高端大气上档次了。

是的,我要带你们打造的就是这么一款看着比一些科技公司官网看起来更炫的个人网站,集个人技术大成的技术名片,对外吹牛逼的好工具,通往升职加薪的大门,迎娶白富美的花轿...

好吧,我自己都有点编不下去了~~额,总之,就是这么一个东西啦。

三、飙完图,咱来说技术

以下几点,我认为你们需要关注:

1 如何解决数据源的问题:爬。所以它会涉及爬虫的相关知识。

2 如何做数据的存储:MySQL。额,可能不是你们想象中的Hadoop,这点几十万上百万的数据,MySQL就够了嘛,要个蛋HDFS,我有罪,让你们失望了,没用高端大气上档次的Hadoop。

3 如何做数据分析:Java逻辑处理,数据清洗,再加MySQL的统计分析,所有的业务结果数据就出来了,没有想象中复杂。

4 如何构建一个网站:阿里云服务器一枚+域名一枚+Spring boot。是的,你需要自己搞个云服务器,上面搭载数据库、爬虫服务、数据清洗进程,以及你的网站代码,听着就有点复杂,实际真有点复杂。

5 如何做出这么炫丽的可视化图表:Echarts。大百度开发的可视化框架,流弊的不行不行,好用的不得了。

6 如何解决文字这块的内容:这个没辙,自己写?算了,你还是直接用我的文章吧,俺不受版权费。

上面的信息,我们来总结一下会涉及到哪些技术:

1 你需要会爬虫,不管是Python也好,Java框架也好,都行,只要能拿到数据,当然,为了拿到数据,你需要会做抓包分析,会一些基础的破解反爬策略。

2 你得会数据库操作,最基础的MySQL得会一些,增删改查,数据存储,建表删表,数据的清洗转换,这个很基础的了,不会自己百度吧。

3 对于云服务器的一些东西需要了解,最起码会XShell客户端的使用吧,不然你怎么登陆到你的服务器中,学会配置防火墙策略等等。

4 基础的Linux操作得会点,不然怎么玩云服务器,还指望着你在上头自己安装MySQL,自己安装一些必要的工具、例如Python、Java之类的呢,java服务的部署,一些Shell脚本的编写等等。

5 域名相关的知识得会些,最起码得知道一个网站是需要域名的吧,知道从哪购买域名,购买域名之后知道怎么关联实际的IP等等相关的知识。

6 Java后端框架得会多一些,这里用的是Spring boot,简单轻便的后端框架,强烈推荐,不妨再告诉你们,前端其实也是用这个一起写的,很古老的JSP模式,老,但是够用了。

7 前端的知识得会一些,不然,你以为这么高端大气上当次的页面布局,整体页面规划哪来的,是的,所以你需要知道一些前端知识,布局啊,CSS啊,JS脚本啊。

8 数据可视化框架需要懂,不懂就没法玩最酷的部分了,其实不难的,像我这种之前一点都不会js的,不照样自学上了么?!

好吧,俺错了,俺不再列了,再TM列下去,读者全跑了,还打造个毛啊。

是的,整个数据流程,从数据收集,到数据存储,到处理,到统计分析,到网站,到数据最终展示,涉及的技术,确实不少,真要打造出一个这么东西,应该够你自豪了。

但是,也不要担心,我当时玩这个的时候,爬虫是自学的、JAVA后端的东西是自学,前端更是自学的,细数一下好像除了MySQL在学校学了点,好像其他东西都是自己折腾着出来的,所以比我有更强大大脑的你还怕个鸟。

更何况,还有我,这个系列的终极目的就是带你打造这么一个东西出来滴,啊不,终极目标是帮你打造一个装逼的个人网站。

四、你就不好奇,为啥我会折腾出来这个东西

其实这个东西一开始我也没有想到要搞出来的,毕竟前前后后搞它搞了两三周(这话好有歧义的样子),虽然是业余时间。

其实一开始我是对政务舆情这块的话题感兴趣,所以想对自己老家的政务相关的以数据的角度去剖析,就尝试了爬取了自己老家的地方性政府网站,地方门户网站相关的数据。

然后结合统计局的数据,做了一些角度的分析,然后发现挺有意思的。

后面又在爬虫这条路上越走越远,当时一时好奇,想知道大数据的市场行情如何,每个城市啊,细分的技术方向啊等等对于薪酬的变化影响,所以一时心痒,继续研究爬虫一口气爬了几个主流招聘网站的大数据相关岗位,做了相关分析。

这条路子越走越黑,紧接着北京连续雾霾警报,朋友圈已经被北京的雾霾占领了,于是想做雾霾造成的影响分析,接着从京东的口罩相关的数据去解析这相关的影响。

在电影《长城》水深火热之际,我又爬了《长城》的豆瓣数据,做了一次深度的分析。

不知不觉,几次折腾下来,我发现已经算是爬虫小入门了,但是很不甘心这些我爬过来的数据就这样仅仅的在我的公号里昙花一现。

是的,我要把他们给释放出来,让数据展现出他们的华丽。

所以,我开始着手打造“数据虫巢官网”,然后...

然后,敬请期待下一篇《如何打造类似数据虫巢官网系列教程之二:爬虫是怎么炼成的》。


相关阅读:

《要说起雾霾,那到底是不是北京的醇厚?》

《大数据职位画像-看看你是不是白混了这么多年!》

《用数据挖一挖豆瓣5.3分的长城,水军的力量到底有多大!》

《数据化政务舆情的探索》

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容