这些年由于工作的关系,经常需要采集数据和做一些简单的数据分析,互联网上有很多的数据是公开的,如果我们对其进行采集和统计,就可以拿到我们想要的,然后你可以对这些数据和结果进行应用。
我们可以采集电商平台的数据,然后进行统计,比如跟踪一个店铺的销售数据等,对于卖家可能想要分析一个产品分类的数据,对于站长可能只是想对采集的商品数据做一下聚合,然后重新发布到自己的站点,对于导购站长,可能想收集电商平台的优惠商品,同款商品等信息,用于服务自己的用户。
这些年我做了不少电商平台的数据采集,也实现了一些跟电商有关的数据分析工具,在后面的文章中,我也会介绍一些电商平台数据的采集方法,电商数据的分析与应用。
对于站长来说,可能更关心一些SEO相关的数据,那么我们可以抓取关键词,排名等数据,用这些数据来辅助我们进行网站建设,比如抓取百度凤巢的关键词数据,抓取百度和360关键词的排名等。
我们可以简单实现一个系统,这个系统接受一个域名列表,然后系统每隔一段时间,可能是每小时或者每天,就去查询一下这些域名在百度、360的收录数据,然后把这些数据记录下来,并画成一个数据曲线。当然你也可以实现一个关键词排名监控系统,其实这些都是相通的,主要就是数据采集和记录罢了。
除了上面举例的电商数据、站长数据,你还可以采集股票数据、歌曲数据、电影数据、团购数据、外卖数据等等,这取决于你想要用这些数据来做些什么。
至于数据的分析,这个可以借助一些语言和开源的程序来进行分析,我更喜欢用python来写采集工具和做数据分析,用Mongodb来做数据存储,也用Eleasticsearch来存储和检索数据,用kibana来做数据挖掘。
对于用什么语言和工具来做数据研究,这并不是固定的,完全是根据自己的喜好和项目的需求上。
在后面的文章里我会通过一些例子来介绍我对数据的一些采集和应用。
这个网站并不是什么高深的大数据分享,都是一些简单的数据采集和分析,但我们对于大部份人来说已经足够了。