转自:https://blog.csdn.net/Orange_Spotty_Cat/article/details/80625426
数据采集就是搜集符合数据挖掘研究要求的原始数据(Raw Data)。原始数据是研究者拿到的一手或者二手资源。数据采集既可以从现有、可用的无尽数据中搜集提取你想要的二手数据,也可以经过问卷调查、采访、沟通等方式获得一手资料。不管用哪种方法得到数据的过程,都可以叫做数据采集。
数据采集的方法可分为两类:
直接来源的一手数据和间接来源的二手数据
直接来源:一手数据
调查和实验
调查:
普查和抽样
调查的方法
自填式:填写调查问卷(电子/书面)
面访式:
电话式:
实验的方法:
实验方法需要研究者真正设计实验,并记录结果、整合为数据,服务于后期的数据分析与挖掘工作
间接数据:二手数据
二手数据的正式版定义是:数据原本已经存在,是由别人收集的,使用者通过重新加工或整理得到的数据。
所以,要想获得二手数据,有两种方法:系统内部采集或系统外部采集。
系统内部采集数据
工作中最常见的数据采集方法。要进行数据分析的公司肯定会有自己的数据,这些数据一般会保存在数据库中。在数据仓库中,会保存公司内部的生产数据,他们就是将公司的业务、渠道、成本、收益等生产过程数字化并固定存放在机器中。数据挖掘师可以通过SQL语言提取想要的数据表,并进行数据的收集。
系统内部数据一般都与企业的生产相关,涉及到用户信息的保密与商业机密等问题。所以一般都是有项目或者有研究课题的时候才能够获取。
系统外部采集
系统外部采集的数据是更加宏观、更加公开的数据。这些数据大部分不是针对某一家公司自己的运营与生产情况,而是更加偏重于社会的外部环境以及行业的经济形势。
下面这些都是系统外部采集的常用渠道:
统计部门或政府的公开资料、统计年鉴
调查机构、行会、经济信息中心发布的数据情报
专业期刊
图书
博览会
互联网
系统外部采集数据的源头众多,采集方法也有很多,手工处理excel或者网络爬虫都是可选的方法。