数据是国家基础性战略资源,是21世纪的“钻石矿”。“十三五”时期是我国全面建成小康社会的决胜阶段,是新旧动能接续转换的关键时期,全球新一代信息产业处于加速变革期,犬数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。抢抓机遇,推动大数据产业发展,对提升政府治理能力、优化民生公共服务、促进经济转型和创新发展有重大意义。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
1.大数据的特点
业界通常用5个V-Volume(大量)、Variety(多样)、Value(价值)、Velocity(高速)和Veracity(真实性)来概括大数据的特征。
(1) Volume:指的是数据体量巨大,从TB级别跃升到PB级别(1PB=1024TB)、EB级别(1EB=1024PB),甚至于达到ZB级别(1ZB=1024EB)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
例如,在交通领域,某市交通智能化分析平台数据来自路网摄像头/传感器、公交、轨道交通、出租车以及省际客运、旅游、化危运输、停车、租车等运输行业,还有问卷调查和地理信息系统数据。4万辆车每天产生2000万条记录,交通卡刷卡记录每天1900万条,手机定位数据每天1800万条,出租车运营数据每天100万条,电子停车收费系统数据每天50万条,定期调查覆盖8万户家庭等,这些数据在体量上就达到了大数据的规模。
(2) Variety:指的是数据类型繁多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位鼹信息等,这些多类型的数据对数据的处理能力提出了更高要求。
(3) Value:指的是价值密度低。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。当然把数据集成在一起,并完成“提纯”是能达到1+1大于2的效果,这也正是大数据技术的核心价值之一。
(4) Velocity:指的是处理速度快。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
(5) Veracity:指的是数据来自于各种、各类信息系统网络以及网络终端的行为或痕迹。
大数据是具有体量大、结构多样、时效性强等特征的数据,处埋大数据需要采用新型计算架构和智能算法等新技术。大数据从数据源经过分析挖掘到最终获得价值一般需要经过5个主要环节,包括数据准备、数据存储与管理、计算处理、数据分析和知识展现。大数据技术涉及到的数据模型、处理模型、计算理论,与之相关的分布计算、分布存储平台技术、数据清洗和挖掘技术,流式计算、增量处理技术,数据质量控制等方面的研究和开发成果丰硕,大数据技术产品也已经进入商用阶段。
2.大数据的价值与应用
大数据像水、矿石、石油一样,正在成为新的自然资源,能不能挖掘资源中潜在的价值,成为这个时代能不能走向创富的重要条件。
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。坚持创新驱动发展,加快大数据部署,深化大数据应用,已成为稳增长、促改革、调结构、惠民生和推动政府治理能力现代化的内在需要和必然选择。
大数据产业指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息投术服务。
前文提到,预计到2020年,全球拥有的数据量是35.2ZB,在如此庞大的数据量面前,它所带来的信息以及反馈出来的事实,对于人们来说具有巨大的潜在价值。所以目前大数据的应用已一步步广泛深入我们生活的方方面面,涵盖电商、社交、金融、医疗、交通、教育、体育等各行备业。基于现有电子信息产业统计数据及行业抽样估计,2015年我国大数据产业业务收入2800亿元左右。
下面将列举一蝗大数据应用实例。
(1)大数据征信:个人信用数据的缺失目前是金融行业面临的最大问题之一。基于用户在互联网上的消费行为、社交行为、搜索行为等产生的海量数据,利用大数据技术进行分析与挖掘能得到个人信用数据,为金融业务提供有效支撑。在这个方面,阿里的芝麻信用是做得最好的。芝麻信用几乎打通了用户的身份特质,行为偏好,人脉关系,信用历史,履约能力等各类信息。这使得阿里在金融方面审批小额贷款的成本变得极低,据统计,传统银行平均审批一笔贷款的费用高达2000元,而阿里金融的蚂蚁微贷仅为0.3元。
(2)大数据风控:大数据风控目前应该是前沿技术在金融领域的最成熟应用,相对于智能投顾、区块链等还在初期的金融科技应用,大数据风控目前已经在业界逐步普及。目前,美国基本上都用三大征信局的信息,最传统的评分基本上都是用FICO来做的。各家平台会尝试着用机器学习、神经网络等大数据处理方法。
国内市场对于大数据风控的尝试还是比较积极。特别是大公司.可以将移动互联网的行为和贷款申请人联系到一起展开大数据风控。百度在风控层面上的进展还是比较突出,百度安全每天要处理数十亿网民搜索请求,保护数亿用户的终端安全,保护十万网站的安全,因此积累了大量的数据。
一个很具体的案例就是,通过海量互联网行为数据,比如监测相关设各ID在哪些借贷网站上进行注册、同一设备是否下载多个借贷App,可以实时发现多头贷款的征兆,把风险控制到最低。
(3)大数据消费金融:消费金融对大数据的依赖是天然形成的。比如说消费贷、工薪贷、学生贷,这些消费型的金融贷款很依赖对用户的了解。所以必须对用户画像进行分析提炼,通过相关模型展开风险评估,并根据模型及数据从多维度为用户描绘一个立体化的画像。
百度金融通过基于大数据和人工智能技术为基础的合作商户管理平台,为合作商户提供涵盖营销和金融服务的全面管理方案,降低获客成本,解决细分行业的微小需求。一方面可以降低风险,另一方面也能提升金融的安全度。腾讯和阿里的优势很大程度上是在渠道层面上的。阿里以电商-支付-信用为三级跳板,针对性很强。而支付宝接入消费金融产品之后有较强的渠道作用。腾讯的“微粒贷”已经接入到了微信支付当中。在消费金融的发屣速度上,腾讯速度也不差。
(4)大数据财富管理:财富管理是近些年来在我国金融服务业中出现的一个新业务。主要为客户提供长期的投顾服务,实现客户资产的优化配置。这方面业务在传统金融机构中存在的比较多。不过因为技术能力不足,大数据财富管理在传统金融机构中相对弱势。