1.1 大数据概论
1.1.1 大数据的内涵与特征(背诵)
1.大数据与小数据
大数据:指在一定时间范围内无法用传统数据库软件进行采集、存储、管理和分析的数据集或数据群,需要通过新的处理模式才能体现出的具有高效率、高价值的、海量的、多样化的信息资产,利用数据挖掘分析技术可以使这些结构化、半结构化、非结构化的海量数据产生巨大的商业价值。(大数据,就是所有数据的数据集。)
-
小数据:或称个体资料,是以个体为中心,规范的数据,通过人工分析可以获取商业价值的信息资产。
2.大数据的内涵
(1)数据类型方面
- 不仅包括传统的结构化和半结构化的交易数据,还包括巨量的非结构化数据和交互数据。
- 它是包括交易和交互数据集在内的所有数据集,如社交网站上的数据、在线金融交易数据、公司记录、气象监测数据、卫星数据和其他监控、研究和开发数据。
(2)技术方法方面
- 核心是从各种各样类型的数据中快速获取有价值信息的技术及其集成。
- 依据大数据的生命周期的不同阶段可以将大数据处理技术分为大数据存储、大数据挖掘和大数据分析三个方面。大数据挖掘主要采用的是分布式挖掘和云计算技术。
(3)分析应用方面
- 重点是采用大数据技术对特定的数据集合进行分析, 及时获得有价值的信息。
- 在数据分析过程中不仅仅是需要计算机进行自动化的分析,还需要人工进行数据的选择和参数的设定。
3.大数据的特征
了解:
大体量:大数据一般指10 TB(1 TB=1024 GB)规模以上的数据量,甚至可从数百TB到数十数百PB、甚至EB的规模。
多样性:随着互联网的发展和传感器种类的增多,诸如网页、图片、音频、视频、微博类的未加工的半结构化和非结构化数据越来越多,以数量激增、类型繁多的非结构化数据为主。非结构化数据相对于结构化数据而言更加复杂,数据存储和处理的难度增大。
时效性:大数据的时效性是指在数据量特别大的情况下,能够在一定的时间和范围内得到及时处理,这是大数据区别于传统数据挖掘最显著的特征。只有对大数据做到实时创建、实时存储、实时处理和实时分析,才能及时有效的获得高价值的信息。
价值型:包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。
4.大数据与传统数据的区别
5.大数据的产生背景
(2)互联网的发展
1.1.2 大数据的分类(背诵)
1.按照大数据结构分类
- 结构化数据:指有结构的数据,也即行数据,在得到数据之前,其结构就是确定的。——excel数据
- 非结构化数据:指没有结构的数据,无法用数据库的二维逻辑结构来表现。——文档、文本、图片、视频、音频、各类报表
- 半结构化数据:介于结构化数据和非结构化数据之间的数据。半结构化数据也是有结构的数据,与结构化数据不同的是,半结构化数据是先有数据,再有结构。——常见的半结构化数据有XML、HTM
2. 按照大数据获取处理方式分类
- 批处理数据:数据的批处理是指对数据进行批量的处理,如对数据进行成批的增加、修改、删除等操作。
-
流式计算数据:流式计算是指可以在实时处理的应用环境中,对大规模流动数据在不断变化的前提下进行持续计算、分析并能捕捉到有价值信息的分布式计算模式。
3.按照其他方式分类
- 按照大数据处理响应性能,可以将大数据分为实时数据、非实时数据。
- 按照大数据关系,可以将大数据分为简单关系数据和复杂关系数据。如Web日志是简单关系数据,社会网络等具有复杂关系的图计算属于复杂关系数据。
1.1.3 大数据的价值(背诵)
1.销售机会增多
2.客户服务改善
3.客户流失预警
4.运营效率提升
5.金融产品创新
6.商业模式创新
7.风险管控加强
1.2 大数据应用领域
1.2.1 商业
0. 商业大数据的来源
- 1)大交易数据,即商业交易产生的数据——商品数据、市场竞争数据、运营数据、销售数据、顾客关系数据和财务数据。
- 2)大交互数据,商业企业与顾客之间通过POS、互联网、物联网、移动终端、智能终端、传感器和观测设备等产生的交互信息——社交网络数据、射频识别数据、时间和位置数据、文本数据和观测数据。
1. 客户
-
1)客户洞察
洞察客户的性格、偏好和意愿 -
2)客户细分
以客户的爱好兴趣、生活方式、价值观、沟通方式为标准细分客户 -
3)动态定位
快速识别消费者的购买决策和行为模式的变化趋势,及时准确地更新他们的偏好
2. 市场
- 1)需求预测;2)个性化服务
3. 商品
- 1)商品分组——啤酒+尿布
- 2)商品结构调整
4. 供应链
-
1)仓储管理
确保正确的库存 -
2)供应链提效
包括选择供应商,优化物流、现金流和配置人力资源等
1.2.2 通信
0. 数据来源
1. 网络管理与优化
-
1)基础设施建设优化
运用大数据选择基站和热点,并有效分配资源 -
2)网络运营管理和优化
利用大数据分析网络的流量和变化趋势及时调整资源配置
2. 市场与精准营销
-
1)客户画像
给每个客户打上行为和爱好标签,完善客户画像 -
2)关系链研究
分析客户交往圈,发现高流量用户,寻找营销机会 - 3)精准营销
- 4)个性化推荐
3. 客户关系管理
-
1)客服中心优化
运用大数据建立客服热线智能路径模型,预测客户的投诉风险;识别热点问题和客户情绪,通知相关部门进行优化 -
2)客户关怀和客户生命周期管理(背诵)
获取客户阶段、客户发展阶段、客户成熟阶段、客户衰退阶段、客户离开阶段
4. 企业运营管理
- 1)业务运营监控
- 2)经营分析和市场监测
5. 数据商业化
-
1)营销洞察和精准广告
美国电信运营商Verizon成立了精准营销部门提供精准营销洞察和商业数据分析服务。 -
2)大数据监测和决策
客流和选址、公共事业服务
1.2.3 医疗
0. 数据来源
1. 临床操作
- 1)比较效果研究
- 2)临床决策支持系统
- 3)医疗数据透明度
- 4)远程病人监控
- 5)对病人档案的高级分析
2. 付款定价
- 1)自动化系统
- 2)基于卫生经济学和疗效研究的定价计划
3. 研发
- 1)预测建模
- 2)提高临床实验设计的统计工具和算法、临床实验数据的分析、个性化治疗以及疾病模式的分析
4. 新的商业模式
- 1)汇总患者的临床记录和医疗保险数据集
- 2)网络平台和社区
5. 公共健康
- 改善公众健康监控
1.2.4 金融
1. 营销
-
1)精准营销(重要)
根据客户的消费偏好和消费能力确定目标客户,推荐个性化产品。
例如:
银行定期向客户推送广告信息,包括客户可能感兴趣的产品和优惠信息;
信用卡中心针对特定人群提供产品;
证券公司为特定企业提供融资融券产品;
保险公司定制有针对性的保险产品。
精准营销的流程
- 2)社交化营销
2. 服务
- 1)优化客户服务
- 2)需求分析和产品创新
3. 运营
- 1)提升运营效率
- 2)决策支持
4. 风控
- 1)信用风险评估
- 2)欺诈风险管理
1.3 大数据金融的内涵、特点与优势(这一节的都要背)
1.3.1 大数据金融的内涵(背诵)
大数据金融是指运用大数据技术和大数据平台开展金融活动和金融服务,对金融行业积累的大数据以及外部数据进行云计算等信息化处理,结合传统金融,开展资金融通、创新金融服务。
- 金融行业的大数据大致分为三类:
(1)传统的结构化数据,如各种数据库和文件信息等;
(2)社交媒体为代表的过程数据,涵盖了用户偏好、习惯、特点、发表的评论,朋友圈之间的关系等;
(3)日益增长的机器设备以及传感器所产生的数据,例如柜面监控视频、呼叫中心语音、手机和ATM等记录的位置信息等。 - 根据金融行业的分类,可以将大数据金融细分为大数据银行、大数据保险和大数据证券。
- 信用卡自动授信
- 差异化车险定价
- 机器人智能投顾
1.3.2 大数据金融的特点
1. 呈现方式网络化
大量的金融产品和服务通过网络呈现。
2. 风险管理有所调整
风险管理理念——财务分析(第一还款来源)、可抵押财产或其他保证(第二还款来源)重要性将有所降低。
风险定价方式——更注重将交易行为的真实性、信用的可信度通过数据来呈现。
对客户的评价——全方位、立体的/活生生的。
风险管理的主要手段——基于数据挖掘对客户进行识别和分类。
3. 信息不对称降低
4. 金融业务效率提高
在合适的时间、合适的地点,把合适的产品以合适的方式提供给合适的消费者。
5. 金融企业服务边界扩大
由于效率提升,其经营成本必然随之下降,最适合扩大经营规模。
金融从业人员个体服务对象会更多。
6. 产品是可控的、可受的
通过网络化呈现的金融产品,对消费者而言,其收益或成本、产品的流动性是可以接受的,其风险是可控的。
7. 普惠金融
大数据金融的高效率性及扩展的服务边界,使金融服务的对象和范围也大大扩展,金融服务也更接地气。
1.3.3 大数据金融相对于传统金融的优势
1. 放贷快捷,精准营销个性化服务
立足长期大量的信用及资金流的大数据基础之上,在任何时点都可以通过计算得出信用评分,并采用网上支付方式,实时根据贷款需要及其信用评分等数据进行放贷。
2. 客户群体大,运营成本低
大数据金融是以大数据云计算为基础,以大数据自动计算为主,不需要大量人工,成本较低,整合了碎片化的需求和供给,服务领域拓展至更多的中小企业和中小客户。
3. 科学决策,有效风控
根据交易借贷行为的违约率等相关指标估计信用评分,运用分布式计算做出风险评估模型,解决信用分配、风险评估、授权实施以及欺诈识别等问题,有效地降低了不良贷款率。
1.4 大数据带来金融业大变革
1.4.1 大数据带来银行业大变革
1. 电子商务平台和电子银行
商业银行挑战电商市场,其目的并不在于网上商城的营业收入,而在于扩展客户数据,使客户数据立体化,以了解客户消费习惯、消费能力、兴趣数据、风险偏好等进行客户画像的构建,预测客户行为,进行差异化服务。2. 客户个性化营销
使用大数据技术整合各类信息、还原客户真实面貌,可以帮助银行切实掌握客户的真实需求,并根据客户需求做出快速应对,实现精准营销和个性化服务。-
3. 银行风险管理
多个渠道采集数据,使银行更全面、更真实、更准确、更实时地掌握借款人的信息,有效降低信息不对称带来的风险。
另一方面,利用大数据技术可以找到不同变量之间的关联关系,形成新的决策模型,使决策更加准确、统一和合理。
1.4.2 大数据带来保险业大变革
1. 承包定价
在大数法则下,保险产品的定价主要是基于样本数据的分析。
大数据时代,保险定价是基于社会和全体数据,不仅包括保险公司存储的客户数据,还包括整个互联网上的数据。如来自社交网络上的文字、图片或者视频信息。2. 精准营销
传统广告是通过电视、广告牌等,没有了解用户需求及受用群体。
而大数据时代的保险营销不是针对所有群体的一个广告及营销手段,而是实施的精准营销。
大数据技术的应用,可以帮助保险公司完成寻找目标客户,挖掘客户潜在保险需求等任务。3. 欺诈识别
从本质上上看,欺诈是由双方信息不对称所导致的,大数据能够弱化部分不对称的信息,建立高效的反欺诈鉴别机制。
1.4.3 大数据带来证券业大变革
-
1. 个性化服务
在大数据背景下,券商将有能力快速收集、传导大量的高质量信息,以设计出符合客户需求的产品组合,并不断根据客户偏好的改变而调整。大数据在加强风险管控、精细化管理、服务创新等转型中别具现实意义,是实现向信息化券商转型的重要推动力。
采用数据驱动的方法进行有针对性的服务来降低风险和提高业绩。通过执行特殊的数据分析程序来对一系列的资料进行收集、存储、管理和分析大数据集,识别关键业务,以便给客户提供更好的决策。 2. 量化投资
量化投资由于其巨大收益,是大数据最早应用的领域。随着互联网和移动互联网带来的信息化革命,个人投资者将能够轻松使用大数据获得实证支持,降低交易策略风险,投资能力将大幅提升。3. 股价预测
传统证券业股价预测是利用历史趋势判断未来股票价格,不一定正确。
而大数据时代,通过网络产生的搜索数据、互动数据等也可以用来预测股市活跃度和股价走势变化。
1.4.4 对征信业带来的大变革
-
1. 征信数据
传统的征信数据来源于行政处罚信息、缴纳各类社保和公共事业费用信息等,而大数据时代
数据来源更多的是线上,互联网公司(如淘宝、京东等)通过客户网上的交易记录、评价等信息还有社交网络信息数据类型不再限于结构化数据,还包括图片、音频等非结构化数据。
2. 征信服务
大数据时代,征信机构的服务更加及时、高效、全面。-
3. 数据采集
传统的征信数据采集有公共征信机构和私人征信机构两种。而大数据来临后,采用人们生活中含有内建芯片、传感器、RFID(无线射频芯片)等具有电子神经的感知设备产品收集数据信息。 -
4. 征信产品
传统的征信产品主要包括信用报告、信用评分、信用评级和信用风险管理类产品。在大数据时代,大数据技术有助于提升征信产品的质量,推动征信产品的创新,扩展产品服务范围,促进征信业的发展。
1.4.5 互联网金融中的大数据应用
- 1. 精准营销
- 2. 风险管理
- 3. 信用评价
1.5 大数据金融模式
1.5.1 平台金融模式
基于电商平台基础上形成的网上交易信息与网上支付形成的金融大数据,利用云计算等先进技术对数据进行处理分析而形成的信用或订单融资模式。
典型代表有阿里小贷,基于对电商平台的交易数据、社交网络的用户交易与交互信息和购物行为习惯等的大数据通过云计算来实时计算得分和分析处理,形成网络商户在电商平台中的累积信用数据,通过电商所构建的网络信用评级体系和金融风险计算模型及风险控制体系,来实时向网络商户发放订单贷款或者信用贷款,例如,阿里小贷可实现数分钟之内发放贷款。
1.5.2 供应链金融模式
企业利用自身所处的产业链上下游(原料商、制造商、分销商、零售商),充分整合供应链资源和客户资源,提供金融服务而形成的金融模式。
京东商城、苏宁易购是供应链金融的典型代表。
在供应链金融模式当中,电商平台只是作为信息中介提供大数据金融,并不承担融资风险及防范风险等。——渠道商为核心企业。