AI+金融技术分层解构
从分层的视角来看,AI+金融技术可分为基础层、技术层和应用层三个层面。作为AI在金融领域落地的基础设施建设和技术支持,基础层的基础技术必不可少,如大数据、云计算、智能芯片、传感器及智能硬件等,特别是金融领域的大数据,其为AI技术在金融领域的落地发展提供了数据基础;在技术层面,AI技术可应用在金融领域的核心技术包括语音识别、图像识别、生物特征识别、网络爬虫、机器学习、知识图谱、自然语言处理等;在应用层面,AI在金融领域的应用落地场景有智能投顾、征信、风控、金融搜索引擎、身份验证、智能客服、自动研报等,当前最火的应用莫过于智能投顾。
AI+金融基础设施建设
金融领域大数据
比较有代表性的企业有:
九次方大数据:综合的大数据平台。其具有政府背景,贵阳大数据交易所的创始者。九次方大数据目前整合的大数据覆盖了30 大品类,其中包括:企业大数据、政府大数据、医疗大数据、金融大数据、能源大数据、教育大数据、交通大数据、通信大数据等。
AI慕课开拓方向:无。
因果树:人工智能股权投融资服务平台。整合全网20万+项目信息,互联网公司细分成1000+行业,通过大数据分析、金融建模,制定行业及企业 KPI。因果树图灵产品通过人工智能技术,3s之内回答一切投融资相关问题。
因果树简介:因果树(InnoTREE)是中国领先的人工智能股权投融资服务平台,自2014年成立以来,始终致力于凭借最前沿的人工智能科技,以平等开放的心态重塑传统的股权投融资生态格局。
经过两年多的高速发展,因果树依托于完备的投资及企业信息库,整合超过2000万家企业运营数据和过万家风险投资机构投资数据,并结合已累计突破100万份的市场分析研报以及招股书、海量的全球知识产权数据和日均覆盖7亿的用户上网行为数据,凭借业内独树一帜的人工智能算法,逐步形成了涵盖超过1000个细分行业,囊括国内外一、二级股权投资市场,贯穿投融资领域“信息垂直搜索”、“行业/企业研究报告”和“一体化解决方案”三大环节的人工智能股权投融资服务体系。
通过与包括国内几大电信运营商在内的一系列数据合作伙伴的战略级合作,因果树逐步建立起了累计达1000T、日新增结果数据超过3T的数据仓库,海量、多源的数据为人工智能股权投融资服务打下了坚实的基础。
凭借完善的数据处理能力、高效的数据加工能力、极致的分析解读能力和独到的人工智能算法,因果树将金融行业专家的丰富经验和人工智能科技有机结合,形成了业内独树一帜的股权投融资智能分析系统。
AI慕课开拓方向:李姜元鸿(因果树创始人)。可让其安排技术人员讲解一下垂搜大数据产品的技术实现。AI慕课课程名称可拟为:《金融大数据产品构建之道》。
垂搜:项目和机构数据库、信息全面实时披露
因果树垂搜是国内首款股权投融资领域垂直搜索产品,其数据库覆盖超过2000万家企业运营数据、50万+TMT项目和数万家活跃投资机构投资数据,并结合已累计突破100万份的市场分析研报以及招股书、海量的全球知识产权数据和日均覆盖7亿的用户上网行为数据,凭借业内独树一帜的人工智能算法,逐步形成了涵盖超过1000个细分行业。数据来源包括市场上的公开数据、多家运营商数据、知识产权数据,还包括定点行业数据,实时跟踪并分析每个项目在投前、投中、投后的信息,包括其所在行业状况、资本状况、项目团队水平、用户表现等,通过对项目信息实时收集、结构化分析、处理,帮助用户准确、及时获取行业和项目信息。
垂搜产品借助人工智能算法优化搜索结果,大大提升了结果的精准度,即可以提供高准确度的研报片段,也可以为企业推荐合适的合作伙伴及潜在并购标的。
垂搜将行业专家的知识积累与人工智能算法完美结合,依托于多维度数据源、专业的金融分析模型、逻辑化的数据呈现大幅提升了搜索结果的专业价值。
李姜元鸿言论(FDL整理):我们(因果树)是一家依托大数据的人工智能股权投融资服务平台。整合全网50万+项目信息,互联网公司细分成1000+行业,通过大数据分析、金融建模,制定行业及企业KPI。从宏中微三个角度来看,虽然Fintech很热,但目前还不能说存在明显泡沫,很多东西都还没成长起来。未来比较看好的是智能金融这块,针对资产端的创新。我们是投AI股权融资信息平台的,通过我们的数据库,用云图的方式来展现目前产业/行业的项目投资机会。
通联数据:通联数据股份有限公司(DataYes)是由金融和高科技资深专家发起,万向集团投资成立的一家金融资讯和投资管理服务公司。致力于通过新一代的信息技术和投资理念打造国际一流的、具有革命性意义的金融服务平台,为客户提供更专业和更全面的服务。总部位于中国上海陆家嘴金融区,在美国硅谷、北京、南京设有分公司。
通联实际上要做两件事情,一个是针对资产管理行业提供云计算服务平台,另外提供大数据分析平台。
TuShare数据接口:TuShare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、和多样的便于分析的数据,为他们在数据获取方面极大地减轻工作量,使他们更加专注于策略和模型的研究与实现上。考虑到Python pandas包在金融量化分析中体现出的优势,TuShare返回的绝大部分的数据格式都是pandas DataFrame类型,非常便于用pandas/NumPy/Matplotlib进行数据分析和可视化。当然,如果您习惯了用Excel或者关系型数据库做分析,您也可以通过TuShare的数据存储功能,将数据全部保存到本地后进行分析。应一些用户的请求,从0.2.5版本开始,TuShare同时兼容Python 2.x和Python 3.x,对部分代码进行了重构,并优化了一些算法,确保数据获取的高效和稳定。
TuShare从发布到现在,已经帮助很多用户在数据方面降低了工作压力,同时也得到很多用户的反馈,TuShare将一如既往的用免费和开源的形式分享出来,希望对有需求的人带来一些帮助。如果您觉得TuShare好用并有所收获,请通过微博、微信或者网站博客的方式分享出去,让更多的人了解和使用它,使它能在大家的使用过程中逐步得到改进和提升。TuShare还在不断的完善和优化,后期将逐步增加港股、期货、外汇和基金方面的数据,所以,您的支持和肯定才是TuShare坚持下去的动力。
TuShare & DataYes
通联数据(DataYes)是国内目前最大的开放金融数据平台,整合了包括股票、基金、期货、期权和港股方面的全品类金融数据。从数据的多样性、质量性和稳定性的角度考虑,遵从TuShare一贯的开放、简单易用的特点,TuShare为用户集成了绝大部分通联数据的接口。虽然通联数据大部分数据接口都是免费使用,但毕竟是一家商业公司,使用前提是需要注册通联数据的用户账号,当然,注册过程还是相当简单的。
为了让TuShare用户更好的使用通联数据接口,用户需要注册通联通行证账号。以便在TuShare中调用通联数据API接口。
TuShare官网:http://tushare.org/index.html
优矿:优矿是通联数据旗下的大数据时代的金融量化平台。提供高质量的金融大数据与高效的云计算工具,复杂交易策略亦可轻松构建、回测并模拟。
AI慕课开拓方向:通联数据CEO王政。可让其安排技术人员讲解一下通联数据的金融大数据库平台的使用方法,并介绍通联数据开放平台的API接口的使用方法,以及介绍TuShare对通联数据API的调用。此外,还可以为学员介绍优矿量化平台的使用方法,以快速帮助想学量化策略的同学上手。AI慕课课程名称可拟为:《这里有你想要的所有金融数据——通联数据开放平台使用方法》、《大数据和机器智能时代的量化投资——优矿量化平台快速上手》。
金融领域云计算
比较有代表性的企业有:
兴业数金-金融行业云:2015年12月,兴业银行和高伟达、金证科技、新大陆等数家公司共同投资设立兴业数字金融服务股份有限公司(兴业数金),承接兴业银行“银银平台”的科技输出优势,为中小银行、非银行金融机构、中小企业提供金融行业云服务。
兴业数金在成立伊始就放眼未来,将OpenStack作为新一代云计算平台的技术方向,并结合互联网金融系统的应用特点,建设了中国第一个基于OpenStack的金融行业云——兴业数金云。
AI慕课开拓方向:兴业数金云计算工程师。可让其相关技术人员讲解一下兴业数金云平台的架构和技术实现。AI慕课课程名称可拟为:《普惠金融时代的拎包入住——兴业数金云平台的技术架构》。
兴业数金采用开源OpenStack 云平台解决方案,一期建设互联网金融业务生产云、开发测试云两个云平台,既结合了互联网金融业务的实际需求,又具备行业云的推广扩展能力。方案亮点包括:
1、灵活计费策略支撑金融行业云复杂计费场景
定制开发云平台计费功能,实现资源条目基准价格配置、计费策略配置、计费报表导出、在线或管理员后台充值及欠费处理等功能。这些复杂的计费体系、计费策略、计费管理等功能,为实现金融行业云复杂计费场景提供了业务和技术融合支撑。
2、复杂的组织关系架构契合金融行业云使用场景
考虑到金融行业云的企业用户组织关系架构复杂,兴业数金云在设计之初就在原有OpenStack Domain、Project组织架构基础上,增加一级父Project,实现企业、部门、项目三层组织关系架构契合金融行业云企业用户自有组织架构需求。
3、裸机资源管理实现虚实资源混合使用
考虑到兴业数金云承载的互联网金融业务中需要使用物理节点构建大数据集群,采用OpenStack Ironic接入管理裸机资源,并按需提供给数金云租户裸机资源服务。此外,通过对接SDN网络方案,亦实现虚拟机和裸机混合组网。
4、统一监控平台
兴业数金云采用Zabbix对云平台中物理服务器、网络设备、分布式存储系统、应用系统和虚拟资源统一监控,统一监控平台实现提供监控告警管理功能:包括资源容量、主机性能、虚拟机性能、应用性能监控及告警阈值设置等功能。
才云科技-容器金融云:才云科技CEO张鑫分享了《基于谷歌级容器技术与深度学习的金融云解决方案与落地实践》,旨在帮助传统金融行业适应互联网环境下计算资源弹性变化和业务快速部署的需求。他认为,金融行业已从面向标准化组件的大集中和面向资源的虚拟化,转向面向服务的云计算,容器已成为软件交付的标准,容器将助力金融行业实现业务系统的快速微服务构建。
Caicloud TaaS(TensorFlow as a Service)产品的架构设计和研发成功,将重新定义容器云服务的技术版图和生态想象空间。张鑫认为:“容器云服务革命的时代业已到来,才云一直在思考在实践,我们不仅仅满足于Docker或容器技术带来的轻量级容器虚拟化标准,也不仅仅是容器集群调度管理所带来的开发运维流程统一的交付标准,而是如何在贴近业务第一线为企业带来价值和盈利,从底层至上提供一整套解决方案,这是我们才云企业服务的终极目标——点燃计算与数据的价值。”
张鑫表示,决定深度学习成效的三要素为数据、算法和平台,而才云推出的TaaS服务中,算法基于TensorFlow,平台则是才云自己的容器集群(基于Kubernetes集群管理系统),只要企业能够收集到足够的数据来对算法模型进行校正,才云的TaaS平台就能够不断提升精度。且企业只需要很少的配置即可实现自身的需求。
张鑫介绍,目前单家企业的算法模型需要一个月到数个月不等的时间进行校准,而从计算的加速比来看,采用了跨主机分布式计算的才云TaaS平台能够发挥高于TensorFlow本身超过百倍的加速比。“在才云成立初期,基于我们创始人在谷歌底层研发的经验和视野,我们决定赋予Caicloud之C. A. I所蕴含的CloudAI理念。在过去2-3年,Docker一片红海,但我们深知在谷歌内部Borg周边的一系列生态和其能为企业IT所产生的价值。”
才云科技报告详情:《谷歌级容器技术与金融云落地实践》
AI慕课开拓方向:才云科技CEO张鑫。可让其安排相关技术人员讲解一下才云TaaS平台的架构。AI慕课课程名称可拟为:《当TensorFlow遇上金融——才云TaaS容器金融云的落地实践》。
AI+金融技术与应用
金融领域语音识别
由于金融行业带有明显的客户服务属性,加上完整而庞大的业务及数据积累,因此成为智能语音语义的重要应用阵地。当前,一些商业银行已经通过使用语音识别技术,实现了语音导航、语音交易、业务办理等基础服务。
除了在线客服和呼叫中心,智能语音技术还被应用于语音/语义分析、大数据挖掘、身份认证等领域。捷通华声的智能语音分析系统就通过将语音数据转化为文本,而后建立语义索引、自动提取特征关键词,再对文本数据进行自动分类,生成结构化的客服大数据,为银行等金融机构提供客服质检、大数据挖掘与分析服务。
此外,随着声纹识别技术的进步,智能语音也将被应用于金融领域的身份认证,通过语音认证实现业务办理、支付等功能,未来有望和指纹、虹膜、人脸等其他生物特征识别方式一起使用。
代表性的应用/企业:
智能客服:中国平安 95511 呼叫中心(Call Center)
中国平安作为中国最大的个人金融生活服务集团之一,其全国服务热线95511每日电话进线量超过70万,随着集团业务的不断增加,热线菜单层级也越来越多,客户往往需要按键3到4次才能开始真正办理业务。随着智能语音导航系统的上线后,客户只要“说”可开始业务办理,解决了现今世界上罕有的涵盖10余家不同公司、不同业务、5层按键设置、2000多种种服务的最复杂按键业务导航系统的难题。目前中国平安95511服务热线每日已有近55万的电话呼入用户使用了该服务,占比超过75%。
平安服务热线95511智能语音导航系统,是基于业界领先的智能语音识别和交互技术,共同实现了产险、寿险、银行卡查询、信用卡查询、车险办理等480项业务菜单的语音交互功能,识别准确率超过87%,已达到行业领先水平。是平安科技坚持创新、专业服务的又一力作。
平安科技作为平安集团全资子公司,“互联网+综合金融”科技服务提供商,构建了一系列业内领先的联络中心产品线,包括智能语音、可视化IVR、号码盾牌、智能外呼、坐席全景视图等。后续,平安科技将继续致力于打造电话、视频、在线等三位一体的全媒体客户接触平台 ,更好的为集团内外部企业用户提供服务。
FDL观点:各个金融机构的Call Center,人和机器的比例可能会慢慢走向,现在是人多机器少,或者现在说几乎都是人,那可能五年以后,你打电话到Call Center里边,大概80%的都应该是机器来接听,然后只有20%是人,这个趋势是非常明显的,这和我们外围的语音识别技术其实是很有关系的。就是现在AI的技术在整个语音识别,这些都是速度非常快的,所以这类型的基础行业,包括还有机器人在金融机构后台的运营,我觉得机器人的这个方向是不错的。过去我相信大家打Call Center,你都会很烦。打进去以后,它会告诉你1是什么2是什么3是什么,你点开2以后,它又会告诉你1是什么2是什么,你可能在旁边都等得没有耐心了,但是你现在打就会不一样的。比如整个平安集团,它是一个集中的Call Center,不管是证券还是保险还是银行,它是一个号码的客服电话,你现在打进去以后,它就已经有变化了,它会告诉你说,它的提示音就不是1是什么2是什么,而是说你需要的服务是什么,你可以直接讲出来,然后你一讲,它直接就奔着下一个菜单去了。所以这其实已经是一个语音转换成文字,文字再具体语义解析的一个非常典型的例子了。
AI慕课开拓方向:平安科技负责开发智能客服(Call Center)的负责人。可让平安科技首席科学家肖京安排技术人员讲解一下平安呼叫中心95511的技术实现。AI慕课课程名称可拟为:《平安智能客服95511背后的技术逻辑》。
金融领域自然语言处理
自然语言处理除了结合语音识别技术对语音数据进行挖掘应用在智能客服以外,另外的主要应用就是智能报告生成,其利用自然语言处理及OCR技术(光学字符识别)解析文本,提取关键信息嵌入相应的报告模板,自动生成报告。在文本来源方面,还应注意到爬虫技术的应用。
金融领域的爬虫技术
八爪鱼采集器:八爪鱼采集器是深圳视界信息技术有限公司研发的一款业界领先的网页采集软件,具有使用简单,功能强大等诸多优点。八爪鱼数据采集系统以完全自主研发的分布式云计算平台为核心,可以在很短的时间内,轻松从各种不同的网站或者网页获取大量的规范化数据,帮助任何需要从网页获取信息的客户实现数据自动化采集,编辑,规范化,摆脱对人工搜索及收集数据的依赖,从而降低获取信息的成本,提高效率。
AI慕课开拓方向:八爪鱼采集器的开发者。可让八爪鱼CEO安排技术人员讲解一下采集器的操作过程,比如以征信行业为例。AI慕课课程名称可拟为:《高效实用的爬虫软件实操——八爪鱼网页数据采集器》。
金融领域的自动研报生成
目前,自动报告生成主要运用自然语言处理(NLP)中的两种技术:
自然语言理解(NLU):将日常话语消化理解,并转化为机器可后续处理的结构;
自然语言生成(NLG):将由机器拆分好的结构化数据以人们能看懂的自然语句表达出来。
我们可以将这两种技术理解看成对日常对话这一原料的拆分加工和整装成可理解的自然语句——最终产品。
然而真正生成报告还需要利用以上技术完成3个步骤:
1.处理海量异构数据
将投行分析师需要阅读的年报,彭博新闻社的实时新闻以及数据,行业分析报告,以及法律公告等资源进行消化。其中对于文本中的图片和表格需要OCR(光学字符识别)等技术解析。
2.分析数据
这一过程涉及运用知识图谱中常用的知识提取与实体关联将其关键逻辑主干抽出,结合事件地点等因素,将关键信息嵌入预先设计好的报告模板中。
3.文章生成
经过处理海量异构数据与分析数据的过程后,即可生产新闻,券商分析研报,上市招股书,企业年报,定增公告,甚至基金研究员开每日晨会所需的投资建议书也都可以用类似方式生成。用户只需选择符合其需求的模板确定主题与关键信息,以及报告呈现形式,便可生成基本内容。而且投行分析师可以进行校对与人工二次编辑,加入有价值的观点与结论,并提升报告精准度。
文因互联:文因互联是一家用人工智能解决金融数据分析问题的创业公司。 2013年建于美国硅谷, 创始团队来自MIT、RPI、Wright State、 Marvell、Tulane University等知名大学和公司, 创始团队深耕人工智能十余年, 是知识图谱领域领军人物, 在学术界和工业界实施过大型智能系统开发。 更汇集了来自北交所、同花顺、毕马威、中兴、清华大学等金融和技术精英。
AI慕课开拓方向:文因互联负责自动研报开发这块的技术人员。可让其讲解一下自动研报生成的过程和技术路径。AI慕课课程名称可拟为:《研报还可以这样玩——文因互联的自动研报生成技术解析》。
金融领域图像识别
图像识别技术是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。金融领域的图像识别主要在于人脸识别,用于身份认证的应用场景。
云从科技:云从科技是一家有中科院+上市公司背景的公司,是国内银行第一大人脸识别供应商,拥有世界一流的自主人脸识别技术,在金融领域上比其他同业公司更加深入懂行。此外,云从科技是一家科学家的企业,其创始人周曦博士毕业于伊利诺伊大学(UIUC),在UIUC从事博士后研究工作,师承“计算机视觉之父”Thomas Huang教授。
可以预期的是,随着技术的快速发展,对用户的普及程度的提升以及对复杂场景的应对,再加上金融领域的安全可靠要求,人脸识别技术在金融领域将得到大规模的应用。在金融领域的应用需求,大概可以分为三类:安全需求,营销需求和创新需求。
“在金融交易中使用人脸识别技术,可在出现用户交易抵赖时,将交易过程用到的人脸识别原始人脸信息作为交易附加信息进行举证,有效预防抵赖,减少金融交易客户投诉处理时间”,云从科技金融事业部总经理张兴旺谈到,“通过人脸识别技术、用户微表情分析、眼球跟踪、客户轨迹跟踪等相关技术,金融企业能够快速的识别出客户的兴趣所在,感知客户的情绪,并以客户为中心,按照客户的喜好提供更好的产品和服务”。总之,云从科技对人脸识别用处的总结就是,脸即身份,脸即介质,脸即权力,脸即信息。
云从科技报告详情:《人脸识别技术构建金融科技新生态》
AI慕课开拓方向:云从科技创始人周曦。可让其安排技术人员讲解一下复杂场景下的人脸识别技术关键要点(在复杂场景下,云从科技的人脸识别技术能够轻松应对准确识别。如有无化妆、年龄增长、有无配饰、发型变化、有无PS、光照角度变化等,这些场景下的人脸识别依然能够达到极高的水准)。AI慕课课程名称可拟为:《复杂场景下的人脸识别技术要点》。
Face++:Face++是旷视科技旗下的人工智能开放平台,以API或SDK形式提供全球领先的计算机视觉服务。产品包括人脸检测、人脸分析、人脸识别,以及图像识别、OCR证件识别、文字识别。
官网:https://www.faceplusplus.com.cn/
主要应用:人脸识别(身份认证之刷脸)。客户代表:支付宝。
支付宝则是将刷脸功能融入到了账户登录上,这一点体验是三家中最为直观便捷的,开启的方式为,点击APP右下角我的→右上角“设置”→安全中心→安全保护工具。完成之后,还可以进行体验,同样需要眨眨眼来完成识别。然后再次登录时,便可以通过刷脸来登录账户,整个识别过程不需要用户有任何动作,连眼睛都不用眨,识别速度非常快,大概一两秒。体验很是出色。
在照片以及视频的攻击测试中,没有出现任何问题,调整各种角度也无法解锁;在切换至真人顺利解锁,安全有保证。
AI慕课开拓方向:Face++首席科学家孙剑。可让其讲解一下Face++人工智能云开放平台背后的人脸识别技术关键要点(人脸检测、人脸比对、人脸搜索、人脸关键点(最多106点)、人脸属性)。AI慕课课程名称可拟为:《Face++人脸识别技术剖析》。
生物特征识别
生物特征识别具有不易遗忘和不易伪造的优点,它利用人体固有特征进行身份鉴定,这些“固有特征”可以分为两种:一种是“生理特征”,又称为“静态特征”,比如我们每个人与生俱来的指纹、脸纹、眼纹等等;第二种是“行为特征”,又称为“动态特征”,比如我们的笔迹、声音、步态等,虽然这些特征受后天影响较大,但是我们每个人的行为特征和其他人都不一样。
生物特征识别的优势是显而易见的,但由于这类型识别设备的成本过高,所以在早期主要为政府部门所用。比如,美国入境关口采集来访者的指纹,从而鉴定他们与签证申请者的身份是否吻合。商业领域的使用也主要集中在企业内部验证员工身份,医院鉴定患者身份等方面。而随着该技术准确度的提升,硬件成本的下降以及智能手机的大量普及,生物特征识别在大众市场推广已具备足够的条件。
根据2014年美国国家标准技术研究所对多项生物特征识别的技术测评,其中指纹识别、人脸识别和虹膜识别的最优算法在百万级数据库中的准确率都超过了90%。各种生物特征识别算法的1比N鉴别性能得到进一步提升,在数百万人中查找一个人将不再是大海捞针。
人脸识别前面小节已经详述,这里不再赘述。指纹识别在金融领域的应用广泛,是金融机构的“前任”。可以说,生物识别在金融的应用始于指纹识别。在深度学习技术还未获得技术性突破时,人脸识别的技术发展也受到了限制,而指纹识别早在90年代大规模进军金融行业、“独霸”天下,也成为了应用最广泛、最成熟的生物识别技术。虽然,现在在人脸识别的火爆行情下,指纹识别稍显黯然,但新一代居民身份证将指纹信息纳入其中,这成为了指纹识别再次走向巅峰的关键契机。“虽然现在金融机构基本以人脸联网核查进行人证合一核验,但是将来指纹识别肯定会在这方面分一杯羹,目前很多银行已经在此方面有所布局。
虹膜识别、指静脉识别:探索、观察阶段的“潜力军”。相对于人脸识别和指纹识别,虹膜识别、指静脉识别显得“孤傲”的多。目前各大金融机构对于这两种技术的态度比较一致:探索与观察。现在为止,作为最安全、最精准的生物识别技术,虹膜识别一般应用于金库管理、押运管理的较多,通过虹膜识别确认出入和押运人员身份,确保财产安全;同时,也有部分银行在尝试将虹膜识别和指静脉识别集成于自助终端中,实现更高安全级别的身份认证,以帮助用户完成自助贷款、自助理财等业务的办理。
多模态生物识别是金融科技(Fintech)不可更改的趋势,单一的人脸识别或指纹识别难以满足金融机构的多样化需求,而此时,金融机构更为重要的不是考虑布局哪种生物识别技术,更关键是未来怎么集中管理多样化的生物识别系统。
远鉴科技:远鉴科技是一家高科技创新型企业,专注于人工智能(AI)——生物识别领域,掌握先进的人工智能与机器学习算法。在生物特征识别、多维身份认证领域,具备多年的服务经验与一站式服务能力。
在声纹识别、语音识别、人脸识别、关键词检索、语种识别、音频指纹、活体检测等方面,远鉴拥有完全自主知识产权。凭借业界领先的声纹识别、人脸识别和OTP技术,加之对身份认证业务的深刻理解,远鉴在国内率先获得了可供商用的“声纹+人脸+OTP+X”多维身份识别与认证系统软件著作权,以满足不同应用场景对身份认证服务的差异化需求。
AI慕课开拓方向:远鉴科技多维身份识别与可信认证技术-国家工程实验室负责人。可让相关的研究人员讲解一下远鉴科技多模态身份识别和认证系统的运作过程和技术原理(声纹+人脸+OTP+X)。AI慕课课程名称可拟为:《远鉴科技多模态身份识别和认证系统原理》。
知识图谱:知识图谱技术是基于现有数据的再加工,包括关系数据库中的结构化数据、文本或XML中的非结构化或半结构化数据、客户数据、领域本体知识以及外部知识,通过各种数据挖掘、信息抽取和知识融合技术形成一个统一的全局的知识库。
整个知识图谱技术的核心,就是如何把数据结构化。在传统的数据库研究里面,我们已经看到了数据是结构化的。知识图谱技术,从某种程度上来说,是数据库技术往前的一步,把传统的表格结构所不能处理的复杂的关系,用更新型的数据库来进行存储、表达。这个技术虽然是从2012年开始才为大家所知,但从渊源上讲,已经有差不多15年到20年的发展时间了。
金融领域的知识图谱
我们具体再来看金融知识图谱,这是我们今天在中国市场上看到主要的各种类型的金融知识图谱。这是一个很粗的分类,每一个分类下面,都会有很多更细分的分类。比如像前面的创投类数据库,滕放腾总,文飞翔文总,还有郭颖哲郭总,他们接下来会分别向大家介绍自己的经验。另外在很多其他类型的市场上,包括一级市场、二级市场,我们都看到各种不同的知识图谱、数据库陆陆续续出现。比如做A股、新三板的公司,其实还有做港股、美股的公司,各种基本面的数据,行情的数据,现在都在陆陆续续地知识图谱化。以前大家只看 F10,现在一种智能的“F10”出现了,还有公告数据、研报数据的提取、公告研报的检索等等。泛舆情数据、泛企业数据和各种工商数据,都是我们今天看到的金融知识图谱的不同分支。
从应用上来讲,我能想到的有十几种。但实际上会远远不止这十几种。让人兴奋的是,这里面的大多数应用都是在过去一年里头出现的。一年之前我列这个列表可能只有四五种,而现在我们可以列出十几种。所以我们很难想象,明年我们会列出多少种。在各种投资的分支上面,我们可以看到知识图谱有非常广阔的应用。
我觉得要做金融领域的知识图谱,还是要从基本的金融数据开始,刚开始可能不能完全靠机器,还是要靠手工。我们要充分利用结构化的数据,实质性更好的其实还是来源于文本也就是研报,其中有很多有价值的数据。
最基本的是要有实体,其次要有更高级的知识结构。接下来我们来看知识图谱能不能够做到量化金融。现在有许多学者,很确信在量化金融领域机器可以打败人。现在百度在做概念选股,主题选股,语义就可以帮助做这个事情,辅助我们更好地进行选股。毕竟现在信息太离散。人和人之间的关系更加不用说了,涉及的数据会更多。
金融搜索引擎——文因搜索
在金融的世界里,信息浩瀚如云海,相信每位金融从业者都有过信息过剩的烦恼,面对着大量的上市公司公告、财报、研报,新闻…,个人精力似乎总是不够。现今信息和数据是如此地高速膨胀,我们似乎需要一种更为高效的信息处理方式。
数据经过挖掘、加工处理之后,就能够成为人们所需要的信息。借助技术的力量,从海量数据中提取有用信息,识别其中蕴藏的模式、规律和相关关系,则是一种人类认识世界的新方式。
例如,在上市公司财报中蕴藏着大量的人工总结,其中包括大量的因果关系。因果关系的识别可以帮助我们了解事件之间的来龙去脉,获取事件的演化关系,有助于预测和决策。而基于这种认识,文因互联的工程师王爽利用NLP技术,对上市公司的年报进行了一次因果关系的抽取的实验。
接下来,就让我们来看看,在一份上市公司的年报中的一个抽取结果项目(下图为代码展示):
【raw_text】表示原始的表示因果关系的句子
【title_path】表示的是句子位于文档中的位置
【financial_term】表示的是财务项目
【trend】表示的是该项目的变化趋势
【amplitude】表示的是该项目的变换幅度
【cause】表示的是该项目的变化原因
通过这样的提取工作,我们能够在短短的几分钟之内就可得知一份厚厚的年报中关键的“因果关系”信息。
AI慕课开拓方向:文因互联CEO鲍捷、文因互联工程师王爽等。可让相关的研究人员讲解一下文因互联搜索引擎背后的巨大金融知识图谱的构建过程和技术细节。AI慕课课程名称可拟为:《金融知识图谱是如何一步一步构建的》。
企业知识图谱——海致大数据
海致大数据隶属海致网络技术(北京)有限公司,是国内领先的大数据技术与服务公司,自成立以来已经为二千多家企业提供了大数据咨询、大数据平台搭建、数据清洗、数据整合、数据挖掘、可视化数据分析等服务。其中包括中国联通、某股份制银行、青岛银行、海尔集团、华联超市、雀巢中国、圣戈班、伊利乳业、百度外卖、58到家等国际国内知名企业。
构建360度企业知识图谱
通过整合企业内外部数据,我们快速构建起支撑各类企业级应用的语义实体库,结合强大的图分析引擎与知识推理技术,提供了智能、灵活的交互式图谱分析解决方案。通过建立360度企业知识图谱,帮助某股份制银行金融部利用大数据技术有效地提升了风险控制和对公营销效率。
融入业务系统,从“人找事”变为“事找人”
在360度对公业务图谱之上,根据我们和客户一起从业务中总结出来的各种风险与营销事件规则,图谱自动将每个客户经理必须关注的风险信息和营销信息融入行内业务系统并推送到相关责任人的手机客户 端。让这些过去需要客户经理和相关数据分析人员辛苦挖掘寻找的信号,成为推动一线业务人员行动的简洁指令与参考,并实时进行监督和反馈。
AI慕课开拓方向:海致大数据CEO。可让相关的研究人员讲解一下海致大数据360度企业知识图谱的构建所涉及的关键技术。AI慕课课程名称可拟为:《360度企业知识图谱之技术基础》。
金融领域的机器学习
机器学习有多种衍生方法:包括监督学习、无监督学习、深度学习和强化学习等。不同的目的,需要不同种类的机器学习方法。
在金融领域,监督学习的目的是建立两个数据集之间的关系,并使用一个数据集预测另一个数据集;无监督学习的目的是尝试了解数据结构,并确定其背后的主要规则;深度学习的目的是使用多层神经网络来分析事物背后的发展趋势;强化学习使用算法来寻找最有价值的交易策略。
J.P. Morgan报告全文下载:Big Data and AI Strategies - Machine Learning and Alternative Data Approach to Investing - J.P.Morgan
1. 使用监督学习来预测趋势
摩根大通认为监督学习算法通过对历史财务数据的分析,可以找到规律进行预测。监督学习算法有两种形式:回归和分类方式。回归形式的监督学习方法尝试基于输入变量来预测输出。例如:如果通货膨胀速度加快,它可能会判断下一步市场的走向。分类方法则是将数据分类到已有类别中。
2. 无监督学习将被用于识别大量变量之间的关系
在无监督学习中,机器被输入了一整套资产组合的回报,同时并不知道其中的关联和独立变量。无监督学习方法被归为聚类或因素分析。聚类分析基于一些相似性概念将数据集分成较小的组。例如:它可以包含历史数据中高低波动性、经济上升和下降速率或通货膨胀的增减。因素分析旨在识别数据的主要内在规律或确定数据的最佳表示方法。例如:收益曲线的运动可以被解释为曲线的平行位移、曲线变陡峭或变凸。在复杂资产组合中,因素分析提炼出数据的主驱动力,如动量、价值、进位、波动或流动性。
3. 深度学习系统将承担起难以定义但易于执行的任务
深度学习特别适合非结构化大数据集的预处理:例如,可应用于分析卫星图像中的汽车、或新闻稿中的情绪。深度学习模型可用虚拟财务数据来预测市场修正概率。深度学习方法基于神经网络,而神经网络是受到人类大脑神经活动的形式而受到启发的。在网络中,每个神经元接收来自其他神经元的输入,并计算这些「神经元」的加权平均值。权重的计算则基于从历史数据中得来的经验。神经网络的特征指标,其中包括成本函数、优化器、初始化方案、激活函数和正则化方案。
4. 强化学习将被用于行动选择和收益最大化
强化学习的目标是选择一系列成功的行动以最大化目标(或累积)收益。不同于监督学习,强化学习模型并不知道每一步的确切行动是什么。摩根大通的电子交易部门已经开发了一些基于强化学习的算法。下图显示了该公司的一些机器学习模型。
数库科技
数库科技是一家基于机器学习算法的大数据量化分析公司,致力于为用户提供智能化的数据服务。公司成立于2009年,由供职于国内外著名金融机构以及技术方面的专业人士共同组建。
通过数库独家的挖掘以及分析工具,可以使非结构化、半结构化的数据结构化;使原本无序没有关联的数据产生关联性,进而实现数据智能化,为个人投资、金融机构投研提供精准而又全面的技术服务。
关于数库科技是如何运用机器学习技术到金融领域的,请查阅数库科技CTO夏磊的报告:如何将机器学习应用在金融信息处理中
机器学习是实现人工智能的基础,数库科技使用的机器学习算法有哪些呢?
分类算法
情绪分类: SVM-准确率89%、LSTM-准确率85%
择时策略: HMM
推荐算法
标签关联、知识推荐
聚类算法
主题提取
例子1:深度学习在命名实体识别上的应用
例子2:新闻情绪分析
例子3:主题聚类与新主题发现
AI慕课开拓方向:数库科技CTO夏磊。可让其或者相关的技术人员讲解一下数库科技运用机器学习技术用于解决金融数据处理问题的一些实际案例,可以按照层次递进讲解,依次讲解分类、关联(推荐)、聚类、回归等算法。AI慕课课程名称可拟为:《机器学习在金融数据处理中的应用》。
技术综合:智能投顾
组合的技术:自然语言处理、金融知识图谱、量化投资、机器学习、数据挖掘
智能投顾(robo-advisor),是指计算机基于客户年龄、收入水平、家庭结构、理财需求、风险承受能力、风险偏好等因素,运用现代投资组合理论,通过算法搭建数据模型,利用人工智能技术和网络平台代替人类提供理财顾问服务。
根据美国金融监管局(FINRA)2016年3月提出的标准,智能投顾服务包括:客户分析、大类资产配置、投资组合选择、交易执行、投资组合再平衡、税收规划、投资组合分析。
智能投顾旨在用最少的人力,基于软件提供的量化算法,给客户提供理财组合管理的建议,自动化的配置、管理并优化客户的资产。
投顾给出的都是一套资产配置方案,经典的资产配置策略以 Markowitz 的均值-方差模型为基础,目标是在给定组合风险水平的条件下,寻找预期收益最高的权重配置。组合对降低波动性有显著的作用。
就基金管理类型来说,有两种方案类型:一种是主动管理型,一种是被动管理型。主动管理是为了获取超额收益(alpha),被动管理则是为了追踪某个指数获取平均收益(beta)。
在这场主动投资与被动投资的争论中,各自的拥护者各持己见,主要点在于:主动型管理基金带来的超额收益是否能够覆盖其像用户收取的管理费成本,或者,退一步讲,战胜市场的概率高么?
对此国内外的智能投顾系统有着不同的观点:
国外智能投顾机构,例如 Wealthfront,Betterment 等采用的都是指数基金的配置方案,也就是利用被动基金进行资产配置。利用指数基金进行配置可以减少这部分费率的费用。
国内 ETF 种类较少,投资者教育也在一个进行阶段。国内的大部分投顾,例如理财魔方、摩羯智投,都是通过基金评级选出相应的主动型基金,来做的资产配置。
智能投顾的系统设计
要想完成传统投顾到线下投顾的转化,简单的切分,需要完成五块内容:
1)用户信息的处理
用户信息包括对客观信息(年龄因素、家庭收入、可投资金额、家庭负担、投资经验)及对主观信息(可接受亏损收益、其他信息因素)的处理及建模,同时包括后续一些反馈数据,例如用户交互数据、用户行为数据等对用户建模的模型进行迭代优化。
2)资产信息的处理及匹配及建模
选定要参与配置的产品类型,对于其中标准产品,采用一些公允评级机构或者根据收益、回撤、波动等建立一套评价体系。筛选出可以参与配置的产品,并赋予其相应的属性值。对于非标准产品,则需要根据其产品特性建立标准,进行评价并赋值入库。
根据用户信息、资产信息,以及配置目标,建立模型,并通过各类市场信息、用户反馈信息进行方案的迭代优化,权衡输出相应的资产配置的方案,并按需给出相应的调仓建议或者操作。
3)交易模块的设置
根据选定的产品,设计整套的交易模块,以支持整体流程的完成度。交易模块的设置需要在考量完成度的同时,考虑到整体用户体验。
4)投后追踪服务
投后对用户账户的定期分析,并给出其相应的资产调整建议,也是智能投顾非常重要的部分。例如 schwab,就给用户提供了税收亏损收割和资产再平衡等功能。这也是智能投顾方案的核心竞争力之一,也是其相比传统投顾的优势所在。
5) 底层系统架构支持
以上模块的实现均需要相应的底层系统架构的支持。
总结
取决于传统投顾服务的局限性,并伴随国内外用户可投资资产的增多,日益增长的投顾需求,智能投顾能够针对更广大的投资者提供专业化服务。本质上来说,一切技术创新都是为了提升效率。
与传统模式相比,互联网最大的优势是其极低的边际成本,这也符合了目前的市场趋势。就目前而言,无论在投资方案还是系统设计上,智能投顾虽是大势所趋,但探索的道路仍旧漫长。
智能投顾商业模式
按照人为参与程度的高低,智能投顾分为机器为主,以人为主和人机结合三种模式,并相对应六种的主流的商业模式。其中,机器为主中,主要有三种模式,一种是基于现代资产组合的大类资产配置模式,一种是基于量化投资的投资策略型模式,还有一种是基于大数据分析的投资辅助型模式;以人为主中,社交跟投型模式是目前主流模式;人机结合中,又可细分为线上引流至线下的O2O模式以及原有平台在智能投顾方向上的功能扩展。
关于智能投顾商业模式和市场公司解析请参考FDL的《智能投顾面面观之公司篇》文章
财鲸智能投顾
财鲸将作为全球股票交易的智能投顾服务商,将为中国投资者提供全球化的投资热点精选、优质股票及组合推荐、便捷开户及交易、一键购买与智能调仓等一站式投资服务。每一个热点资讯都可能对应于一个投资机会,在财鲸,投资者可以便捷的获取全球热点投资机会,可以得到投资机会所对应的优质投资组合,并基于财鲸智能化的调仓建议及便捷化的全球交易系统进行投资决策,获得个性化的投资体验。
在此过程中,财鲸将帮助中国投资者一次性解决在全球投资过程中所遭遇的语言及信息获取困难、海量投资标的无从选择、监管和服务受限以及投资过程中繁杂的开户、交易、组合调整等痛点;财鲸还将发挥其在海外金融市场和监管方面的专业经验,以及大数据、人工智能及量化策略算法,并结合专业金融从业人员的分析复核等,实现专业、靠谱、个性化的服务。
财鲸致力于为中国投资者量身打造一站式全球理财综合平台。通过准确把握客户需求,整合国内与海外优质金融产品和服务,提供线上线下相结合的服务和交易通道,满足客户不同阶段的理财需求,为中国投资者提供个性化的全球资产配置建议和投资产品,实现个人和家族财富的保值增值。
主要产品/服务:提供人工智能投资配置建议,开创产品超市、智能配置、安全交易的一体化创新型互联网财富管理平台。
财鲸智能投顾的核心技术是“财鲸深海智能投资系统(Deep Sea)”,该系统由财鲸团队自主研发,包含海神(多维空间交互匹配平台)、遨游(神经网络认知选股系统)、豚音(智能分析器配置优化系统)、洋流(量化择时动态调仓系统)、海纳(结构化大数据平台)和惊涛(脉冲交易系统)。
凭借财鲸深海智能投资系统,财鲸拥有强大的金融搜索和证券评估体系,能为客户提供全球范围内的优质标的,再通过投研专家团队的严格筛选,根据投资者不同的投资需求与风险承受能力,为投资者提供量身定制的全球资产配置方案。投资过程中系统每天再对组合从市场、行业、组合、用户等层面进行监测,出现变动时给用户提出风险警示。
AI慕课开拓方向:财鲸智能投顾CIO王蓁。可让其或者相关的技术人员讲解一下财鲸智能投顾的系统架构,具体讲解一个智能投顾系统的模块构成,如何构建一个有效的智能投顾系统。AI慕课课程名称可拟为:《智能投顾的系统架构》。
另外,智能投顾在做资产配置时,涉及到很多量化投资的技术,可以结合量化投资技术,专门讲解一些相关的量化投资策略,如量化选股、量化择时、套利策略(期货套利、期权套利、统计套利)、算法交易、SVM、随机过程、量化对冲等等,策略可以参考丁鹏的著作:《量化投资——策略与技术》,按照这个来设计课程。或者让通联数据旗下负责优矿产品的做策略的同事来讲解相关的量化投资策略,使用Python平台,AI慕课课程名称可拟为:《基于Python的量化投资基础与进阶》
量化投资策略概览可以参考FDL的《全栈金融工程师算法技术解构》文章中对量化投资这块的描述。
课程可以参考优矿的一些技术帖子:优矿手把手教你入门量化投资:《量化分析师的Python日记》系列