在大数据时代,大量的资源信息为人工智能研究提供了很好的支撑,人工智能技术也逐步深入各个行业,是网络信息化建设不可或缺的前沿技术。目前,针对非结构化数据无处存放、重复录入、质量不高等问题,学习、运用,力求在人工智能技术与信息化业务工作不断融合的前提背景下,实现非结构化数据的快速采集。
人工智能核心技术的研究现状及其特点
人工智能简介。人工智能也称作机器智能,是指由人工制造出来的系统所表现出来的智能。人工智能主要研究如何使计算机去做过去只有人才能做的智能工作,内容包括认知建模、知识表示、推理及应用、机器感知、机器思维、机器学习、机器行为和智能系统等。
人工智能研究方向。一是机器学习。人工智能要靠各种具体技术来实现,机器学习就是其中之一。机器学习使用大量数据和算法来“训练”机器,让机器学会如何去完成任务。机器学习背后的核心思想是设计程序使得它可以在执行的时候提升能力,而不是有着固定行为的程序。二是深度学习。深度学习也称为深度结构学习,层次学习或者深度机器学习,是一类算法集合,利用多层神经网络结构,从大数据中学习现实世界中各类事物能直接用于计算机计算的表示形式,被认为是智能机器可能的“大脑结构”。通过深度学习,机器可以处理大量数据,识别复杂的模式,并提出深入的见解。三是自然语言处理。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,研究的是人与计算机之间用自然语言进行有效通信的各种理论和方法。四是网络爬虫。互联网数据获取,也就是网络爬虫(又被称为网页蜘蛛)是一种按照一定的规则,自动抓取万维网信息的程序或者脚本。所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索。
人工智能的创新应用。随着大数据战略在各行业的逐步推进,通过互联网行业的前沿技术与实际工作相融合,促进人工智能在各行业深度应用,提供更加智能的应用软件和系统工具,这是应对新形势新任务的必然要求。有效解决获取互联网巨大信息资源、社会资源,更好地关联和查询,为工作提供方便快捷的记录、存储、分析、统计、比对、反馈工具与服务。
智能采集比对信息系统设计
智能采集比对系统平台的总体架构。智能采集比对系统平台分为应用服务、基础服务、接入服务以及数据源与服务源,同时也包含了服务应用与数据可视化分析系统。应用服务指的是为最终业务人员使用而提供的前端呈现系统,根据不同使用场景可分为服务应用市场、数据可视化分析系统、运营管理系统、开发者平台及项目个性化专题应用。基础服务包括数据管理服务、模型管理服务、非结构化文本分析引擎、资源目录、服务调度管理、数据处理分析引擎、服务转换模块、运行监测、安全审计以及用于储存平台所需的结构与非结构化数据库。接入服务是指平台提供了三种用于不同业务目标的接入服务,即资源服务注册发现、实时数据汇集服务、互联网信息采集服务。资源服务注册发现,用于平台与业务系统进行业务服务对接;实时数据汇集服务,用于在平台与业务系统数据库或大数据平台中心搭建起数据管道;互联网信息采集,提供可视化的互联网信息采集工具,实现所见即所得,并能为其他业务服务提供数据支持。数据源与服务源是指平台可能交互的业务系统与数据,同时包括业务所需要的互联网数据。服务应用是指用于承载业务服务、原子服务、组合服务等终端服务,在统一的体系下对平台接入的所有资源与业务服务进行统一呈现与管理,并为使用人员提供服务评价体系,帮助对承载的服务进行综合评定。数据可视化分析系统是包含用于对平台数据进行分析与多元化呈现的可视化报表系统、用于综合呈现的大屏呈现系统等。
智能采集比对系统的技术架构。产品的开发和运行结构是一种基于后台数据库的三层体系架构,包括数据存储层、应用服务层和平台展示层三个部分构成。一是数据存储层。产品的数据存储支持主流数据库的存储,同时,利用分布式文件系统等前沿的大数据技术,为海量大数据应用场景提供分布式存储能力。二是应用服务层。应用服务层包括平台的分析挖掘计算服务以及业务模型和系统资源的统一管理服务,提供对外的分析挖掘计算服务接口以及支持平台功能的管理调度接口,并支持插件的应用开发。三是平台展示层。提供简单、易操作的立体式业务建模功能。利用机器学习和语义感知技术,实现多种辅助建模的功能。提供产品挖掘服务、业务模型以及系统、语言资源的监控与管理功能。
智能采集比对系统功能需求。一是以人工智能、机器学习技术为支撑,以智能采集工具为手段,以解决既有问题、服务应用为根本目标,逐步完善数据资源,丰富数据类型,实现资源数据汇聚,满足快捷、方便的录入要求。二是结合大数据技术,以数据整合共享为基础,全面整合数据,构建数据共享平台,为各项应用提供数据资源支撑。三是按照标准规范,统一接口协议,建设服务资源总线,融合各项应用与资源服务。充分利用现有的信息资源,实现信息资源上下联动,各种信息资源横向贯通,数据存储应用逻辑一体化,逐步实现公共的、基础的、类型多样的信息资源服务。四是建立标准规范管理体系,提供数据类标准规范,加强采集整合、更新维护、数据管理及数据质量控制。五是建立服务标准化及应用个性化评价体系,通过识别对服务及工具使用情况的反馈与诉求,基于服务标准化评价体系进行评估和制定长短期服务优化与工具实用性改进计划,不断提升各业务服务及应用的用户满意度。六是构建安全可靠的信息系统运行环境,打造“基础设施牢固、网络边界清晰、出入网控制严密、关键资源保护得当、安全监控及时准确”的安全技术保障体系,形成责任明确、业务流畅、分级协作、响应及时的信息安全管理体系。七是坚持“实用、实战、实效”原则,围绕管理数据、公共服务机构与互联网数据,实现数据的汇聚、资源的共享、智能化研判、规范标准的统一,提升动态掌控能力和整体运作效能。八是在平台输入任何一类信息,通过“一键式关联”,可直观呈现其“电子特征”等信息。
智能采集比对系统设计目标。一是实现互联网数据采集能力,加强对互联网数据的精准采集,最大程度降低数据采集的工作量。二是实现数据融合和流式数据实时处理能力,提供可视化的配置,实现对企业内部多种数据源的数据摄入和将分析结果反馈到各类数据源。三是实现对非结构化文本数据进行分析挖掘,实现对非机构化数据的分析、提取、挖掘。四是实现可视化数据建模能力,提供毫秒级数据计算引擎,快速完成数据建模和数据计算工作。五是实现灵活的四层API接口,让用户专注于业务的开发与价值的提取,通过统一的运营与分享池为各业务单元提供自身业务的变现能力与快速反应能力。六是实现方便快捷的获取服务能力,快速将技术能力,数据价值转换为业务优势。七是实现云计算能力,可对资源进行优势整合,提供更方便、更快捷、更强大的计算与资源共享与利用,以及更低廉的管理成本。
智能采集比对系统建设内容。一是非结构化大数据分析。非结构化大数据分析挖掘平台,具有非结构化文本大数据的分析、挖掘的超凡能力,是实施大数据战略的强大利器。平台支持三位一体的多维度业务建模能力,提供对非结构化大数据智能理解与自动化处理能力,实现文本知识的多维度的业务标签标记功能,将无序的非结构化信息转换为满足业务需求的结构化数据。支持与主流大数据平台实现对接,实现复杂、批量的大数据分析挖掘。提供实时分布式计算能力、海量数据实时分析计算能力,融合主流的搜索引擎技术,支持基于海量历史数据的交互式搜索功能。二是互联网数据采集服务。主要包括静态网页、动态网页、特殊内容、文件对象等。三是大数据总线信息资源共享服务。大数据总线负责采集源端应用系统的数据,并把这些数据传输给目标大数据平台。四是Android管理客户端。安卓客户端采用当前最流行的的H5技术开发,并使用MUI框架。MUI是一款可用于开发高性能App的框架,也是目前最接近原生App效果的框架之一,有极简、极易、极快等三大特点。
智慧采集比对系统的实际应用效果
采集手段便捷化、多样化,解决了采集低效的问题。系统不仅提供终端电脑版本的智能化采集工具,还提供移动终端的智能采集工具,满足日常办公室人员的数据采集。便捷化主要体现在操作简便易用、快速响应和友好提示方面,利用语义分析、语音识别、图片识别等技术与业务的深度融合最大程度减少操作流程。通过对多种不同类型的数据源的识别分析实现多样化,包括语音、文本、图片、表单、文件等。
信息资源汇聚与共享,解决信息资源单一、相互独立的问题。一是数据鲜活。系统提供互联网采集工具自动完成数据采集,通过智能采集信息资源,不断丰富数据资源数量和类型,保证了数据的鲜活性。二是数据资源共享。为应用系统对接接口设立独立的服务资源目录及接口注册功能,以统一管理应用系统对接接口,促进应用系统对接接口的标准化、规范化管理。三是一次录入、避免重复。系统结合OCR和机器自学习技术,实现表单信息及表单结构快速提取并通过一次录入完成多系统对接,解决重复录入问题,提高工作效率。