
一、适用范围
本标准规范给出大数据在工业领域的参考架构,规定了各组成部分(构件)的基本功能。适用于工业大数据开发、管理和应用。
二、引用文件参考
参考1:大数据之术语和定义
参考1:大数据之技术参考模型
三、术语和定义
1.1 工业大数据 industrial big data
大数据理论及技术在工业领域中的应用。
1.2 大数据工业应用参考架构 industrial big data application reference architecture; IBDRA
对工业大数据内在需求、设计结构和运行进行开放性探讨的高层概念模型。
注:一般包含系统协调者、数据提供者、数据消费者、大数据应用提供者、大数据框架提供者5个逻辑功能构件。
四、缩略语
下列缩略语适用于本文件:
BOM:物料清单(Bill of Material)
CAD:计算机辅助设计(Computer Aided Design)
CAE:计算机辅助工程(Computer Aided Engineering)
CAM:计算机辅助制造(Computer Aided Manufacturing)
CAPP:计算机辅助工艺规划(Computer Aided Process Planning)
CAX:计算机辅助技术/系统(Computer Aided X)
CRM:客户关系管理(Customer Relationship Management)
DNC:分布式数控设备联网(Distributed Numerial Control)
ERP:企业资源计划(Enterprise Resource Planning)
IBDRA:大数据工业应用参考架构(Industrial Big Data Application Reference Architecture)
MES:制造执行系统(Manufacturing Execution System)
NC:数字控制(Numerial Control)
PLM:产品生命周期管理(Product Lifecycle Management)
POSIX:可移植操作系统接口(Portable Operating System Interface)
SCADA:数据采集与监视控制(Supervisory Control and Data Acquisition)
SCM:供应链管理(Supply Chain Managment)
五、参考架构
本标准规范在大数据之大数据参考架构BDRA的基础上,针对工业领域应用,进一步细化了数据提供者和数据消费者,明确了“工业”领域的应用提供者。定义的IBDRA如上图所示。
六、参考架构构件功能
1. 系统协调者
系统协调者的主要功能是规范和集成数据应用活动,具体功能包括四个方面:
a) 配置和管理BDRA中其他组件执行一个或多个工作负载,以确保各工作项能正常运行;
b) 负责为其他组件分配对应的物理或虚拟节点;
c) 对各组件的运行情况进行监控;
d) 通过动态调配资源等方式来确保各组件的服务质量水平达到所需要求。
系统协调者的功能可由管理员、软件或二者的组合以集中式或分布式的形式实现。
2. 数据提供者
2.1 概述
数据提供者的主要功能是将原始数据收集起来,经过预处理提供给工业大数据应用提供者。
此构件主要包括数据源和系统两部分。数据源产生原始数据,之后通过各种信息系统的收集、分析和分类,提供给工业大数据应用提供者。
2.2 数据源
主要功能是提供原始数据。任何实体以及实体的活动都可能是数据源,例如:各类人员、工业软件、生产设备装备、产品、物联网、互联网、其他软件等各类实体、以及企业活动、人员行为、装备设备运行、环境检测、物联网和互联网运行等各类活动多可能产生数据。
IBDRA以示例形式列出了以下三大类数据源:
a) 产品:是工业应用数据的核心数据源。
以产品的整个生命周期过程为主线,从时间上覆盖产品市场调研、概念设计、详细设计、工艺设计、生产准备、产品试制、产品定型、产品销售、运行维护、产品报废和回收利用等过程,从空间上覆盖企业内部、供应链上的企业及最终用户,都在产生产品相关数据。这些数据影响许多与产品相关的其他数据源所产生的数据,支持不同的工业应用。
产品相关数据,其表现形式有很多,例如:产品结构和配置、零件定义及设计数据、CAD三维模型和二维图纸文件、工程分析及验证数据、制造计划及规范、CAD/CAM编程文件、图像文件(照片、造型图、扫描图等)、产品说明书、软件产品(程序、裤脚、函数等“零部件”)等结构化和非结构化数据。具体描述形式取决于设计者设计时的考虑。
b) 工业物联设备:是工业大数据新的、增长最快的来源。
工业生产设备在物联网运行模式下,产生、收集涵盖操作和运行情况、工况状态、环境参数等数据。
工业生产设备产生的数据,其表现形式有很多,例如:设备接口、智能传感器产生收集的涵盖设备运行参数、工况状态参数、运行环境参数等评估生产设备运行状态、产品运行状态的数据。具体表现形式取决于设备的功能和使用者的需求。
c) 生产经营及外部互联网:是与工业企业生产活动和产品相关的企业外部互联网,是保障工业应用的支撑数据源。
生产经营及外部互联网数据主要来自传统企业信息化范围,被收集存储在企业信息系统内部。
生产经营及外部互联网数据,其表现形式有很多,例如:企业信息系统累计的产品生产研发数据、试验数据、生产数据、客户信息数据、物流供应数据、环境数据;用户通过互联网发表的与企业产品相关的评论数据、第三方机构提供的用户调查数据、评价企业环境绩效的环境法规、预测产品市场的宏观社会经济数据等。具体表现形式取决于生产经营活动的需求。
2.3 系统
主要功能是对数据源产生的数据进行收集、分析与分类,然后提供个工业大数据应用提供者。此类系统有很多,主要包括CAD、CAM、CAE、CAPP、PLM、MES、SCADA、DNC、ERP、SCM、CRM等。具体如下:
a) CAD:用于生成产品的图形化数据,是所有产品数据的源头,包括非结构化数据(文件)和结构化数据(从文件中提取出的产品属性、BOM结构和物料清单数据等)。产生的数据可为设计、绘图、工程分析与文档控制等设计活动提供支持。
b) CAM:一般具有数据转换和过程自动化两方面的功能。CAM在CAD模型基础上,生成和仿真优化数控加工用的指令代码数据。产生的NC代码可驱动机床设备运行,进行生产设备管理、控制和操作。
c) CAE:一般采用CAD系统来建立CAE的几何模型和物理模型,完成分析数据的输入,主要处理、分析和优化复杂工程和产品的力学性能等数据。系统产生的结果数据可生成形象的图形输出,为设计活动提供支持。
d) CAPP:通过向计算机输入被加工零件的几何信息(形状、尺寸等)和工艺信息(材料、热处理、批量等),来生成产品和零件的工艺路线、工序内容等加工工艺过程文件。
e) PLM:用于收集和分类干礼产品相关结构化和非结构化文件数据,并记录相关角色、环节间的协同过程数据。
f) MES:用于收集、管理和优化车间层的制造过程数据。MES在接收订单开始制成最终产品的全部时间范围内,采集来自产品、工业物联设备以及生产经营相关的各种数据信息和状态信息,与上层业务计划层和底层过程控制层进行信息交互。
g) SCADA:用于收集和管理自动化设备的 运行参数、控制、测量及各类信号报警等数据,并向现场连接的设备发送控制命令。
h) DNC:用于收集、管理和控制数控机床设备的输入、输出数据。其中涉及的数据实体包含四类:
1) 与制造设备硬件相关的数据实体(如机床等);
2) 与人机通信相关的数据实体(如通信协议实体和串口通信实体);
3) 数控数据实体(如NC程序号、刀具号、工序号);
4) 输入操作指令或派工单实体。
i) ERP:围绕企业的业务流程,用于收集和管理企业的物质资源、人力资源、财务资源等数据。
j) SCM:围绕企业业务协作过程,用于收集和管理企业与上下游合作伙伴间的协作数据。
k) CRM:用于收集和管理企业与客户间的交易和服务数据。
3. 大数据应用提供者
3.1 概述
大数据应用提供者主要围绕数据消费者需求,将来自数据提供者的数据进行处理和提取,提供给数据消费者。
主要包括收集、预处理、分析、可视化和访问五个活动。
3.2 收集
负责处理与数据提供者的接口和数据引入。
由于工业数据的种类、格式很多,且开放程度差异很大,缺少统一标准,需要根据数据格式、类型,通过引用对应的工业应用或构件,完成数据的识别和导入。
3.3 预处理
预处理包括数据清洗、数据归约、标准化、格式化和存储。
数据清洗和数据归约是为规避噪声或干扰项给后期分析带来困难,针对首次采集获得的多维异构数据执行的同构化预处理。
数据标准化、格式化处理如:元数据处理和标识管理。具体如下:
a) 元数据处理包括对订单数据、产品元数据、供应商能力等进行定义和规范;
b) 标识管理包括分配与注册、编码分布与测试管理、存储与编码规范、解析机制等。
数据存储主要采用大数据分布式云存储的技术,将预处理后的数据有效存储在性能和容量都能线性扩展的分布式数据库中。
3.4 分析
基于数据科学家的需求或垂直应用的需求,利用数据建模、处理数据的算法,以及工业领域专用算法,实现从数据中提取知识的技术。
例如,对无法基于传统建模方法建立生产优化模型的相关工序建立特征模型,基于订单、机器、工艺、计划等生产历史数据、实时数据及相关生产优化仿真数据,采用聚类、分类、规则挖掘等数据挖掘方法及预测机制建立多类基于数据工业过程优化特征模型。
3.5 可视化
对经处理、分析运算后的数据,通过合适的显示技术,如大数据可视化技术、工业2D或3D场景可视化技术等,呈现给最终的数据消费者。
3.6 访问
与可视化和分析功能交互,响应数据消费者和应用程序的请求。
4. 大数据框架提供者
4.1 概述
大数据框架提供者的职责是为大数据应用提供者在创建具体应用时提供使用的资源和服务。大数据框架提供者包括基础设施、平台、处理框架、信息交互/通信框架和资源管理5个活动。
4.2 基础设施
为大数据系统中的所有其他要素提供必要的资源,这些资源是由一些物理资源的组合构成,这些物理资源可以控制/支持相似的虚拟资源。这些资源分为下面几类:
a) 网络:从一个资源向另一个资源传输数据的资源;
b) 计算:用于执行和保持其他组件的软件的实际处理器和存储器;
c) 存储:大数据系统中保存数据的资源;
d) 环境:在建立大数据实例的时候必须考虑的物理厂房资源(电力、制冷等)。
4.3 平台
包含逻辑数据的组织和分布,支持文件系统方式存储和索引存储方法:
a) 文件系统:实施某种级别的POSIX标准以获取权限,进行相关的文件操作;
b) 索引存储:无需扫描整个数据集,便可以迅速定位数据的具体要素。
4.4 处理框架
提供必要的基础设施软件以支持实现应用程序能够满足数据数量、速度和多样性的处理。包括批处理、流处理,以及两者的数据交换与数据操作。
4.5 信息交互/通信框架
包含点对点传输和存储转发两种通信模型。在点对点传输模型中,发送者通过信道直接将所传输的信息发送给接收者;而在后者中,发送者会将信息先发送给中间实体,然后中间实体再逐条转发给接收者。点对点传输模型还包括多播这种特殊的通信模式,在多播中,一个发送者可将信息发送多个接收者。
4.6 资源管理
计算、存储及实现两者互联互通的网络连接管理。主要目标是实现分布式的、弹性的资源配置,具体包括对存储资源的管理和对计算资源的管理。
5. 数据消费者
通过调用大数据应用提供者提供的接口按需访问信息,与其产生可视的、事后可查的交互。
6. 安全和隐私
在安全和隐私管理模块,通过不同的技术手段和安全措施,构建大数据平台安全防护体系,实现覆盖硬件、软件和上层应用的安全保护,从网络安全、主机安全、应用安全、数据安全四个方面来保证大数据平台的安全性。
该构件主要包括以下四种功能:
a) 网络安全:通过网络安全技术,保证数据处理、存储安全和维护正常运行;
b) 主机安全:通过对集群内节点的操作系统安全加固等手段保证节点正常运行;
c) 应用安全:具有身份鉴别和认证、用户和权限管理、数据库加固、用户口令管理、审计控制等安全措施,实施合法用户合理访问资源的安全策略;
d) 数据安全:从集群容灾、备份、数据完整性、数据分角色存储、数据访问控制等方面保证用户数据的安全。
同时应提供一个合理的灾备框架,提升灾备恢复能力,实现数据的实时异地容灾功能,跨数据中心数据备份。
隐私保护主要是不暴露用户敏感信息的前提下进行有效的数据挖掘;根据需要保护的内容不同,可分为位置隐私保护、标识符匿名保护和连接关系匿名保护等。
7. 管理
该构件的主要功能覆盖以下各方面:
a) 提供大规模集群统一的运维管理系统,能够对包括数据中心、基础硬件、平台软件和应用软件进行集中运维、统一管理,实现安装部署、参数配置、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级和修复等功能;
b) 具有自动化运维的能力,通过对多个数据中心的资源进行统一管理,合理地分配和调度业务所需要的资源,做到自动化按需分配。同时提供对多个数据中心的信息技术基础设施进行集中运维的能力,自动化监控数据中心内各种信息技术设备的事件、告警、性能,实现从业务维度来进行运维的能力;
c) 对主管理系统节点及所有业务组件中心管理节点实现高可靠性的双机机制,采用主备或负荷分担配置,避免单点故障场景对系统可靠性的影响 。