人类知识的保存对文明的进展至关重要,现在和未来皆然。由于绝大多数的新数据都以数字化的方式存在,因此对于可靠的数字存储需求比以往任何一个时候都要更加强烈。因此数据存储成为移动互联网大趋势中的一个重大的挑战。而公子义认为的解决之道,在于透过新兴且正快速成长的领域——大数据分析。
由于每年数据存储量快速增长,对可靠的数据储存需求显得格外迫切。的确,移动互联网时代大数据的产出量较实际被存储的要多更多,例如欧洲核子研究组织(CERN) 的大型强子对撞机以光速进行粒子对撞时,每秒产生的数据量将近有1PB (petabyte);但是这类的数据,CERN每年只能储存大约25PB,约当于8,333个3TB的硬盘。
当数字存储器被制造时,其运作就像智慧传感器,能够感知自身的状态和质量,而且能够将自身的感测日志储存起来。数字存储器将会进行许多天的测试,期间并产出好几个MB的测试、诊断、配置数据,每个数字存储器所记录的变量多达1,000个。此外,数字存储器中每个重要零件的信息都会被收集起来,例如零件是如何被组装、每个零件和数字存储器是何时何地被制造、使用哪一种韧体、销售给谁、以及其他许许多多的各种信息。
将这些参数、特性和量测数据集结起来,可产生数十万个组合和相互依存的参数。无论是针对单一组合还是进行总体分析,都需要新方法、新工具,将重要的参数和信息从噪声中萃取出来。影响数字存储器质量、可靠性和效能的变量和参数非常多,传统的数据分析方法已无法处理制造过程中所产出和收集的数据。
那么我们要如何因应数字存储器质量和可靠性所面临的挑战呢?
透过大数据分析所具备的先进统计分析和机器学习技术,可以将传统分析方法无法从大量数据或琐碎的执行数据中洞察到的答案分析出来。利用大数据分析处理大量可得的数据,可协助监控产品质量及尽快排除问题。
公子义认为,为了利用大数据分析确保数字存储器的可靠性,我们要做的第一件事,就是建立一套强大的、连贯的、端对端的数据采集流程,以捕捉所有重要的信息并进一步分析。这些数据应该随需即得、触手可及。而所谓的连贯性,是指必要时所有片段数据都能组合起来。每个数字存储器都必须符合这个流程,从工厂里每个主要零件的制造日和制造地开始,到组装生产线、配置和测试的天数、利用它们来组装计算机或储存系统的客户、直到最终使用者等涵盖数字存储器所有生命周期的数据。
其次,我们需要储存架构和一套适用于大数据分析和复杂数据挖掘的生态体系。亦即,传统用来运行关系数据库的EnterpriseData Warehouse架构,必须辅以适用于分布式分析和平行运算的解决方案,提供一个现代化的生态体系,支持SQL数据库,以及尽可能储存所有型态的数据(包括结构式与非结构式)和优化并行存取效能。
第三,需要大数据分析运算和解决方案的专业人员:真正的大数据科学家能利用最先进的机器学习技术,处理极大的数据集,并无缝连结所有最好的编程环境和语言、机器学习库、以及将高度分散的储存和分析生态体系串连起来。综合这些能力,他们可以了解测试时所产生的复杂数据,确保最高的产品质量、可靠性和效能。
目前数字存储器已经实行的方法,而且已经显著地协助我们增进产品质量—这意味着有更多数据可以被保留下来,供未来撷取和使用。
现代的挑战,需要用现代化的方法解决。如果没有大数据分析和机器学习技术,要制造能够储存全球所有数据的高可靠性储存装置,并且达到每季出高达数千万台的产量,将是不可能的任务。
公子义【微信号gongzi348】80后,90后心理研究专家,4年心理学,9年大数据研究者,专注于移动互联网,大数据究狂热爱好者,热爱写作。未经许可,严禁转载,违者追究法律责任。