大数据挖掘技术,或称数据挖掘(Data Mining),是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个过程涉及到对数据的预处理、选择合适的算法以及结果的分析和解释。
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
大数据挖掘的流程可以分为以下几个步骤:
1.定义问题:清晰地定义出业务问题,确定数据挖掘的目的。
2.数据准备:包括选择数据和数据预处理。选择数据是指在大型数据库和数据仓库目标中提取数据挖掘的目标数据集;数据预处理则包括检查数据的完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。
3.数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法,在净化和转换过的数据集上进行数据挖掘。
4.结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。
大数据挖掘技术可以帮助人们更好地理解数据,发现隐藏在数据中的价值,并做出更明智的决策。