大数据就业市场供小于求,人才高度紧缺,企业需求量大!IT行业圈子极大,工程师种类亦是繁多,为什么大家偏偏还要选择大数据呢?大数据时代波澜正兴,同学们站在时代前沿,又该如何争先未来!好程序员今日盘点,大数据10大专业术语,小白快快看过来!
算法。“算法”与大数据有何渊源?事实上,算法是一个通用的术语,正是大数据分析才使得它备受大家青睐并火速流行。
分析。年底大家最为期待的交易清单就可做此分析。来自各大信用卡公司邮寄来的全年的交易记录和年终报表,都可以进一步分析大家一年的消费情况以及各种支出的占比。当大家从数据中吸取经验,便可对未来的消费支出做成充分决策。
描述性分析。显而易见,我们可从一年信用卡的消费详情上得出结论,食物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、剩下的就是其他事项的消耗,这种便是描述性分析。
4.云计算。何为云计算,这里我们不做多述。未云计算的本质是在远程服务器上运行
的软件和(/或)数据托管,并允许从互联网上的任何地方进行访问。集群计算。它是一种利用多台服务器的汇集资源的“集群”来进行计算的奇特方式。在了解了更多技术之后,我们可能还会讨论节点、集群管理层、负载平衡和并行处理等。
黑暗数据。这一数据具有非常特别的性质,从本质上看,,黑暗数据是指那些被企业收集和处理但又不用于任何有意义用途的数据,因此描述它是“黑暗的”,它们可能永远被埋没。它们可能是社交网络信息流、呼叫中心日志、会议笔记,诸如此类。人们做出了诸多估计,在60-90%的所有企业数据都可能是“黑暗数据”,但无人真正知晓。
数据湖。数据湖是一个原始格式的企业级数据的大型存储库。在这里,我们还需要讨论下数据仓库,因为数据湖和数据仓库在概念上是极其相似的,都是企业级数据的存储库,但在清理和与其他数据源集成之后的结构化格式上有所区别。
数据仓库常用于常规数据(但不完全)。据说数据湖能够让用户轻松访问企业级数据,用户真正按需知道自己正在寻找的是什么、如何处理并让其智能化使用。拥抱开源技术的前提——认识数据湖 你知道数据湖泊(DATA LAKE)吗?数据挖掘。数据挖掘是指利用复杂的模式识别技术从大量数据中找到有意义的模式、提取见解。这与我们前文讨论的使用个人数据做分析的术语“分析”密切相关。为了提取出有意义的模式,数据挖掘者使用统计学(是呀,好老的数学)、机器学习算法和人工智能。
分布式文件系统。由于大数据太大而无法在单个系统上进行存储,分布式文件系统提供一种数据存储系统,方便跨多个存储设备进行大量数据的存放,并有助于降低大量数据存储的成本和复杂度。
ETL。ETL分别是extract,transform,load的首字母缩写,代表提取、转化和加载的过程。 它具体是指“提取”原始数据,通过数据清洗/修饰的方式进行“转化”以获得 “适合使用”的数据,进而“加载”到合适的存储库中供系统使用的整个过程。尽管ETL这一概念源于数据仓库,但现在也适用于其它情景下的过程,例如在大数据系统中从外部数据源获取/吸收数据。