所谓的大数据及个人随笔

所谓的大数据:

在2016年12月左右我开始接触大数据,作为一个大三的老腊肉突然转方向是需要多大的勇气啊(鬼知道当时是谁给我的勇气,可能是梁静茹吧),简直就是在用自己的前途去赌啊。下面说下我的探索之路吧:

刚开始以为搭一些大数据相关的东西(如:spark,kafka,flume等等)就是大数据了,寒假还学了一门挺坑爹的语言scala(没有return表示很辛苦,for循环也很奇葩,但是现在我在用着)

那么大数据到底是什么呢?

大数据:大量的数据。对,就是这么简单没有别的其他意思。

这样就引申一个问题那大量的数据就是大数据的话,大数据是干嘛的?

数据挖掘:对数据进行挖掘,挖掘出有用的信息。无论是对excel表进行数据处理整理出有用的信息,还是对大量的数据进行清洗、处理、转换得到有用的信息,这都是数据挖掘。这也就是大数据的应用。

数据挖掘可以分一下几个方向:

1、ETL

2、机器学习

3、人工智能(深度学习)

ETL:对数据进行清洗(Extract)、转换(Transform)、加载(Load)。将数据从一个/多个地方(如:移动app,web app log,db,hdfs等)提取出来进行清洗,然后转换成自己需要的格式、加载到某个/某多个地方(hive,hbase,hdfs等)。在这个过程中可能用到聚类、回归、分类等算法,或者用到机器学习的模型。

机器学习:所谓的机器学习就是找一个适用的函数。首先你要自己进行数学建模,就是说解决这个问题需要用什么样的数学模型(什么函数)。确定好函数后但是函数的参数是未知的(如:y=ax+b中的a,b就是未知的参数)。求这些未知参数的过程就是训练,求出哪些参数能使得函数能够适度的拟合训练的数据(这里使用"适度"不是很好的原因是很好的拟合就可能出现过拟合。有兴趣的可以百度/谷歌一下过拟合)。

那么得到这样一个函数有什么用呢?

这里举个例子:例如你是用excel表的单元格自动填充,某列前5个单元格的值是1,2,3,4,5。那么我拖动单元格它(假设拖到第10个单元格),第6到第10个单元格的值就是6,7,8,9,10。它是怎么知道我要填充的是6,7.8,9,10呢?有一个函数y = x 这样不就好了吗?在excel表里有现成的函数,但是在其他一些地方就没有现成的了,怎么办?自己建模,假设函数模型是y = ax + b的线性模型,那么我们要求得就是a跟b,把前5个的函数作为x,单元格的值作为y那么不是很轻松算出a=1,b=0了吗。说了那么多那这个函数到底有什么用啊,它的作用是预测,预测一个未知值对应的输出,如第6行未知,输入x=6得出y=6。这就是预测

深度学习:深度学习是机器学习的一个分支。其实也是函数调参,本人没有过多的了解。

还有一个所谓的大数据开发/研发:其实这个囊括的东西挺多的,不同类型规模对这个岗的要求都不太一样,主要是有ETL数据挖掘结合的要求或者对现有的大数据框架进行二次开发

个人随笔:

前几天跟现在实习的公司提交了辞职申请,实习并没有做大数据,招我进去的时候跟我说是搞大数据然后搞了几个月的后台,而且项目原本是公司外包出去的项目,现在接回来自己弄,从项目的架构到数据库表的设计,代码的逻辑,数据结构等等都一塌糊涂,本人在弄大数据前做过一阵子web开发,看过某些著名框架的源码,在数据库表设计、项目架构方面还是很挑剔的。做了差不多三个月了受不了这代码这设计,所以辞职了。辞职后也挺担忧的,毕竟没有多少项目经历,现在在城市中小企业毕竟多招数据挖掘、大数据这些的公司还是相对较少的,还有三个月的房租,忧愁啊~~~可是真的不想再做这种浪费时间的事了,哎,愿明天会更好吧

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容