大数据前序

时至今日，计算机软件成为人们日常生活的必备品。能用计算机软件提高效率的地方，几乎已经被全部发掘过了。在这种情况下，如果想让软件再成百上千倍地提高我们的生活和工作效率，使用以前的那套“分析用户需求和业务场景，进行软件设计和开发”的做法显然是不可能的了。

那如何走出这个困局呢？我们必须能够发掘出用户自己都没有发现的需求，洞悉用户自己都不了解的自己。我们要能够预测用户的期望，在用户还没想好要做什么的情况下，主动提供操作建议和选项。
怎么实现呢？那就是大数据技术和机器学习技术。大数据可以尽可能的记录客户所有数据，在海量数据中挖掘有用数据，利用AI洞悉用户自己都不了解的自己，用户自己都没有发现的需求。大数据技术和机器学习技术要做的事就是挖掘人自身都可能不清楚喜好的事和物，因为需求的再次通过数据挖掘可以发觉未知的东西，这样在原先的基础之上更有效率的提高了我们的生活标准和便捷。

在未来，软件开发将是“面向 AI 编程”，软件的核心业务逻辑和价值将围绕机器学习的结果也就是 AI 展开，软件工程师的工作就是考虑如何将机器学习的结果更好地呈现出来，如何更好地实现人和 AI 的交互。

哪些领域需要大数据？

大数据与业务的结合，在每个垂直领域、每个垂直领域的细分领域，将大数据和业务场景结合起来，利用大数据发现新的业务增长点。一方面要掌握大数据的知识；另一方面，要掌握业务知识，甚至得成为业务领域的专家，能发现业务中可以和大数据结合的点，利用大数据和业务结合构建起技术驱动业务的增长点，这需要你在业务中有敏锐的观察力和领悟力。

1、医疗健康
例如医院会有大量X影片。使用好大数据与AI影像识别，就可以做到识别病情比医生还准

2、教育
学校有大量教育资料与经验，利用大数据技术进行机器学习与训练，可以尝试用AI外语老师或只能答题。

3、社交媒体
例如小视频都在抖这平台，利用大数据可以做到舆情监控和分析

4、金融
例如大数据风控

5、环保、交通、体育等
每天都有大量摄像头或传感器监测到数据啊。几乎所有行业都可能会用到大数据

大型网站架构图

网站架构图.png

当前最主流的大数据技术栈

存储：HDFS、HBase
缓存：Redis
批处理计算：Spark
流处理计算：Flink
搜索：Elasticsearch
AI：TensorFlow
消息中间件：Kafka
为分布式应用提供一致性服务：Zookeeper

image.png

从零开始的同学们，我建议的学习路线是：Linux、Hadoop、Zookeeper、HBase、Kafka、Elasticsearch、Flink。Flink是目前最好的流处理计算框架，同时它也支持批处理，所以Spark可以放后点视情况学习吧。
后边再学习下 Redis、TensorFlow、ngInx、Docker、K8S、Pulsar，学无止境啊。

大数据前序