第一篇：大数据环境安装说明 |《自己动手做大数据系统》读书笔记

1 总体架构

本书浅显易懂，实战性强，以一个实战项目入手，系统性的介绍了如何做一个大数据系统的整个过程。本书另一个亮点是提供了在线演练平台http://www.feiguyun.com/support/。

实战项目的总体架构图：

书中详细的描述了如何利用爬虫、Sqoop等获取数据，如何利用HDFS、HBase等存储大数据，如何利用MapReduce、Hive、Pig、Python、Spark等技术处理大数据，如何利用Spark及R分析展示大数据的整个过程。

2 数据流程图

数据流图：

公共数据包括微信、微博、公共网站等公开的互联网数据。

企业应用程序的埋点数据包括软件系统的日志记录、页面的点击记录等行为数据。

企业结构化数据包括用户注册、交易等结构化数据。

3 各功能组件

4 实施规划

参考书中规划的集群节点，使用VirtualBox虚拟机及Ubuntu操作系统进行搭建。

规划如图：

Host-IP	HostName	CPU	MEM	OS	备注
192.168.1.245	master	2	2G	Ubuntu14.04	VirtualBox
192.168.1.247	slave01	2	2G	Ubuntu14.04	VirtualBox
192.168.1.249	slave02	2	2G	Ubuntu14.04	VirtualBox
192.168.1.153	客户端	2	8G	Win10

5 操作系统基础环境配置

客户端使用SSH分别登录到master,slave01,slave02，创建hadoop用户及用户组，修改hostname。以master为例：

client:~ client $ ssh user@192.168.1.245
user@192.168.1.245's password:  # 输入user用户密码
Welcome to Ubuntu 14.04.6 LTS (GNU/Linux 4.4.0-142-generic x86_64)

 * Documentation:  https://help.ubuntu.com/

68 packages can be updated.
58 updates are security updates.

Last login: Tue Apr 23 14:01:24 2019 from 192.168.1.153
user@master:~$ sudo groupadd hadoop
[sudo] password for user:   # 输入user用户密码
user@master:~$ sudo useradd -m -g hadoop hadoop
user@master:~$ sudo passwd hadoop
输入新的 UNIX 密码：          # 密码：hadoop
重新输入新的 UNIX 密码：       # 密码：hadoop
passwd：已成功更新密码
user@master:~$ vi /etc/hostname    # 如果不是master,则修改为master
user@master:~$ cat /etc/hostname
master

登录验证：

client:~ client$ ssh hadoop@192.168.1.245
hadoop@192.168.1.245's password: #  输入hadoop用户密码
Welcome to Ubuntu 14.04.6 LTS (GNU/Linux 4.4.0-142-generic x86_64)

 * Documentation:  https://help.ubuntu.com/

68 packages can be updated.
53 updates are security updates.

New release '16.04.6 LTS' available.
Run 'do-release-upgrade' to upgrade to it.

Your Hardware Enablement Stack (HWE) is supported until April 2019.
Last login: Wed Apr 24 15:24:53 2019 from 192.168.1.153
hadoop@master:~$ whoami # 当前有效用户名称
hadoop
hadoop@master:~$ umask # 默认权限
0002

slave01，slave02配置相同。

注意事项：

1、Win10 WSL下安装Hadoop会遇到很多坑，不建议使用。
2、Spark默认内存1G，虚拟机内存分配不能小于1G，否则Spark工作节点不能启动。

6 总结

随着互联网的普及、移动互联网的不断发展、5G的到临、物联网的逐渐渗透，大数据技术的影响会越来越深远。因此掌握大数据技术也越来越重要，而大数据依赖各项基础开发，如Linux、Shell、 Python、 Java、数据库、爬虫技术、数据分析、机器学习等都需要深入学习，并在工作中应用和实践。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,843评论 6赞 502
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,538评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,187评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,264评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,289评论 6赞 390
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,231评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,116评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,945评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,367评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,581评论 2赞 333
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,754评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,458评论 5赞 344
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,068评论 3赞 327
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,692评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,842评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,797评论 2赞 369
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,654评论 2赞 354

第一篇： 大数据环境安装说明 |《自己动手做大数据系统》读书笔记