一、大数据导论
1.1 企业数据分析方向
数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合,它是可识别的、抽象的符号。它不仅指狭义上的数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0、1、2…”、“阴、雨、下降”、“学生的档案记录、货物的运输情况”等都是数据。
企业数据分析方向是把隐藏在数据背后的信息集中和提炼出来,总结出所研究对象的内在规律,帮助管理者进行有效的判断和决策。数据分析在企业日常经营分析中主要有三大方向:
现状分析(分析当下的数据):现阶段的整体情况,各个部分的构成占比、发展、变动;
原因分析(分析过去的数据):某一现状为什么发生,确定原因,做出调整优化;
预测分析(结合数据预测未来):结合已有数据预测未来发展趋势。
1.2 数据分析基本步骤
典型的数据分析应该包含以下几个步骤
- 明确分析目的和思路
目的是整个分析流程的起点,为数据的收集、处理及分析提供清晰的指引方向;思路是使分析框架体系化,比如先分析什么,后分析什么,使各分析点之间具有逻辑联系,保证分析维度的完整性,分析结果的有效性以及正确性,需要数据分析方法论进行支撑;数据分析方法论是一些营销管理类相关理论,比如用户行为理论、PEST分析法、5W2H分析法等。
数据收集
数据处理
准确来说,应该称之为数据预处理。数据预处理需要对收集到的数据进行加工整理,形成适合数据分析的样式,主要包括数据清洗、数据转化、数据提取、数据计算;数据预处理可以保证数据的一致性和有效性,让数据变成干净规整的结构化数据。
- 数据分析
用适当的分析方法及分析工具,对处理过的数据进行分析,提取有价值的信息,形成有效结论的过程;
- 数据展现
数据展现又称之为数据可视化,指的是分析结果图表展示,因为人类是视觉动物;数据可视化(Data Visualization)属于数据应用的一种;注意,数据分析的结果不是只有可视化展示,还可以继续数据挖掘(Data Mining)、即席查询(Ad Hoc)等。
- 报告攥写
数据分析报告是对整个数据分析过程的一个总结与呈现,把数据分析的起因、过程、结果及建议完整地呈现出来,供决策者参考,需要有明确的结论,最好有建议或解决方案
1.3 大数据时代
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的特征可以简称为5V特征
Volume:数据体量大
Variety:种类、来源多样化
Value:低价值密度
Velocity:速度快
Veracity:数据的质量
1.4 分布式与集群
分布式、集群是两个不同的概念,但口语中经常混淆二者
分布式指的是多台机器,每台机器上部署不同组件
集群指的是多台机器,每台机器上部署相同组件
它们主要解决数据大爆炸,海量数据处理场景面临问题
二、Linux常用基础命令
2.1 Linux文件系统基础知识
操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统;文件系统的结构通常叫做目录树结构,从斜杠/根目录开始;Linux号称“万物皆文件”,意味着针对Linux的操作,大多数时间是在针对Linux文件系统操作。
几乎主流的文件系统都是从/根目录开始的,Linux也不例外,而windows文件系统会以盘符来区分不同文件系统;目录树中节点分为两个种类:目录(directory)、文件(file);从根目录开始,路径具有唯一性;只有在目录下才可以继续创建下一级目录,换句话说目录树到文件终止蔓延。
当前路径:也叫当前工作目录,当下用户所属的位置;
相对路径:相对当前工作目录开始的路径,会随当前路径变化而变化;
绝对路径:不管工作目录在哪,绝对路径都是从/根目录开始,唯一不重复。
常见的符号有
. 目录或者文件名字以.开始表示是隐藏的文件,如果路径以.开始表示当前路径
.. 当前目录的上一级目录
~ 当前用户的home目录,比如root用户home目录是/root
/ 根目录
2.2 Linux常用操作命令
Tab键可以实现自动补全和提示,要合理使用;
history命令可以显示历史执行记录,或者使用方向键来切换前后执行过的命令;
2.2.1 显示目录内容
-
ls(list files)命令:用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。
-a 显示所有文件及目录(.开头的隐藏文件也会列出)
-l 除文件名称外,亦将文件型态、权限、拥有者、文件大小等资讯详细列出注意ls -l = ll
2.2.2 切换目录
-
cd(change directory)命令:用于切换当前工作目录。切换的路径可为绝对路径或相对路径。若路径省略,则变换至使用者的home目录。
~也表示为home目录的意思
.则是表示目前所在的目录
..则表示目前目录位置的上一层目录
2.2.3 创建、删除
-
mkdir(make directory)命令:用于创建目录。
- -p 确保父目录名称存在,不存在的就建一个。
touch 命令:创建一个空文件,无任何内容。
-
rm(remove)命令:用于删除一个文件或者目录。
-f 强制直接删除,无需用户确认。
-r 将目录及以下所有递归逐一删除。
2.2.4 复制、移动
-
cp(copy file)命令:用于复制文件或目录。
- -r:若给出的源文件是一个目录文件,此时将复制该目录下所有的子目录和文件。
mv(move file)命令:用来为文件或目录改名、或将文件或目录移入其它位置。
2.2.5 文件内容查看
cat(concatenate)命令:用于连接文件并打印到标准输出设备如console控制台上。适合小文件内容查看。
more 命令:类似cat,不过会以一页一页的形式显示,更方便使用者逐页阅读,翻页结束自动退出。适合大文件查看。按space键翻下一页,按b往回(back)上一页
-
tail命令:用于查看文件的结尾部分的内容。
-n用于显示行数,默认为10,即显示10 行的内容。
-f 用于实时显示文件动态追加的内容。会把文件里的最尾部的内容显示在屏幕上,并且不断刷新,只要文件有更新,就可以看到最新的文件内容。
2.2.6 解压缩命令
-
tar(tape archive )命令:常用于备份文件。是用来建立,还原备份文件的工具程序,它可以加入,解开备份文件内的文件。
-c 或--create 建立新的备份文件。
-x 或--extract或--get 从备份文件中还原文件。
-v 或--verbose 显示指令执行过程。
-f <备份文件>或--file=<备份文件> 指定备份文件。
在打包备份或者解包的过程中,可以通过指定压缩算法,对打包的文件进行压缩,解压的时候也需要指定相应的算法。-z 或--gzip或--ungzip 通过gzip指令处理备份文件。
2.2.7 其他
|管道命令:将前一个命令执行的结果作为内容交给下一个命令处理。可以形成多级管道操作。
echo命令:用于内容的输出,将内容输出到console控制台上。
/> 输出重定向(覆盖)命令:command > file 执行command然后将输出的内容存入file,file内已经存在的内容将被新内容覆盖替代。
/>> 输出重定向(追加)命令:command >> file 执行command然后将输出的内容存入file,新内容追加在文件末尾。
2.3 Linux常用系统命令
2.3.1 时间、日期查看
date命令:用来显示或设定系统的日期与时间,在显示方面,使用者可以设定欲显示的格式,格式设定为一个加号后接数个标记。
cal(calendar)命令:用于用于显示当前或者指定日期的公历。
2.3.2 内存、磁盘使用率查看
free命令:用于显示内存状态。会显示内存的使用情况,包括实体内存,虚拟的交换文件内存,共享内存区段,以及系统核心使用的缓冲区等。
df(英文全拼:disk free)命令:用于显示目前在Linux 系统上的文件系统磁盘使用情况统计。
2.3.3 进程查看
ps (英文全拼:process status)命令:用于显示当前进程的状态,类似于windows 的任务管理器。
jps命令:这是JDK自带的命令,专门用于查看本机运行的java进程情况。
2.4 vi/vim文本编辑器
vi是一款很多unix及其延伸系统内置的文本编辑器,具有强大的文本编辑能力。vim是从vi发展出来的一个文本编辑器,可以理解为vi编辑器的增强版。vim中代码补完、编译及错误跳转等方便编程的功能特别丰富。vi/vim编辑器的核心设计思想:让程序员的手指始终保持在键盘的核心区域, 就能完成所有的编辑操作。
2.4.1 打开与新建文件
命令:vim /path/file
如果打开的文件不存在,此时就是新建文件,编辑器左下角会提示new file
如果文件已经存在,此时就打开这个文件,进入命令模式
2.4.2 vim编辑器3种工作模式
命令模式(Command mode):命令模式下,所敲的按键编辑器都理解为命令,以命令驱动执行不同的功能。此模型下,不能自由进行文本编辑。
输入模式(Insert mode):也就是所谓的编辑模式、插入模式。此模式下,才可以对文件内容进行自由编辑。
底线命令模式(Last line mode):以:开始,通常用于文件的保存、退出。
2.4.3 vim基本操作命令
方向键控制移动
翻页pageup pagedown
行首(home 0)行尾(end $)
跳到文件的最后一行G
跳到文件的第一行gg
-
复制
yy 复制光标当前所在行内容
nyy 复制当前行往下n行
-
粘贴
p 当前行的下一行粘贴
P 当前行的上一行粘贴
-
删除命令
dd 删除光标所在当前行内容
ndd 删除当前行往下n行
-
撤销、反撤销
u 撤销上一步的操作(后悔药)
ctrl+r反撤销