算法一：概述

概述

1. 算法

算法algorithm，来自于数学领域。算法的种类也很多，有好有坏。我们用时间复杂度和空间复杂度来衡量一个算法的好坏。
算法在实际开发中主要用在下面：

运算：比如超大整数进行运算；
查找：搜索引擎搜索内容，以及数据库查找
排序：各种排序算法
最优决策

2. 数据结构

数据结构是数据的组织、管理和存储格式，其使用目的是为了高效的访问和修改数据。
数据结构的组成有下面几种：

线性结构：最简单的结构，包括数据、链表、栈、队列、哈希表等。
树：二叉树、二叉堆。
图：元素间多对多的关系，更复杂的一种数据结构。

时间复杂度

1. 概念

时间复杂度是用来评估一段算法执行时间的长短。受运行环境和输入规模的影响，代码的绝对执行时间是无法预估的，但我们却可以预估代码的基本操作执行次数。假设输入规模是n，那么会有一个函数T(n)来表示当前算法的执行次数。

2. O(n)官方定义

若存在函数f(n)，使得当n趋近于无穷大时，T(n)/f(n)为不等于0的常数，则称f(n)是T(n)的同量级函数。记作T(n)=O(f(n))。O为算法的渐进时间复杂度。也被称为大O表示法。

3. 举例

T(n)=3n，那么去掉最高阶系数3之后的渐进时间复杂度就是O(n)。
T(n)=5logn，去掉最高阶系数5，T(n)=O(logn)
T(n)=2，去掉最高阶2，T(n)=O(1)
T(n)=0.5n²+0.5n，还是以最高阶为准，去掉系数之后就是T(n)=O(n²)。

空间复杂度

1. 概念

算法的执行除了上面说的时间成本，还有空间成本。因为算法在执行指令的过程中，需要存储一些中间数据。存储这部分数据的成本，称之为空间成本。因为内存是优先的，所以在时间复杂度相同的情况下，空间复杂度越小越好。

和时间复杂度一样，我们也用O(n)来标示算法在执行过程中占用的内存空间。

2. 常见的空间复杂度

常量空间：算法的存储空间和输入规模无关，那么空间复杂度记作O(1)。比如向字典中插入一个数据。
线性空间：算法分配的空间是一个线性集合，并且集合大小和输入规模成n成正比。那么空间复杂度记作O(n)。
二维空间：比如一个二位数组，集合的长度和宽度都和输入规模n成正比。记作O(n²)
递归空间：有一类比较特殊的程序，自己内部会调动自己，我们称之为递归调用。
1. 计算机在执行程序的时候，会专门分配一块内存，用来存储方法调用栈。
2. 方法调用栈分为进栈和出栈两个行为：当进入一个新方法时会执行进栈操作，方法执行完再执行出栈操作。
所以，执行递归操作所需要的内存空间和递归的深度成正比。如果递归的深度是n，那么空间复杂度就是O(n)。

3. 时间和空间复杂度的取舍

在绝大多数时候，时间复杂度更重要，我们宁可多分配一些内存空间，也要提升程序的执行速度。

数组

1. 基本介绍

(1) 对应的英文是array。有限个相同类型变量组成的有序集合。数组中的每一个变量成为元素。

(2) 数组在内存中是连续的。也就是说顺序不能乱，而且也不能跳过某个存储单元。

(3) 数组的下标从0开始，一直到长度-1的位置

2. 基本操作

(1) 读取和更新元素

根据下标index，从数组中拿到该元素，直接取值和赋值就可以了。

(2) 插入元素

根据插入位置的不同，分为中间插入和尾部插入。

尾部插入：直接把元素放在数组最后空闲位置即可。
中间插入：稍微复杂一些，需要从数组尾部元素开始，一直到插入点index，依次向后挪一位。从而把待插入点的位置空出来，然后把元素插入进去。

(3) 超范围插入（数组扩容）

上面说的插入元素，都是在插入后长度不超过数组原长度的情况下进行。但还有一种情况，就是插入元素后，导致数组长度超出之前的长度。这就需要对数组进行扩容。

扩容的方法很简单，再创建一个新数组，长度是旧数组的2倍。然后把旧数组中的元素全部复制过来，就实现了数组扩容。

(4) 删除元素

这个就简单多了，把要删除index后的元素，依次向前挪动一位就可以了。

3. 时间复杂度

(1) 插入元素：涉及到扩容和挪位两部分，这两部分的时间复杂度都是O(n)，所以插入的时间复杂度也是O(n)。

(2) 删除元素：只有挪位的操作，时间复杂度是O(n)。

(3) 删除时不记顺序：有这么一种骚操作，在删除一个元素的时候，后面的元素不进行挪位。而是直接把最后一个元素复制到被删除的位置上，然后再把最后一个元素删除掉。这样的时间复杂度是O(1)，但代价是数组顺序发生改变。一般不常用。

4. 数组的优势和劣势

(1) 优势：高效的随机访问能力，只要给出下标，就能以常量的时间找到对应的元素。

(2) 劣势：由于数组在内存中是连续存储，所以插入和删除元素，必然会带动大量元素的移动，影响效率。

总结：数组适合读操作多，写操作少的情景。

链表

1. 基本介绍

(1) 物理上一种非顺序，非连续的数据结构，由若干个节点组成。

(2) 第一个节点成为头结点，最后一个节点成为尾节点。

(3) 单向链表：每个节点有两部分构成：存放数据的变量data，指向下一个节点的指针next。单向链表只能通过一个节点找到它的下一个节点，却不能找到上一个节点。

(4) 双向链表：每个节点由三部分组成，除了data和next之外，还有一个指向上一个节点的prev指针。双向链表中，我们可以通过prev来找到上一个节点。

(5) 数组在内存中是占用了一片连续完整的内存空间，而链表则是见缝插针。链表分布在内存中的不同位置，依靠next和prev来关联起来。

2. 基本操作

(1) 查找节点

链表不能快速定位，只能从头节点开始，依次next来查找给定的index。时间复杂度是O(n)

(2) 更新节点

主要还是查找的耗时，更新的过程和数组一样。

(3) 插入节点

因为链表是不连续的，所以不需要像数组那样考虑扩容。只要内存空间足够，可以一直添加。根据插入位置的不同，分为下面三种情况：

尾部插入：把最后一个节点的next指向新节点即可。
头部插入：把新节点的next指向原头节点，再把新节点变为链表的头结点。
中间插入：同样很简单，先把插入点的前置节点的next指向新节点，然后再把新节点的next指向原插入的节点。

(4) 删除节点

同样根据删除节点位置的不同分为下面几种情况：

头部删除
中间删除
尾部删除

3. 时间复杂度

(1) 查找过程的时间复杂度是O(n)。

(2) 插入和删除，如果不考虑查找的过程，那么单纯操作的时间复杂度是O(1)。

4. 数组和链表对比

(1) 数组的优势是快速定位元素，适合读操作多，写操作少的情况。

(2) 链表的优势在于能灵活的插入和删除元素，如果需要在尾部频繁的插入、删除元素，链表更合适。

栈和队列

1. 物理结构和逻辑结构

(1) 物理结构是实实在在的结构。比如上面说的数组和链表都是内存中实实在在的存储结构，所以属于物理结构。

(2) 逻辑结构是抽象的概念，它依赖于物理结构而存在。比如后面说到的栈和队列，他们的实现方式皆可以是数组也可以是链表。

2. 栈的Stack基本介绍

(1) 比如一个羽毛球筒，一端有底，一端有口。我们向里面放入羽毛球。那么就会出现先放入的最后拿出，后放入的先拿出。这就是典型的栈stack。

(2) 栈是一种线性结构，栈中的元素只能先入后出FILO（First In Last Out）。最先进入的元素是栈底，最后进入的是栈顶。

(3) 栈既可以用数组来实现，也可以用链表来实现。

3. 栈的基本操作

就两种：入栈和出栈。

(1) 入栈Push：把一个元素放入栈中。只能从栈顶一侧放入，新入栈的元素会成为新的栈顶。

(2) 出栈Pop：把元素从栈中弹出。只有栈顶的元素才允许出栈。如果要把栈中间的元素出栈，那么必须先让栈顶的元素依次出栈才可以。

4. 队列Queue的基本介绍

(1) 类似于汽车排队过隧道。一端进，一端出，方向不能改变。

(2) 队列遵循的是先入先出FIFO（First In First Out）原则。队列的出口端叫队头，队列的入口端叫队尾。

(3) 队列的实现既可以用数组也可以用链表。

注意：在使用数组来实现的时候，要在数组最后多留一个空位，这个空位是队尾。当新元素入队的时候，直接放到这个队尾就可以了。

5. 队列的基本操作

(1) 入队
如果是用数组实现，那么就把新元素放到队尾空白位上。

(2) 出队
把队头的元素移除队列。只允许队头一侧移除元素。出队元素的后一个元素会成为新的队头。

(3) 循环队列
1) 在用数组实现队列的时候，会有这样的问题：随着出队元素的增多，队头左侧的空间就失去作用，队列的容量也会越来越小。如果出队和入队频繁的发生，一遍是数组开头空出大量空闲位置，另一方面数组还在不断扩容。
2) 这时候循环队列就出现了。在标记好队头和队尾元素的情况下，新插入的元素，优先去占已经移除队列的坑。打破原有的存储顺序。让数组的空间更加合理的利用起来。

6. 栈和队列的应用

(1) 栈的应用
通常用于对“历史”的回溯。比如从浏览网页返回上一级，再返回上上级。

(2) 队列的应用
通常用于对“历史”的回放。比如多线程等等队列，就要根据谁先加进来，谁先执行。

(3) 双端队列
结合栈和队列的特性：既可以先入先出，也可以后入先出。

散列表

1. 基本介绍

散列表也叫做哈希表hash table。这种数据结构提供了键key值value的映射关系。只要给出yigekey，就可以高效查找到它所匹配的value，时间复杂度接近于O(1)。

2. 哈希函数

(1) 在上面介绍的数据结构中，数组的查找效率最高。但是数组只能根据下标index进行查找，而散列表的key是字符串。所以我们需要一个中转站，来将可以转换为数组的index，这个中转站就是哈希函数。

(2) 哈希函数在不同语言中的实现方式不一样。

3. 散列表的写操作

(1) 步骤

先通过哈希函数，把key转换为index。然后看下数组在该下标的元素是否为空。如果为空就直接存入。如果不为空，那就是典型的哈希冲突了。

(2) 哈希冲突

随着数据的增多，哈希冲突不可避免。所以我们必须要有解决方案。常用的有两种：开放寻址法和链表法。
1) 开放寻址法：就是要插入的index被占用了，那么就去寻找其它没被占用的index。比如依次向后查找。
2) 链表法：这是一个重点了，Java的HashMap使用的就是这种。
HashMap数组的元素不仅仅是一个Entry对象，还是一个链表的头结点。每个Entry对象通过next指向她的下一个Entry节点。当新来的Entry映射到与之冲突的数组位置时，只要插入到对应的链表中即可。

4. 散列表的读操作

读操作和写操作差不多。也是通过哈希函数从key得到index。然后去数组中取值。如果对应index元素的key和要查找的key一直，那么直接取值即可。如果不一直，那么就查找该index开头的链表。在该链表中依次查找key相同的就可以了。

5. 散列表的扩容

(1) 散列是基于数组的，既然数组要扩容，那么散列也会遇到扩容的问题。

(2) 什么时候需要扩容
经过多次元素插入，散列表达到一定的饱和度，key映射位置发生冲突的概率会逐渐提高。这样一来，大量元素拥挤在相同的数组下标位置，行成很长的链表。对后续插入操作和查询操作都有很大的影响。这个时候，就需要扩容了。

(3) JDK中HashMap影响扩容的两个因素：

Capacity：当前HashMap的长度
LoadFactor：HashMap的负载因子，默认值是0.75f。

当HashMap满足下面的条件时，就行需要进行扩容：
```
        HashMap.size >= Capacity * LoadFactor```
        
```

(4) 扩容的过程

新建一个新的Entry数组，长度为原来的2倍。

重新Hash：遍历原Entry数组，把所有的Entry重新hash到新数组中。经过扩容，原本拥挤的散列表又会变得稀疏。以前的那些常常的链表也会小时很多。

算法一：概述