数据结构之算法

数据结构学习笔记

1. 算法定义

算法是解决特定问题求解步骤的描述，在计算机中表现为指令的有限序列，并且每条指令表示一个或多个操作。

2. 算法特性

算法具有五个基本特性：输入、输出、有穷性、确定性和可行性。

输入输出：算法一般具有零个或多个输入；但至少有一个或多个输出。

有穷性：指算法在执行有限的步骤之后，自动结束而不会出现无限循环，并且每一个步骤在可接受的时间内完成。

确定性：算法的每一步骤都具有确定的含义，不会出现二义性。算法在一定条件下，只有一条执行路径，相同的输入只能有唯一的输出结构。算法的每个步骤被精确定义而无歧义。

可行性：算法的每一步都必须是可行的，也就是说，每一步都能够通过执行有限次数完成。

3. 算法设计要求

一个好的算法应该具备以下特征：正确性、可读性、健壮性、高效率和低存储量。

正确性：算法的正确性是指算法至少应该具有输入、输出和加工处理无歧义、能正确反映问题的需求、能够得到问题的正确答案。
正确性大体分为以下四个层次：
1、程序没有语法错误。
2、算法程序对于合法的输入数据能够产生满意的输出结果。
3、算法程序对于非法的输入数据能够得出满足规格说明的结果。
4、算法程序对于精心选择的，甚至刁难的测试数据都有满足要求的输出结果。（一般可忽略）。

可读性：算法设计的另一目的是为了便于阅读、理解和交流。

健壮性：当输入数据不合法时，算法也能做出相关处理，而不是产生异常或莫名其妙的结果。

时间效率高和存储量低：时间效率指的是算法的执行时间，对于同一个问题，如果有多个算法能够解决，执行时间短的算法效率高，执行时间长的效率低。存储量需求指的是算法在执行过程中需要的最大存储空间，主要指算法程序与形式所占用的内存或外部硬盘存储空间。设计算法应该尽量满足时间效率高和存储量低的需求。

4. 算法效率的度量方法

效率度量方法有两种：事前估计分析方法和事后统计方法。

事后度量方法：主要通过设计好的测试程序和数据，利用计算机计时器对不同算法编制的程序的运行时间进行比较，从而确定算法效率的高低。但它有不科学、不准确的缺陷，一般考虑不予采纳。

事前估计分析方法：在计算机程序编制前，依据统计方法对算法进行估算。经过分析发现，一个用高级程序语言编写的程序在计算机上运行时所消耗的时间取决于下列因素：
1、算法采用的策略、方法。（算法好坏的根本）
2、编译产生的代码质量。（要有软件来支持）
3、问题的输入规模。（输入量的多少）
4、机器执行指令的速度。（要看硬件性能）
也就是说，抛开计算机软、硬件因素，一个程序的运行时间，依赖于算法的好坏和问题的输入规模。
举个`求和算法`的例子：
第一种算法：
int index, sum = 0, num = 100;// 执行`1`次
for (index = 1; index < num; index++) {// 执行`n+1`次
   sum = sum + index;// 执行`n`次
}
NSLog(@"%d", sum);// 执行`1`次

第二种算法：
int sum = 0, num = 100;// 执行`1`次
sum = (1 + num) * n/2;// 执行`1`次
NSLog(@"%d", sum);// 执行`1`次

第一种算法执行了`1 + (n + 1) + n + 1 = 2n + 3`次；
第二种算法执行了`1 + 1 + 1 = 3`次。此时会发现，测定运行时间最可靠的方法就是计算对运行时间有消耗的基本操作的执行次数。运行时间与这个计数成正比。

5. 函数的渐进增长

函数的渐进增长：给定两个函数f(n)和g(n)，如果存在一个整数N，使得对于所有的n > N，f(n)总是比g(n)大，那么，我们说f(n)的增长渐进快于g(n)。

函数的渐进增长

对比算法的关键执行次数函数的渐进增长性，可以分析出：某个算法，随着n的变大，它会越来越优于另一算法，或者越来越差于另一算法。 这其实就是事前估计方法的理论依据，通过算法的时间复杂度来估算算法时间效率。另外，判断一个算法的效率时，函数中的常数和其它次要项常常可以忽略，而更应该关注主项(最高阶项）的阶数。

6. 算法的时间复杂度

6.1 算法时间复杂度定义
进行算法分析时，语句总的执行次数 T(n)是关于问题规模n的函数，进而分析 T(n) 随 n 的变化情况并确定 T(n) 的数量级。算法的时间复杂度，也就是算法的时间度量，记作：T(n) = O(f(n))。它表示随问题的增大，算法执行时间的增长率和 f(n) 的增长率相同，称作算法的渐进时间复杂度，简称为时间复杂度。其中 f(n) 是问题规模 n 的某个函数。这样用大写O()来体现算法时间复杂度的记法，我们称之为大O记法。
一般情况下，随着 n 的增大，T(n)增长最慢的算法为最优算法。常见的时间复杂度有：常数阶O(1)、对数阶O(logn)、线性阶O(n)、平方阶O(n²)等。

常见时间复杂度表

6.2 推导大O阶方法
推导大O阶:
1、用常数 1 取代运行时间中的所有加法常数。
2、在修改后的运行次数函数中，只保留最高阶项。
3、如果最高阶项存在且不是 1，则去除与这个项目相乘的常数。
做完以上操作后，得到的结果就是大O阶。但就像“知道很多道理，依然过不好这一生”一样，在事实上，分析一个算法的时间复杂度，没那么简单，当然也没特别难。

7. 最坏情况与平均情况

最坏情况运行时间是一种保证，那就是运行时间不会再坏了。在应用中，这是一种最重要的需求，通常，除非特别指定，我们提到的运行时间都是最坏情况的运行时间。
平均运行时间是所有情况中最有意义的，因为它是期望的运行时间。 也就是说，我们运行一段程序代码时，是希望看到平均运行时间的。可现实中，平均运行时间很难通过分析得到，一般都是通过运行一定数量的实验数据后估算出来的。
对算法的分析，一种方法是计算所有情况的平均值，这种时间复杂度的计算方法称为平均时间复杂度。另一种方法是计算最坏情况下的时间复杂度，这种方法称为最坏时间复杂度。一般在没有特殊说明的情况下，都是指最坏时间复杂度。

8. 算法空间复杂度

算法的空间复杂度是通过计算算法所需的存储空间实现，算法空间复杂度的计算公式记作：S(n) = O(f(n)), 其中，n 为问题规模，f(n)为语句关于 n 所占存储空间的函数。通常，我们都使用“时间复杂度”来指运行时间的需求，使用“空间复杂度”指空间需求。

9. 总结

1、了解了算法的定义、特性、设计要求、度量方法。
2、了解了什么是函数的渐进增长。
3、了解了什么是算法时间复杂度以及如何推导大O阶。
4、了解了算法的最坏情况和平均情况的概念。