简单介绍
遗传算法,模拟达尔文进化论的自然选择和遗产学机理的生物进化构成的计算模型,一种不断选择优良个体的算法。在不断进行多轮的染色体交叉、变异、选择后,得到的个体基本上是最优的,再继续下去,就一直保持最优。
应用场景
解决优化类问题,尤其是不能直接解出来的问题,通常可以用遗传算法来做。比如,对于下面这个函数
要求这个函数的最大值,一种方法是等间距地在的区间中去100万个点,求出100万个的值,然后比大小,很蠢很朴素。遗传算法其实也是一个个地搜索,只不过人为地给了一些方向和策略。
一些术语及其在算法中的对应关系
建议结合算法详解食用
- 基因型:将十进制取值经过二进制编码后的二进制数
- 表现型:十进制的取值
- 变异:随机改变基因中某个位置的值,如将0101 1001变为0111 1001,即是改变了第三位的数
- 交叉:将两个二进制编码某一段相同长度的子串进行交换
- 适应度:代入得到的函数值
- 种群:所有取值的集合
算法详解
编码
遗传算法中应用的编码方式有很多种,不同的编码方式可以应对在不同的场景中。常见的有二进制编码,浮点编码(高精度,复杂度高的问题),符号编码等。
下面我们只介绍二进制编码
二进制编码其实就是为了将十进制的的值转化为用‘0’和‘1’表示的二进制数字。为什么要表示成二进制?原因有以下几点:
- 发挥你的想象力,二进制数字的0101形式像不像基因中的简化的碱基序列?
- 编码、解码简单易行
- 变成二进制形式后更容易进行所谓的“交叉”和“变异” 等遗传操作
- 可以利用模式定理对算法进行理论分析
二进制编码的缺点是:对于一些连续函数的优化问题,由于其随机性使得其局部搜索能力较差,如对于一些高精度的问题,当解迫近于最优解后,由于其变异后表现型变化很大,不连续,所以会远离最优解,达不到稳定。
举一个简单的例子,对于8位数字的二进制编码:
1 -------> 0000 0001
255-----> 1111 1111
或者
------> 0000 0001
1-----------> 1111 1111
不同的编码方式对应的精度和范围都不同,也可以通过增加位数来提高精度,可以根据应用场景选择。
交叉和变异
变异其实就是将编码后的 中的某一位或多位的值发生变化,将变化后得到的 变成十进制的 ,将这个 代入函数得到 将现有的进行比较,判断是好的变异,还是不好的变异。变异也有基本位变异(Simple Mutation)、均匀变异(Uniform Mutation)、边界变异(Boundary Mutation)、非均匀变异等等,看情况选取
交叉也是一样,随机将种群中两个 中的某一连续的几个位置交换,大概率得到两个新的个体。比如,将0010 1110与1101 1100中第2、3、4位进行交换,得到两个新的个体就是0101 1110和1010 1100。当然交叉方法也有很多种,目的都是一致的,即产生随机个体。
说白了,上面这两中遗传操作都是为了产生随机性的新个体,好让解不陷入一个局部最优解.
选择
好了,现在经过上面一定次数的交叉和变异,多出来一堆的新的个体,一个种群中吃不消有这么多个体呀,怎么办?优胜劣汰!
那要用什么样的选择方法比较好呢?常见的选择算子有以下几种:
- 轮盘赌选择(Roulette Wheel Selection):是一种回放式随机采样方法。每个个体进入下一代的概率等于它的适应度值与整个种群中个体适应度值和的比例。选择误差较大。
- 随机竞争选择(Stochastic Tournament):每次按轮盘赌选择一对个体,然后让这两个个体进行竞争,适应度高的被选中,如此反复,直到选满为止。
- 最佳保留选择:首先按轮盘赌选择方法执行遗传算法的选择操作,然后将当前群体中适应度最高的个体结构完整地复制到下一代群体中。
- ……还有很多
用轮盘赌来做例子解释一下
假如有5条染色体,他们的适应度分别为5、8、3、7、2。
那么总的适应度为:F = 5 + 8 + 3 + 7 + 2 = 25。
那么各个个体的被选中的概率为:
α1 = ( 5 / 25 ) * 100% = 20%
α2 = ( 8 / 25 ) * 100% = 32%
α3 = ( 3 / 25 ) * 100% = 12%
α4 = ( 7 / 25 ) * 100% = 28%
α5 = ( 2 / 25 ) * 100% = 8%
当指针在这个转盘上转动,停止下来时指向的个体就是天选之人啦。可以看出,适应性越高的个体被选中的概率就越大。