Octave 梯度算法的一些心得

认为octave - 矩阵算法的便捷性

很多人认为Octave带来很便捷的矩阵算法，所以通常计算矩阵的时候不再用普通的点乘求和再遍历的方式，直接就是两个矩阵相乘就可以求和。殊不知常常没搞懂两个矩阵的行列数是否对应，就直接相乘，结果是错漏百出，各种调试，绞尽脑汁，都不知道出错在哪。

我在做machina learning第六章的作业----machina-learning-ex1使用Octave计算梯度算法的时候就吃过亏：我想一步到位直接就用训练集和相关参数的矩阵运算就能得出最优解，然而终不可得。后来当我拿出草稿纸，一步一步，循序渐进地写出梯度算法的细化的每个步骤的时候，又可以得出个正确答案，虽然没有达到牛人那种简洁而又一句到位的写法，但是想起以前学习太极拳的老师傅的一句话：基础要慢慢打好，不要想着一步就想把高深的拳术学习到位；就算让一个新人马上学习到怎么打好太极拳，他的基础也是很薄弱的，站桩都站不稳，别人一推就倒。学习算法也是这样，当有两条路给你选择，一条是捷径带有风险，另一条是崎岖难行，走的路比较长，但是一定能到达终点，那你一定要选择难走的那一条。百分之200的人会选择容易走的那一条，当他们遇到危险挫折的时候，由于潜意识决定他们宁愿走容易走的路，所以他们会避开绕开崎岖，从而不能体会到解决困难的过程，甚至缺乏相关的经验。所以对于新人来说，一定要时时刻刻保持良好的思维习惯，多选择走正确的路，choose the right way , but not the easy one.以后的路都会好走很多。

话不多说，先看公式：

Gradient Descent算法求theta最优解

hypothesis公式

第一章其实已经讲过梯度算法求解theta最优解和h(θ)的公式，我把这个公式在草稿纸一画——这不正是两矩阵相乘得出的结果吗？后来我就把X * theta - y先写上去，然后到了Xj(i)这一步，想来想去不知道怎么写，因为X * theta - y得出的结果是100行1列的矩阵，而X是取j列向量相乘的，后面还要求和乘以a/m，theta还要减去他们的和，要知道theta是3行1列的向量，怎么减去一百行1列的矩阵，感觉不对啊，昨晚想了一个晚上。最后还是先睡觉。

【深入浅出，从丑陋的写法开始】

今天早上想到一个办法，就从最容易理解的for循环多重循环入手，不要想着一步到位，虽然这是一个很丑的写法，但是this is the right way，对于新人的我，可以深入浅出地理解梯度算法的过程，又可以得出正确答案，这不是一举两得吗？

1. for循环梯度算法（i，j）

首先我们知道for循环是先对

Part 1

以i为参数求和，（j暂时等于1先不管它）

先结合上面的h(θ)公式做个转换 Σ(θ1x(i,1)+θ1x(i,1)-y(i)) * x(i,j)

再拆解

i = 1 , ((θ1*x(1,1)+θ1*x(1,1)) - y1) * x(1,1)

i = 2 , ((θ1*x(2,1)+θ1*x(2,1)) - y2) * x(2,1)

i = 3 , ((θ1*x(3,1)+θ1*x(3,1)) - y3) * x(3,1)

...

这不就是可以理解为x的第i行于θ向量相乘，再减去y的第i个，再诚意x的第i行，第j个

Octave写法为 (X(i,:) * theta - y(i)) * X(i,j);

然后就是加个for循环, 用sumTemp作为求和的临时变量

sumTemp = 0;

for i = 1:m,

sumTemp = sumTemp + (X(i,:) * theta - y(i)) * X(i,j); %theta is column vector

end;

theta公式的右半部分的delta好解决：

deltaTemp = sumTemp * a/m

然后就是theta(j) = theta(j) - deltaTemp;

外面再嵌套一个For循环to j 整个代码就是：

for j = 1:size(theta),

sumTemp = 0;

for i = 1:m,

sumTemp = sumTemp + (X(i,:) * theta - y(i)) * X(i,j); %theta is column vector

end;

deltaTemp = sumTemp * alpha / m

theta(j) = theta(j) - deltaTemp;

end;

2.for循环（i）

再看看我们上面的代码有什么可以再优化的地方，

对于(X(i,:) * theta - y(i))各i行求和，其实就是

X的逐个行和theta相乘，X是百行三列，theta，三行1列，得出来回是一个百行1列的数据，正好y得百行一列可以相减，得出一个新的列向量，与X(:,j)的百行一列相点乘

(X * theta - y ) .* X(:,j)

再求和就是一个值，再得出delta

delta =(a/m) * sum((X * theta - y ) .* X(:,j))

然后

theta(j) = theta(j) - delta

跑一下Octave验证一下（你不想Octave不断打印delta最后句末加个;）

% ====================== For loop to j ======================

for j = 1:size(theta),

deltaTemp = (alpha/m) * sum((X * theta - y ) .* X(:,j));

theta(j) = theta(j) - deltaTemp;

end;

3.去掉所有for循环

再看看有什么可以改进的

theta是一个3行1列向量，deltaTemp也可以做成一个三行1列的向量，

deltaTemp(j) = (alpha/m) * sum((X * theta - y ) .* X(:,j));

((X * theta - y ) 它就是一个百行一列，跟X逐个逐个列相乘，会得出百行三列的数据，此时对这个百行三列分别列求和，就可以得出一个新的一行三列矩阵，

再分别被theta减去。那么可以

((alpha / m) * sum((X * theta - y) .* X))'

最后

theta = theta - ((alpha / m) * sum((X * theta - y) .* X))';

（sum（）方法对所有矩阵来说，都只对各列元素分别求和，并不是所有元素求和）

总结：我分别用了三个方法，深入浅出，最终才能得出真正的一步到位，希望以后的学习过程中再难也能够choose the right way, not the easy way.

P.S. : sum求和是对各列分别求和哦；另外如果不想频繁打印，记得要再代码后加；分号，如果是没有，Octave会默认时刻输出数据。

Octave 梯度算法的一些心得

推荐阅读更多精彩内容