大师兄的应用回归分析学习笔记（二十一）：岭回归（三）

大师兄的应用回归分析学习笔记（二十）：岭回归（二）
大师兄的应用回归分析学习笔记（二十二）：主成分回归与偏最小二乘（一）

五、用岭回归选择变量

岭回归的一个重要应用是选择变量，选择变量通常的原则是：

在岭回归的计算中，假定设计矩阵X已经中心化和标准化，这样可以直接比较标准化岭回归系数的大小。可以剔除掉标注化岭回归系数比较稳定且绝对值很小的自变量。

在k值较小时，标准化岭回归系数的绝对值并不是很小，但是不稳定，随着k的增大迅速趋于0.像这样岭回归系数不稳定、震动趋于零的自闭那辆，也可以予以剔除。

剔除标准化岭回归系数很不稳定的自变量。如果又若干个岭回归系数不稳定，究竟应该剔除几个变量，剔除哪几个变量，并无一般原则可循，需根据剔除某个变量后重新进行令狐贵分析的效果来确定。

1. 案例一：空气污染问题

McDonald和Schwing曾研究死亡率与空气污染、气候以及社会经济状况等因素的关系，考考虑了15个解释变量：

$x_1$ ：年平均降雨量

$x_2$ ：1月平均气温

$x_3$ ：3月平均气温

$x_4$ ：年龄在65岁以上的人口占总人口的百分比

$x_5$ ：每家的人口数

$x_6$ ：中学毕业年龄

$x_7$ ：住房符合标准的家庭比例数

$x_8$ ：每平方公里居民数

$x_9$ ：非白种人占总人口比例

$x_{10}$ ：白领阶层中受雇百分比

$x_{11}$ ：收入在300美元以上家庭的百分比

$x_{12}$ ：碳氢化合物的相对污染势

$x_{13}$ ：氮氧化合物的相对污染势

$x_{14}$ ：二氧化硫的相对污染势

$x_{15}$ ：相对湿度

$y$ ：每10万人中的死亡人数

这个问题收集了60组样本数据。根据样本数据，计算X'X的15个特征根为：

4.5272 2.7546 2.0545 1.3487 1.2227 0.9605 0.6124

0.4729 0.3708 0.2163 0.1665 0.1275 0.1142 0.046 0.0049

后面两个特征根很接近零 $k=\sqrt{\lambda_1/\lambda_15}=\sqrt{4.5272/0.0049}=30.396$ ,说明设计矩阵X具有较严重的多重共线性。
进行岭迹分析：

当k=0.2时，岭迹大体上达到稳定，按照岭迹法，应取k=0.2。

若用方差扩大因子法，当k为0.02~0.08时，方差扩大因子小于10，故建议在此范围内选取k。

在用岭回归法进行变量选择时，因为从岭迹看到自变量 $x_4,x_7,x_{10},x_{11}和x_{15}$ 由较稳定且绝对值比较小的岭回归系数，根据变量选择的第一条原则，这些自变量可以剔除。

又因为自变量 $x_{12}和x_{13}$ 的岭回归系数很不稳定，且随着k的增加很快趋近于0，根据第二条原则也应该剔除。

还可以根据第三条原则剔除变量 $x_3和x_5$ 。

这个问题最后剩下的变量时 $x_1,x_2,x_6,x_7,x_9,x_{14}$ ，可以用这些自变量建立一个回归方程。

2. 案例二：Gorman-Torman例子

本例共有10个自变量，X已经中心化和标准化，X'X的特征根为：

3.692 1.542 1.293 1.046 0.972
0.659 0.357 0.220 0.152 0.068

最后一个特征根 $\lambda_{10}=0.068$ ，较接近于零。

$k=\sqrt{\lambda_1/\lambda_{10}}$ =7.368<10

从条件数的角度看，似乎设计矩阵X没有多重共线性。

但当X'X的所有特征根都较小时，虽然条件数不大，但多重共线性却存在。

对15个k值算出 $\hat\beta(k)$ ，画出岭迹：

可以看出，最小二乘的稳定性很差。当k于0略有偏离时， $\hat\beta(k)$ 与 $\hat\beta=\hat\beta(0)$ 就有较大的差距，特别是 $|\hat\beta_5|与|\hat\beta_6|$ 变化最明显。

当k从0上升到0.1时， $||\hat\beta(k)||^2$ 下降到 $||\hat\beta(0)||^2$ 的59%，而在正交设计的情形下只下降17%。

这些线性在直观上就使人怀疑最小二乘估计 $\hat\beta$ 是否反映了 $\beta$ 的真实情况。

另外，因为 $x_5$ 的回归系数的最小二乘估计 $\hat\beta_5$ 为负回归系数中绝对值最大的，但当k增加时， $\hat\beta_5(k)$ 迅速上升且变为正的。

与此相反，对因素 $x_6$ 为正的且绝对值最大，但当k增加时， $\hat\beta_6(k)$ 迅速下降。

再考虑 $x_5,x_6$ 的样本相关系数达到0.84，因此这两个因素可近似地合并成为一个因素。

再来看 $x_7$ ，它的回归系数估计 $\hat\beta_7$ 的绝对值偏高，当k增加时， $\hat\beta_7(k)$ 很快接近0，这意味着 $x_7$ 实际上对y无多大影响。

至于 $x_1$ ，其回归系数的最小二乘估计的绝对值看起来有点偏低，当k增加时， $\hat\beta(k)$ 首先迅速上升，成为对因变量由负影响的最重要的自变量。

当k较大时， $|\hat\beta_(k)|$ 稳定地缓慢趋近于0。

这意味着，通常的最小二乘估计对 $x_1$ 的重要性估计过低。

从整体上看，当k达到0.2~0.3的范围时，各个 $\hat\beta_j(k)$ 大体上趋于稳定，因此，在这一区间去一个k值做岭回归可能得到很好的结果。

本例中当k从零略微增加时， $\hat\beta_5(k)$ 和 $\hat\beta_7(k)$ 很快趋于0，于是他们很自然应该被剔除:

剔除它们之后，重做岭回归分析，岭迹基本稳定，因此剔除是合理的。

3. 案例三：民航客运量数据

用Python做岭回归：

import pandas as pd
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler

def ridge_regression_coefficients(input_file, output_file):
    """
    从CSV文件读取数据，计算不同alpha下的标准化岭回归系数和R²
    """
    # 读取数据
    data = pd.read_csv(input_file)
    X = data.iloc[:, :-1].values  # 特征（假设最后一列是目标变量）
    y = data.iloc[:, -1].values   # 目标变量
    
    # 标准化特征和目标变量（确保系数可比性）
    X_scaler = StandardScaler()
    X_std = X_scaler.fit_transform(X)
    y_scaler = StandardScaler()
    y_std = y_scaler.fit_transform(y.reshape(-1, 1)).flatten()
    
    # 生成alpha列表 (0到1，步长0.05)
    alphas = np.arange(0, 1.05, 0.05).round(2)
    
    # 存储结果
    results = []
    for alpha in alphas:
        # 岭回归拟合标准化数据
        ridge = Ridge(alpha=alpha)
        ridge.fit(X_std, y_std)
        
        # 获取标准化系数（无需截距，因数据已中心化）
        coefs = ridge.coef_
        r_squared = ridge.score(X_std, y_std)
        
        # 记录结果
        result = {'k': alpha, 'RSQ': r_squared}
        for i, coef in enumerate(coefs, start=1):
            result[f'x{i}'] = coef
        results.append(result)
    
    # 输出到CSV
    results_df = pd.DataFrame(results)
    results_df.to_csv(output_file, index=False, float_format='%.6f')  # 保留6位小数
    print(f"结果已保存到 {output_file}")

if __name__ == "__main__":
    ridge_regression_coefficients(
        input_file='123.csv',
        output_file='out.csv'
    )

输出：

第一列k为岭参数，默认值从0到1，步长0.05，共有21个k值。

第二列是判定系数 $R^2$ 。

第三列往后是标准化岭回归系数，其中第一行k=0对应的数值就是最小二乘估计的标准化回归系数。

岭迹图如下：

特征稳定性差异显著：x2最为稳定（系数仅变化1.9%）

而x4和x5表现出强烈的不稳定性（x4从0.463缩减至0.199，x5从0.021增至0.175），暗示可能存在多重共线性。

优先保留稳定特征x2和x3，对波动较大的x1、x4、x5进行共线性诊断，并推荐选择α=0.5时的系数（如x3:0.200，x6:0.175）作为平衡模型稳定性和解释力的折中方案。

最后编辑于：2025.04.11 15:43:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 230,362评论 6赞 544
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 99,577评论 3赞 429
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 178,486评论 0赞 383
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 63,852评论 1赞 317
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 72,600评论 6赞 412
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 55,944评论 1赞 328
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 43,944评论 3赞 447
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 43,108评论 0赞 290
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 49,652评论 1赞 336
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 41,385评论 3赞 358
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 43,616评论 1赞 374
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 39,111评论 5赞 364
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 44,798评论 3赞 350
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 35,205评论 0赞 28
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 36,537评论 1赞 295
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 52,334评论 3赞 400
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 48,570评论 2赞 379

大师兄的应用回归分析学习笔记（二十一）：岭回归（三）

五、用岭回归选择变量

1. 案例一：空气污染问题

2. 案例二：Gorman-Torman例子

3. 案例三：民航客运量数据

推荐阅读更多精彩内容