本篇文章中,我们用 Python 代码写个小程序,根据出生时的body mass index(BMI)数据,使用线性回归来预测寿命。在这之前,我们先准备一下建立这个模型所需要的必要工具。
在这个线性回归模型中,需要用到scikit-learn库的 LinearRegression class,这个 class 提供了fit()函数,它根据所输入的数据来匹配模型,以下是基本的使用方法:
>>> fromsklearn.linear_modelimportLinearRegression
>>> model = LinearRegression()
>>> model.fit(x_values, y_values)
上面的例子中,model 变量是线性回归的模型,x_values 和 y_values 作为训练数据输入,model 根据 x_values 和 y_values 进行调整。“调整”的意思是——找到一条最佳的“线”能够和训练数据进行匹配。之后我们就可以使用 predict() 函数进行预测。
>>> print(model.predict([ [127], [248] ]))
[[438.94308857,127.14839521]]
predict() 函数返回一个预测结果的数组,里面的元素就是预测的结果,分别对应输入数组中的元素。对于第一个输入——[127],返回的预测值为438.94308857,第二个输入——[248],返回的预测值为127.14839521。输入数组中的元素使用[127]格式,而不是127,是因为我们可以用多个数据的组合进行预测。以后我们会在线性回归中使用多个数据,现在我们先使用一个数据值。
实践
在这个实践中,我们会用到以下数据集:“各国家人的平均寿命” 和 “各国家男性的平均BMI”,这些数据来自 Gapminder。
假设数据集存储在 “bmi_and_life_expectancy.csv” 文件中。这份数据包含三个字段:country(国家)、Life expectancy(寿命)、BMI(一个小孩出生时的BMI)。我们会根据BMI来预测寿命。
完整代码如下:
# 导入 pandas库 和 LinearRegression类
import pandas as pd
from sklearn.linear_model import LinearRegression
# 使用 pands 的 read_csv 函数把数据加载到 dataframe 中
#将 dataframe 赋值给 bmi_life_data 变量
bmi_life_data = pd.read_csv("bmi_and_life_expectancy.csv")
#使用 scikit-learn 的 LinearRegression 建立一个回归模型,并赋值给 bmi_life_model
bmi_life_model = LinearRegression()
bmi_life_model.fit(bmi_life_data[['BMI']], bmi_life_data[['Life expectancy']])
# 使用 21.07931这个 BMI 进行预测,并将结果赋值给 laos_life_exp 变量。
laos_life_exp = bmi_life_model.predict(21.07931)
print(laos_life_exp)
print输出的就是预测后的结果60.31564716。
使用线性回归中时要注意
线性回归是基于一系列的假设,并不适用于所有的场景,有些问题你应该要注意。
线性回归适用于数据是线性的情况
线性回归是从训练数据中找到一条匹配的直线。如果训练数据中的数据之间的关系并不是线性的,那么你需要做一些调整(转换你的训练数据),或者使用其他类型的模型。
线性回归对异常值敏感
线性回归尝试找到一条最匹配训练数据的直线。如果你的数据集中有一些极度偏差的数据(与一般的模式不匹配),会导致相差很大的结果。
下面的
![Uploading AA5DBE35-C653-4CC9-ACEC-B1B89CB565DF_605091.png . . .]
图,模型与数据匹配得非常好
然而,添加了一些异常值之后(与模型不匹配),对模型的预测有很大的影响,如下图:
通常,你希望一个模型能够匹配大多数的数据,但一定要注意这些异常值。