- 本文翻译自The Minitab Blog
https://blog.minitab.com/blog/adventures-in-statistics-2/regression-analysis-tutorial-and-examples
本文将曾经写过的关于回归分析的博客文章总结,构成一篇回归分析的教程。同时会继续补充内容。
这份教程包含了回归分析的方方面面:
- 选择回归分析的类型去使用 (choosing the type of regression analysis to use)
- 明确模型(specifying the model)
- 解释结果(interpreting the results)
- 决定如何做最优拟合(determining how well the model fits)
- 预测并监测假设( making predictions, and checking the assumptions)
- 不同类型回归分析的例子
为什么选择回归以及最优回归分析的特征
在开始介绍回归分析教程之前,一些重要问题需要解答。
- 我们为什么要选择回归?
- 在回归分析中,专家都可能犯得常见错误是什么?
- 如何区分最优回归分析和不严格回归分析
- 感恩回归分析 : 瞅瞅为什么我最喜欢回归分析!回归分析的目的是生成一个方程式,用来描述自变量和应变量之间的关系(ps: 原文是Predictor variables 预测变量 和 response variable响应变量)。但是,回归分析绝不仅仅如此。
- 进行回归分析中避免常见问题的四个技巧: 本教程中所有步骤都应该牢记于心,以确保高质量的回归分析。
- 样本数量指南: 此指南能够确保你有足够的能力来检测变量之间的关系,并对关系强度进行合理的精准估计。
教程1:如何选择正确类型的回归分析
Minitab统计软件提供了多种不同类型的回归分析方法。选择合适的类型取决于数据特征。
- 感谢回归菜单(Regression Menu):Patrick Runkel使用美好的感恩节情景进行回归分析
- 线性与非线性回归:如何确定使用那个
- 线性和非线性方程之间的区别 :两种类型的方程均可模拟曲率,他们的区别是什么呢?
教程2:如何指定回归模型
选择正确类型的回归分析仅仅是第一步,接下来,需要确定模型。模型规范包括要确定自变量以及是否需要对自变量之间进行曲率和联系的建模(PS:这句话,没理解太明白)
指定回归模型是个迭代的过程,教程的解释与假设验证部分将展示如何确定模型的合理性以及如何根据结果调整模型。
- 如何选择最优回归模型: 简单回归了一些常见的统计方法,并提供一些使用建议。
- Stepwise and Best Subsets Regression: Minitab provides two automatic tools that help identify useful predictors during the exploratory stages of model building.
- Curve Fitting with Linear and Nonlinear Regression: Sometimes your data just don’t follow a straight line and you need to fit a curved relationship.
- Interaction effects: Michelle Paret explains interactions using Ketchup and Soy Sauce.
- Proxy variables: Important variables can be difficult or impossible to measure but omitting them from the regression model can produce invalid results. A proxy variable is an easily measurable variable that is used in place of a difficult variable.
- Overfitting the model: Overly complex models can produce misleading results. Learn about overfit models and how to detect and avoid them.
- Hierarchical models: I review reasons to fit, or not fit, a hierarchical model. A hierarchical model contains all lower-order terms that comprise the higher-order terms that also appear in the model.
- Standardizing the variables: In certain cases, standardizing the variables in your regression model can reveal statistically significant findings that you might otherwise miss.
- Five reasons why your R-squared can be too high: If you specify the wrong regression model, or use the wrong model fitting process, the R-squared can be too high.