您现在的位置：首页 > 教案下载 > 正文

线性回归分析 Python那些事Python环境下的8种简单线性回归算法！(2)

2018-01-02 18:04 网络整理教案网

详细描述参考：https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html

方法 4：numpy.linalg.lstsq

这是用矩阵因式分解来计算线性方程组的最小二乘解的根本方法。它来自 numpy 包中的线性代数模块。通过求解一个 x 向量（它将|| ba x ||的欧几里得 2-范数最小化），它可以解方程 ax=b。

该方程可能会欠定、确定或超定（即，a 中线性独立的行少于、等于或大于其线性独立的列数）。如果 a 是既是一个方阵也是一个满秩矩阵，那么向量 x（如果没有舍入误差）正是方程的解。

借助这个方法，你既可以进行简单变量回归又可以进行多变量回归。你可以返回计算的系数与残差。一个小窍门是，在调用这个函数之前，你必须要在 x 数据上附加一列 1，才能计算截距项。结果显示，这是处理线性回归问题最快速的方法之一。

详细描述参考：https://docs.scipy.org/doc/numpy-1.13.0/reference/generated/numpy.linalg.lstsq.html#numpy.linalg.lstsq

方法 5： Statsmodels.OLS ( )

statsmodel 是一个很不错的 Python 包，它为人们提供了各种类与函数，用于进行很多不同统计模型的估计、统计试验，以及统计数据研究。每个估计器会有一个收集了大量统计数据结果的列表。其中会对结果用已有的统计包进行对比试验，以保证准确性。

对于线性回归，人们可以从这个包调用 OLS 或者是 Ordinary least squares 函数来得出估计过程的最终统计数据。

需要记住的一个小窍门是，你必须要手动为数据 x 添加一个常数，以用于计算截距。否则，只会默认输出回归系数。下方表格汇总了 OLS 模型全部的结果。它和任何函数统计语言（如 R 和 Julia）一样丰富。

详细描述参考：

方法 6、7：使用矩阵求逆方法的解析解

线性回归分析_线性回归方程解题步骤_线性回归模型怎么判断

对于一个良态（well-conditioned）线性回归问题（至少是对于数据点、特征），回归系数的计算存在一个封闭型的矩阵解（它保证了最小二乘的最小化）。它由下面方程给出：

在这里，我们有两个选择：

方法 6：使用简单矩阵求逆乘法。

方法 7：首先计算数据 x 的广义 Moore-Penrose 伪逆矩阵，然后将结果与 y 进行点积。由于这里第二个步骤涉及到奇异值分解（SVD），所以它在处理非良态数据集的时候虽然速度慢，但是结果不错。（参考：开发者必读：计算机科学中的线性代数）

详细描述参考：https://en.wikipedia.org/wiki/Linear_least_squares_%28mathematics%29

方法 8： sklearn.linear_model.LinearRegression( )

这个方法经常被大部分机器学习工程师与数据科学家使用。然而，对于真实世界的问题，它的使用范围可能没那么广，我们可以用交叉验证与正则化算法比如 Lasso 回归和 Ridge 回归来代替它。但是要知道，那些高级函数的本质核心还是从属于这个模型。

详细描述参考：

以上方法的速度与时间复杂度测量

作为一个数据科学家，他的工作经常要求他又快又精确地完成数据建模。如果使用的方法本来就很慢，那么在面对大型数据集的时候便会出现执行的瓶颈问题。

一个判断算法能力可扩展性的好办法，是用不断扩大的数据集来测试数据，然后提取所有试验的执行时间，画出趋势图。线性回归分析

可以在 GitHub 查看这个方法的代码。下方给出了最终的结果。由于模型的简单性，stats.linregress 和简单矩阵求逆乘法的速度最快，甚至达到了 1 千万个数据点。

总结

作为一个数据科学家，你必须要经常进行研究，去发现多种处理相同的分析或建模任务的方法，然后针对不同问题对症下药。

在本文中，我们讨论了 8 种进行简单线性回归的方法。其中大部分方法都可以延伸到更一般的多变量和多项式回归问题上。我们没有列出这些方法的 R 系数拟合，因为它们都非常接近 1。

对于（有百万人工生成的数据点的）单变量回归，回归系数的估计结果非常不错。

这篇文章首要目标是讨论上述 8 种方法相关的速度/计算复杂度。我们通过在一个合成的规模逐渐增大的数据集（最大到 1 千万个样本）上进行实验，我们测出了每种方法的计算复杂度。令人惊讶的是，简单矩阵求逆乘法的解析解竟然比常用的 scikit-learn 线性模型要快得多。

线性回归分析相关阅读

教案下载热门阅读

教案下载排行