使用 Pandas 数据框运行 OLS 回归

2023-12-21

我有一个pandas数据框，我希望能够根据 B 列和 C 列中的值预测 A 列的值。这是一个玩具示例：

import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50], 
                   "B": [20, 30, 10, 40, 50], 
                   "C": [32, 234, 23, 23, 42523]})

理想情况下，我会有类似的东西ols(A ~ B + C, data = df)但当我看到examples http://scikit-learn.org/stable/auto_examples/linear_model/plot_ols.html来自算法库，例如scikit-learn它似乎使用行列表而不是列列表将数据提供给模型。这将需要我将数据重新格式化为列表内的列表，这似乎首先违背了使用 pandas 的目的。对 pandas 数据框中的数据运行 OLS 回归（或更一般的任何机器学习算法）的最 Pythonic 方法是什么？

我认为你几乎可以完全按照你的想法去做，使用统计模型 http://statsmodels.sourceforge.net/包是其中之一pandas' 之前的可选依赖项pandas' 版本 0.20.0（它用于一些事情pandas.stats.)

>>> import pandas as pd
>>> import statsmodels.formula.api as sm
>>> df = pd.DataFrame({"A": [10,20,30,40,50], "B": [20, 30, 10, 40, 50], "C": [32, 234, 23, 23, 42523]})
>>> result = sm.ols(formula="A ~ B + C", data=df).fit()
>>> print(result.params)
Intercept    14.952480
B             0.401182
C             0.000352
dtype: float64
>>> print(result.summary())
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      A   R-squared:                       0.579
Model:                            OLS   Adj. R-squared:                  0.158
Method:                 Least Squares   F-statistic:                     1.375
Date:                Thu, 14 Nov 2013   Prob (F-statistic):              0.421
Time:                        20:04:30   Log-Likelihood:                -18.178
No. Observations:                   5   AIC:                             42.36
Df Residuals:                       2   BIC:                             41.19
Df Model:                           2                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept     14.9525     17.764      0.842      0.489       -61.481    91.386
B              0.4012      0.650      0.617      0.600        -2.394     3.197
C              0.0004      0.001      0.650      0.583        -0.002     0.003
==============================================================================
Omnibus:                          nan   Durbin-Watson:                   1.061
Prob(Omnibus):                    nan   Jarque-Bera (JB):                0.498
Skew:                          -0.123   Prob(JB):                        0.780
Kurtosis:                       1.474   Cond. No.                     5.21e+04
==============================================================================

Warnings:
[1] The condition number is large, 5.21e+04. This might indicate that there are
strong multicollinearity or other numerical problems.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Pandas 数据框运行 OLS 回归的相关文章

如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
SQL Alchemy 中的 NULL 安全不等式比较？

目前我知道如何表达 NULL 安全的唯一方法 SQL Alchemy 中的比较其中与 NULL 条目的比较计算结果为 True 而不是 NULL 是 or field None field value 有没有办法在 SQL Alchem
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
feedparser 在脚本运行期间失败，但无法在交互式 python 控制台中重现

当我运行 eclipse 或在 iPython 中运行脚本时它失败了 ascii codec can t decode byte 0xe2 in position 32 ordinal not in range 128 我不知道为什么但
表达式中的 Python 'in' 关键字与 for 循环中的比较 [重复]

这个问题在这里已经有答案了我明白什么是in运算符在此代码中执行的操作 some list 1 2 3 4 5 print 2 in some list 我也明白i将采用此代码中列表的每个值 for i in 1 2 3 4 5 print
Python - 在窗口最小化或隐藏时使用 pywinauto 控制窗口

我正在尝试做的事情我正在尝试使用 pywinauto 在 python 中创建一个脚本以在后台自动安装 notepad 隐藏或最小化 notepad 只是一个示例因为我将编辑它以与其他软件一起使用 Problem 问题是我想在安装程序
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
您可以在 Python 类型注释中指定方差吗？

你能发现下面代码中的错误吗米皮不能 from typing import Dict Any def add items d Dict str Any gt None d foo 5 d Dict str str add items d f
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

在所有视图中创建 Telerik Sidedrawer

我已经成功地让 Telerik Side drawer 在一个视图中工作但我坚持将其制作成一个可以全局使用的组件我想避免将其复制并粘贴到每个视图中所以我的问题是如何将其变成可重用的组件所以当你使用page router outlet
MySQL - 如果尚不存在则插入

我想执行这个 MySQL 查询 INSERT INTO cron stats user VALUES int d by user 每当此类用户尚不存在时如下所示 SELECT 1 FROM cron stats WHERE user in
git log 中带有 tformat 的额外换行符

当我使用git log pretty oneline shortstat 我得到了我的日志的紧凑表示 git log pretty oneline shortstat 73c6eecd930c2f66d5c1e87fcca7ca9b0e35
需要一些有关使用 PERL 的 IRC BOTS 的信息

有谁知道有一款用 Perl 编写的好 irc 机器人吗我只需要一个简单的登录到该频道然后根据用户所说的内容进行回复 e g 用户
只让实例访问标签本身？

看着这个帖子 https serverfault com questions 686526 how do you tag and name the ec2 instance that was launched by an ec2 spot
AppStore iOS 应用新版本提交问题

您好提前致谢在尝试使用应用程序加载器向 AppStore 提交新版本的 iOS 应用程序时我收到了以下消息 ITC apps validation prerelease build missing 并停止提交我在使用以前版本的 iT
GRPC：用Java/Scala制作高吞吐量客户端

我有一项以相当高的速率传输消息的服务目前它由 akka tcp 提供服务每分钟生成 350 万条消息我决定尝试一下 grpc 不幸的是它导致吞吐量小得多每分钟约 500k 条消息甚至更少您能推荐一下如何优化吗 My setup
错误：我的 Prolog 代码中超出本地堆栈

我无法弄清楚为什么给定 Prolog 代码的以下查询会生成错误Out of local stack 序言代码 likes g c likes c a likes c b likes b a likes b d likes X Z likes
PHP DOM UTF-8 问题

首先我的数据库使用 Windows 1250 作为本机字符集我将数据输出为 UTF 8 我在我的网站上使用 iconv 函数将 Windows 1250 字符串转换为 UTF 8 字符串并且效果完美问题是当我使用 PHP DOM 解
列出 Capybara/Poltergeist 元素的子元素

我四处寻找但找不到办法做到这一点我们正在 EmberJS Rails 应用程序上的 Cucumber 功能中使用 Poltergeist 驱动程序运行 Capybara 测试我无法使用 page driver debug 因为我在无头
从 Swagger/OpenAPI 生成 Spring MVC 控制器

有没有办法根据 Swagger OpenAPI 规范生成控制器 Spring MVC 代码我知道 Swagger 可以从现有的 Spring 代码生成但是反过来也可能吗您基本上是在寻找生成 swagger 服务器端代码如果您想在构建
重新排列数据：从水年转换为日历年

我有一个表其中包含来自流量计的数据排列如下 Water Year May Jun Jul Aug Sep Oct Nov Dec Jan Feb Mar Apr 1 1953 1954 55 55 43 62 30 46 26 17 2
如何在Android中获取MP3文件的持续时间[重复]

这个问题在这里已经有答案了我正在开发一个媒体播放器项目我想根据我正在播放的 MP3 文件的长度旋转图像即当歌曲结束时图像应该停止旋转我想获取所选 MP3 文件的持续时间以便可以对旋转进行计时我读了这个问题在 Android 中从
构造函数中“this”关键字的作用是什么？

我刚才正在查看 MSDN 的示例代码发现 namespace IListSourceCS public class Employee BusinessObjectBase private string id private string
等待所有线程完成java中的工作

我正在编写一个具有 5 个线程的应用程序这些线程同时从 Web 获取一些信息并填充缓冲区类中的 5 个不同字段当所有线程完成其工作时我需要验证缓冲区数据并将其存储在数据库中我该如何做到这一点当所有线程完成工作时收到警报我采取的方
如何从分隔类型文件中的特定行打印特定字段

我有一个排序的分隔类型文件我想提取特定行中的特定字段这是我的输入文件 somefile csv efevfe 132143 27092011080210 howdy hoodie adfasdfs 14321 2709201108184
Bootstrap：CSS - 列表组项目的高度

请考虑关注 JSFiddle http jsfiddle net 7W2r4 12 http jsfiddle net 7W2r4 12 您可能会注意到 list group item已经完全崩溃了而且我似乎无法让它自动调整例如 hei
更改 Visual Studio 中文档之间移动的 Ctrl + Tab 行为

Is it possible to change how Ctrl Tab and Shift Ctrl Tab work in Visual Studio I have disabled the popup navigator windo
java.lang.ClassCastException：android.widget.TextView。为什么我会得到这个？

由于某种原因我收到 ClassCastException 错误我真的不知道为什么预先感谢我是一名新程序员任何帮助都会真正有帮助没有双关语 Code final EditText answerBox EditText findVi
使用 Pandas 数据框运行 OLS 回归

我有一个pandas数据框我希望能够根据 B 列和 C 列中的值预测 A 列的值这是一个玩具示例 import pandas as pd df pd DataFrame A 10 20 30 40 50 B 20 30 10 40 50

使用 Pandas 数据框运行 OLS 回归

使用 Pandas 数据框运行 OLS 回归 的相关文章

随机推荐

热门标签

使用 Pandas 数据框运行 OLS 回归的相关文章