【数据分析】利用机器学习算法进行预测分析（二）：线性回归（Linear Regression）

2023-11-14

时间序列预测中的机器学习方法（二）：线性回归（Linear Regression）

本文是“时间序列预测中的机器学习方法”系列文章的第二篇，如果您有兴趣，可以先阅读前面的文章：
【数据分析】利用机器学习算法进行预测分析（一）：移动平均（Moving Average）

线性回归模型返回一个方程，该方程确定自变量和因变量之间的关系。
在这里插入图片描述
其中，x代表独立变量，θ代表的是权重。对于本文的股价预测问题，我们没有一组独立变量。我们只有日期，所以我们从日期列中提取诸如：日，月，年，星期一/星期五等特征，然后拟合线性回归模型。

本文的源数据和代码放在了我的GitHub上，需要的朋友可以自行下载：https://github.com/Beracle/02-Stock-Price-Prediction.git

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

导入数据。

df = pd.read_csv('NSE-TATAGLOBAL11.csv')
df.head()

在这里插入图片描述
首先我们将日期设置为索引。为了不破坏原始数据，我们再定义一个新的数据集。

# setting the index as date
df['Date'] = pd.to_datetime(df.Date,format='%Y-%m-%d')
df.index = df['Date']

#creating dataframe with date and the target variable
data = df.sort_index(ascending=True, axis=0)
new_data = pd.DataFrame(index=range(0,len(df)),columns=['Date', 'Close'])

for i in range(0,len(data)):
     new_data['Date'][i] = data['Date'][i]
     new_data['Close'][i] = data['Close'][i]

我们利用add_datepart()函数对日期进行解析。没有安装fastai包可以使用pip install fastai进行安装，如果是在Jupyter环境中请使用!pip install fastai。

#create features
from fastai.tabular import add_datepart
add_datepart(new_data, 'Date')
new_data.drop('Elapsed', axis=1, inplace=True)  #elapsed will be the time stamp

new_data

在这里插入图片描述
除此之外，我们可以添加自己认为与预测相关的功能。在本文中，我的假设是一周的第一天和最后几天对股票收盘价的影响可能比其他几天要大得多。因此，我创建了一个功能用来确定给定的一天是星期一/星期五，还是星期二/星期三/星期四。

如果星期几等于0或4，则列值将为1，否则为0。类似地，我们可以自由地创建多个要素。

new_data['mon_fri'] = 0
for i in range(0,len(new_data)):
    if (new_data['Dayofweek'][i] == 0 or new_data['Dayofweek'][i] == 4): #如果是星期一或星期五，列值为1
        new_data['mon_fri'][i] = 1
    else:
        new_data['mon_fri'][i] = 0

将数据分为训练集和预测集，以检查模型的性能。

#split into train and validation
train = new_data[:987]
valid = new_data[987:]

x_train = train.drop('Close', axis=1)
y_train = train['Close']
x_valid = valid.drop('Close', axis=1)
y_valid = valid['Close']

导入线性回归模型。请先通过pip或conda安装sklearn包。

#implement linear regression
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(x_train,y_train)

通过“均方根误差”检验预测效果。

#make predictions and find the rmse
preds = model.predict(x_valid)
rmse = np.sqrt(np.mean(np.power((np.array(y_valid)-np.array(preds)),2)))
rmse

在这里插入图片描述
RMSE的值比我们之前用的“移动平均”方法得出的值高，这表明“线性回归”的效果较差。再通过绘图可以更直观地看出。

#plot
valid['Predictions'] = 0
valid['Predictions'] = preds

valid.index = new_data[987:].index
train.index = new_data[:987].index

plt.figure(figsize=(16,8))
plt.plot(train['Close'])
plt.plot(valid[['Close', 'Predictions']])
plt.show()

在这里插入图片描述
显然，用线性回归方法对本文的数据做预测也并不合适。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【数据分析】利用机器学习算法进行预测分析（二）：线性回归（Linear Regression）的相关文章

用于将 cython 中的许多 C++ 类包装到单个共享对象的项目结构

我在文档邮件列表和这个问题在这里 https stackoverflow com questions 10300660 cython and distutils 但我想得到一个更直接的答案来解决我的具体情况我正在通过尝试一点一点地包装我
如何查看Databricks中的所有数据库和表

我想列出 Azure Databricks 中每个数据库中的所有表所以我希望输出看起来像这样 Database Table name Database1 Table 1 Database1 Table 2 Database1 Table
使用 psycopg2 在 python 中执行查询时出现“编程错误：语法错误位于或附近”

我正在运行 Python v 2 7 和 psycopg2 v 2 5 我有一个 postgresql 数据库函数它将 SQL 查询作为文本字段返回我使用以下代码来调用该函数并从文本字段中提取查询 cur2 execute SELECT
为 Anaconda Python 安装 psycopg2

我有 Anaconda Python 3 4 但是每当我运行旧代码时我都会通过输入 source activate python2 切换到 Anaconda Python 2 7 我的问题是我为 Anaconda Python 3 4 安
使用带有关键字参数的 map() 函数

这是我尝试使用的循环map功能于 volume ids 1 2 3 4 5 ip 172 12 13 122 for volume id in volume ids my function volume id ip ip 我有办法做到这一点
使用 matplotlib 绘制时间序列数据并仅在年初显示年份

rcParams date autoformatter month b n Y 我正在使用 matpltolib 来绘制时间序列如果我按上述方式设置 rcParams 则生成的图会在每个刻度处标记月份名称和年份我怎样才能将其设置为仅在每
Python - StatsModels、OLS 置信区间

在 Statsmodels 中我可以使用以下方法拟合我的模型 import statsmodels api as sm X np array 22000 13400 47600 7400 12000 32000 28000 31000 6
从字符串中删除识别的日期

作为输入我有几个包含不同格式日期的字符串例如彼得在16 45 我的生日是1990年7月8日 On 7 月 11 日星期六我会回家 I use dateutil parser parse识别字符串中的日期在下一步中我想从字符串中删除
是否可以忽略一行的pyright检查？

我需要忽略一行的pyright 检查有什么特别的评论吗 def create slog group SLogGroup data Optional dict None SLog insert one SLog group group da
SQLALchemy .query：类“Car”的未解析属性引用“query”

我有一个这里已经提到的问题https youtrack jetbrains com issue PY 44557 https youtrack jetbrains com issue PY 44557 但我还没有找到解决方案我使用 Pyt
基于代理的模拟：性能问题：Python vs NetLogo & Repast

我正在 Python 3 中复制一小段 Sugarscape 代理模拟模型我发现我的代码的性能比 NetLogo 慢约 3 倍这可能是我的代码的问题还是Python的固有限制显然这只是代码的一个片段但 Python 却花费了三分
如何在Python中获取葡萄牙语字符？

我正在研究葡萄牙语角色看起来很奇怪我怎样才能解决这个问题代码 import feedparser import random Vou definir os feeds feeds conf feedurl http pplware s
在f字符串中转义字符[重复]

这个问题在这里已经有答案了我遇到了以下问题f string gt gt gt a hello how to print hello gt gt gt f a a gt gt gt f a File
python获取上传/下载速度

我想在我的计算机上监控上传和下载速度一个名为 conky 的程序已经在 conky conf 中执行了以下操作 Connection quality alignr wireless link qual perc wlan0 downspe
无法在 Python 3 中导入 cProfile

我试图将 cProfile 模块导入 Python 3 3 0 但出现以下错误 Traceback most recent call last File
使用 \r 并打印一些文本后如何清除控制台中的一行？

对于我当前的项目有一些代码很慢并且我无法使其更快为了获得一些关于已完成必须完成多少的反馈我创建了一个进度片段您可以在下面看到当你看到最后一行时 sys stdout write r100 80 n I use 80覆盖最终剩余的
Jupyter Notebook 内核一直很忙

我已经安装了 anaconda 并且 python 在 Spyder IPython 等中工作正常但是我无法运行 python 笔记本内核被创建它也连接但它始终显示黑圈忙碌符号防火墙或防病毒软件没有问题我尝试过禁用两者我也无法
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
发送用户注册密码，django-allauth

我在 django 应用程序上使用 django alluth 进行身份验证注册我需要创建一个自定义注册表单其中只有一个字段电子邮件密码将在服务器上生成这是我创建的表格 from django import forms from
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50

随机推荐

网络安全-反序列化漏洞简介、攻击与防御

目录简介 PHP序列化 Python序列化攻击 PHP举例 Python举例防御参考简介各种语言都有反序列化漏洞 Java PHP Python等序列化即将对象转化为字节流便于保存在文件内存数据库中反序列化即将字节流转
帮你理解网关、ARP、IP、MAC、路由

我发个简单形象的小故事你一看就明白了假设你叫小不点本地主机住在一个大院子本地局域网里有很多邻居网络邻居门口传达室有个看大门的李大爷李大爷就是你的网关当你想跟院子里的某个伙伴玩只要你在院子里大喊一声他的名字 pin
Linux发送接收邮件

目录一实验 1 linux用户发送给linux中的其它用户 2 linux用户发送给外网用户一实验 1 linux用户发送给linux中的其它用户 1 使用命令 yum install y sendmail 安装sendmail软件
C++类的三大特性之继承

目录一继承的概念与使用 lt 1 gt 什么是继承 lt 2 gt 如何使用二基类与派生类间的转换三继承的作用域四派生类的默认成员函数 lt 1 gt 构造函数 lt 2 gt 拷贝构造 lt 3 gt 赋值运算符重载 lt
Gradle DSL method not found: 'runProguard()'

Gradle DSL method not found runProguard Android studio 本来刚升级studio到1 0的时候就想写这篇文章的但是没空就没写了好吧今天把这个问题写下因为很多同事也遇到这个问题解决
关于servlet的 url-pattern 配置
GD32F303移植ATH10温湿度模块

目录前期准备移植准备开始移植 ATH10 c ATH10 h main c 效果图总结前期准备开发硬件 GD32F303RCT6开发板开发平台 Keil5 网盘资料见文章底部移植准备 ATH10模块I2C驱动使用到us延时
利用js将列表数据转换为树结构

记录一下遇到过好多次的需求重复写太恶心了 parent id 最顶层的默认父节点值 list 需要处理的列表数据返回的数据为处理好的树结构数据 const dealTreeData parent id any list any gt c
2017 iOS 启动页(Launch Screen Images)、图标(App Icon)尺寸大小

启动页尺寸大小 Device Portrait Landscape size 12 9 iPad Pro 2048px 2732px 2732px 2048px 10 5 iPad Pro 1668px 2224px 2224px 1668
excel subtotal 函数（分类汇总）

函数说明返回列表中的分类汇总语法 SUBTOTAL function num ref1 ref2 SUBTOTAL 函数语法具有以下参数 Function num 必需数字 1 11 或 101 111 用于指定要为分类汇总使用的函数
2021-10-30 关于ORACLE 19c DBA_JOBS不能自动执行 LAST_DATE为空排查方式

ORACLE DBA JOBS 相关报错解决方式背景在新创建的ORACLE 19c单实例数据库环境恢复生产环境数据后发现任务调度重启重建仍不能自动进行调度后发现DBA JOBS不会自动执行 NEXT DATE正常 LAST DA
从输入URL到页面展示发生了什么？

目录 1 查询缓存 2 DNS解析 3 建立TCP连接 3次握手 4 客户端发起http请求 5 服务器处理请求 6 服务器响应请求 7 浏览器解析html 8 断开TCP连接 4次挥手 1 查询缓存从输入url按下回车后我们进入了第一
allegro如何快设置快捷键旋转器件

在Allegro PCB Editor环境中设置在命令栏输入下面命令并回车 funckey iangle 90 按空格以90度旋转选中的物体 funckey R iangle 45 按ctrl R以45度旋转选中的物体此方法关闭软件
TD添加IE8支持

今天同事突然安装了IE8了说TestDirector8 0在IE8 0下无法使用于是在网上搜索最后终于知道解决方法了方法一下载插件安装TD自带的浏览器通用使用进入TestDirector 单击Add ins Page 在新
彻底解决Idea控制台的中文乱码问题

一出现问题 tomcat输入到idea控制台的信息出现中文乱码二解决方案 1 打开idea安装的目录 bin文件夹下找到idea exe vmoptions和idea64 exe vmoptions两个文件打开 2 将 Dfile
深度学习中的验证集和超参数简介

大多数机器学习算法都有超参数可以设置来控制算法行为超参数的值不是通过学习算法本身学习出来的尽管我们可以设计一个嵌套的学习过程一个学习算法为另一个学习算法学出最优超参数在多项式回归示例中有一个超参数多项式的次数作为容量超参数
Error response from daemon: manifest for java:8 not found: manifest unknown: manifest unknown

拉取镜像出现这等问题未找到java 8的守护程序清单的错误响应清单未知清单未知找不到该版本号换java9试试
【Python】matplotlib设置图片边缘距离和plt.lengend图例放在图像的外侧

一问题提出我有这样一串代码 import matplotlib pyplot as plt plt figure figsize 10 6 此处省略代码 legend append J plt legend legend plt xla
论文阅读 [TPAMI-2022] BDCN: Bi-Directional Cascade Network for Perceptual Edge Detection

论文阅读 TPAMI 2022 BDCN Bi Directional Cascade Network for Perceptual Edge Detection 论文搜索 studyai com 搜索论文 BDCN Bi Directio
【数据分析】利用机器学习算法进行预测分析（二）：线性回归（Linear Regression）

时间序列预测中的机器学习方法二线性回归 Linear Regression 本文是时间序列预测中的机器学习方法系列文章的第二篇如果您有兴趣可以先阅读前面的文章数据分析利用机器学习算法进行预测分析一移动平均 Moving

【数据分析】利用机器学习算法进行预测分析（二）：线性回归（Linear Regression）

时间序列预测中的机器学习方法（二）：线性回归（Linear Regression）

【数据分析】利用机器学习算法进行预测分析（二）：线性回归（Linear Regression） 的相关文章

随机推荐

热门标签

【数据分析】利用机器学习算法进行预测分析（二）：线性回归（Linear Regression）的相关文章