Python之数据分析（numpy裁剪、压缩、累乘，样本相关性曲线的绘制）

2023-05-16

文章目录

- - 一、裁剪、压缩、累乘
  - 二、样本相关性曲线

一、裁剪、压缩、累乘

1、裁剪

概念：指的是削掉波峰或波谷这类型的，将调用数组中小于min的元素设置为min，大于max的元素设置为max
用法：ndarray.clip(min=最小值, max=最大值)

2、压缩

概念：返回调用数组中满足给定条件的元素
用法：ndarray.compress(条件)

3、累乘

结果累乘：返回调用数组中各元素的乘积，是累乘结果
ndarray.prod()
过程累乘：返回调用数组中个元素计算累乘的过程数组，是累乘过程
ndarray.cumprod()

4、练习代码

import numpy as np
a = np.arange(1, 10).reshape(3, 3)
print(a)

# 裁剪
b = a.clip(min=3, max=7)
print('-------------\n', b)

# 压缩
c = a.compress(a.ravel() > 3).reshape(-1, 3)
# 压缩只能处理一维数组，因此需要ravel扁平化一下，在reshape变为任意行3列的二维数组
print('-------------\n', c)
# 因为条件两边都是布尔型数组，不是单单的布尔值，不能用and
# 当有多个条件时，需要用 & 符号做与运算，并且在两边加上小括号()
d = a.compress((3 < a.ravel()) & (a.ravel() < 7))
print('-------------\n', d)

# 累乘结果
e = a.prod()
print('-------------\n', e)
# 累乘过程
f = a.cumprod()
print('-------------\n', f)

二、样本相关性曲线

1、样本相关性系数与相关性矩阵

样本：
a = [a1, a2, …, an]
b = [b1, b2, …, bn]
均值：
ave(a) = (a1 + a2 + … + an)/n
ave(b) = (b1 + b2 +… + bn)/n
离差：
dev(a) = [a1, a2, …, an] - ave(a)
dev(b) = [b1, b2, …, bn] - ave(b)
方差：
var(a) = ave(dev(a)dev(a))
var(b) = ave(dev(b)dev(b))
标准差：
std(a) = sqrt(var(a))
std(b) = sqrt(var(b))
协方差：反映协同效应
cov(a,b) = ave(dev(a)dev(b))
cov(b,a) = ave(dev(b)dev(a))
样本相关性系数：
反映相关性程度，[-1, 1]之间的一个数，正负表示了相关性的方向，绝对值表示相关性的强弱，0表示不相关。
样本相关性矩阵
cov(a,b)/std(a)std(b))
cov(b,a)/std(b)std(a))

2、用numpy计算相关性矩阵

numpy.corrcoef(a, b)
a，b参数分别对应两条曲线的当天的日收益（收益理想差分-每天的收盘价）

3、样本相关性案例

import datetime as dt
import numpy as np
import matplotlib.pylab as mp
import matplotlib.dates as md


def dmy2ymd(dmy):
    dmy = str(dmy, encoding='utf-8')  # 转码dmy日期
    date = dt.datetime.strptime(dmy, '%d-%m-%Y').date()  # 获取时间对象
    ymd = date.strftime('%Y-%m-%d')
    return ymd

dates, beer_closing_prices = np.loadtxt(
    '0=数据源/beer_price2.csv', delimiter=',',
    usecols=(0, 4), unpack=True,
    dtype=np.dtype('M8[D], f8'),
    converters={0: dmy2ymd}
)
__, apple_closing_prices = np.loadtxt(
    '0=数据源/apple_price.csv', delimiter=',',
    usecols=(0, 4), unpack=True,
    dtype=np.dtype('M8[D], f8'),
    converters={0: dmy2ymd}
)
# 用理想差分（后一天减去前一天的值）求日收益，再除每天的收盘价
beer_returns = np.diff(beer_closing_prices)/beer_closing_prices[:-1]
apple_returns = np.diff(apple_closing_prices)/apple_closing_prices[:-1]

# 算样本平均值、离差、方差和标准差
ave_a = np.mean(beer_returns)  # 均值
dev_a = beer_returns - ave_a  # 离差
var_a = np.mean(dev_a * dev_a)  # 方差
std_a = np.sqrt(var_a)  # 标准差
ave_b = np.mean(apple_returns)
dev_b = apple_returns - ave_b
var_b = np.mean(dev_b * dev_b)
std_b = np.sqrt(var_b)

# 算协方差
cov_ab = np.mean(dev_a * dev_b)
cov_ba = np.mean(dev_b * dev_a)
# 相关性矩阵
covs = np.array([
    [var_a, cov_ab],
    [cov_ba, var_b]
])
stds = np.array([
    [std_a * std_a, std_a * std_b],
    [std_b * std_a, std_b * std_b]
])
corr = covs / stds
print(corr, end='\n--------------------\n')  # 打印相关性矩阵，左斜对角线是相关性系数，即相关度；右斜对角线都是1

# 用numpy计算相关性矩阵
corr2 = np.corrcoef(beer_returns, apple_returns)
print(corr2)


# 曲线图基础设置
mp.figure('Correlation of returns', facecolor='lightgray')
mp.title('Correlation of returns', fontsize=20)
mp.xlabel('Date', fontsize=14)
mp.ylabel('Returns', fontsize=14)

# 主刻度设置为以周一为起始的星期格式
ax = mp.gca()  # 获取刻度线（坐标轴）
ax.xaxis.set_major_locator(
    md.WeekdayLocator(byweekday=md.MO)
)
# 次刻度设置为以天为单位
ax.xaxis.set_minor_locator(
    md.DayLocator()
)
# 主刻度的格式化
ax.xaxis.set_major_formatter(
    md.DateFormatter('%d %b %Y')
)

mp.tick_params(labelsize=10)  # 字体
mp.grid(linestyle=':')  # 网格线

# 绘制曲线
dates = dates.astype(md.datetime.datetime)  # 将日期标准化成numpy的日期

mp.plot(dates[:-1], beer_returns, c='dodgerblue', label='Beer')
mp.plot(dates[:-1], apple_returns, c='limegreen', label='Apple')


mp.legend()  # 显示图例
mp.gcf().autofmt_xdate()  # 设置格式展示的自动化调整
mp.show()  # 显示图像

4、案例效果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

之数据分析

样本相关性曲线的绘制

Python之数据分析（numpy裁剪、压缩、累乘，样本相关性曲线的绘制）的相关文章

SQLAlchemy 关系错误：对象没有属性“c”

I used sql自动编码 https code google com p sqlautocode 生成我的模型和所有关系我正在尝试做一个简单的查询例如 obj session query Venue filter Venue sym
如何分组显示argparse子命令？

对于具有许多子命令的程序我想在 help 输出中显示它们按逻辑分组 Python argparse 有一个add argument group http docs python org library argparse html argp
使用Python选择屏幕区域

我正在用 Python 开发一个屏幕截图实用程序目前它是专门针对 Linux 的到目前为止我已经能够拍摄完整桌面的屏幕截图并将其上传到 Imgur 然后将链接复制到剪贴板现在我想扩展到诸如活动窗口或特定选择的屏幕截图之类的功能如
为什么 Python 中的无分支函数和内置函数速度较慢？

我发现了 2 个无分支函数它们可以在 python 中查找两个数字的最大值并将它们与 if 语句和内置 max 函数进行比较我认为无分支或内置函数将是最快的但最快的是 if 语句函数有人知道这是为什么吗以下是功能 If 语句 2
合并一个对（元组）列表？

从链接对的列表中我想将这些对组合成公共 ID 组这样我就可以将 group ids 写回数据库例如 UPDATE table SET group n WHERE id IN Example 1 2 3 4 1 5 6 3 7 8 be
time.sleep - TypeError：需要一个浮点[关闭]

Closed 这个问题是无法重现或由拼写错误引起 help closed questions 目前不接受答案 time sleep 2 TypeError a float is required 我该如何解决我不确定我应该在这里做什么您
如何检查Docker中是否安装了python包？

我使用Dockerfile成功构建了一个容器但是我的代码在容器中不起作用如果我手动安装所有软件包它确实有效我假设我搞砸了一些导致 docker 没有正确安装软件包的事情所以我想检查Docker容器中是否安装了python包最
在 Flask 中将配置文件作为字典读取

在 instance app cfg 我已经配置 test test 在我的烧瓶文件 app py 中 with app open instance resource app cfg as f config f read print con
从 SQL 数据库导入表并按日期过滤行时，将 Pandas 列解析为日期时间

我有一个DataFrame列名为date 我们如何将日期列转换解析为DateTime object 我使用 Postgresql 数据库加载日期列sql read frame 的一个例子date列是2013 04 04 我想做的是选择
Keras CNN 回归模型损失低，准确度为 0

我在 keras 中遇到这个 NN 回归模型的问题我正在研究一个汽车数据集以根据 13 个维度预测价格简而言之我已将其读取为 pandas 数据帧将数值转换为浮点数缩放值然后对分类值使用 one hot 编码这创建了很多新列
如何在 django-rest-framework 查询集响应中添加注释数据？

我正在为查询集中的每个项目生成聚合 def get queryset self from django db models import Count queryset Book objects annotate Count authors
Python 正则表达式中的 \B+ 与 [\B]+ 与 [^\b]+

我在回答 SO 问题时遇到了一个我不明白的问题我创建了一个简化的示例来说明该问题场景我正在测试两个标记不是随机的英语单词在字符串中至少相距一定距离在这个例子中我们有一个动物列表我们要确保在羊和狼之间至少还有其他三种动物否则
在 Django 中删除特定用户的所有会话的最优化方法？

我正在运行 Django 1 3 使用会话中间件和身份验证中间件 settings py SESSION ENGINE django contrib sessions backends db Persist sessions to DB S
如何导入 boto3 ssm ParameterNotFound 异常？

我想import the exception当一个boto3 ssm找不到参数get parameter 我正在尝试添加一些额外的内容ssm的功能moto图书馆但我现在很困惑 gt gt gt import boto3 gt gt gt
Django model.foreignKey 并返回 self.text 错误

所以我正在 Django 中处理 model py 但遇到了 2 个 pylint 错误我不明白为什么这是 pylint 的问题还是我在代码中做错了什么 E1120 No value for argument on delete in
如何在 Windows 10 上将 ipynb 文件与 Jupyter Lab（来自 Anaconda）关联

我使用 Windows 10 Jupiter Lab 是从 Anaconda 安装的我想交往ipynb使用 Jupyter Lab 保存文件这样当我双击ipynb文件应使用 Jupyter Lab 打开我该怎么做 Install n
使用 pandas 中的正则表达式在另一列中查找一列中的值

我有一个包含两列字符串的 pandas 数据框我想识别第一列中字符串的所有行 s1 出现在第二列 s2 所以如果我的专栏是 abc abcd ef gh z1y xxyyzz 我想保留第一行但不想保留第二行我能想到的唯一方法是迭代数
检查一个数是否是完全平方数

如何检查一个数是否是完全平方数速度并不重要目前只是工作 See also Integer square root in python https stackoverflow com questions 15390807 依赖任何浮点计
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran
网站可以检测您何时将 Selenium 与 chromedriver 结合使用吗？

我一直在使用 Chromedriver 测试 Selenium 我注意到有些页面可以检测到您正在使用 Selenium 即使根本没有自动化即使我只是通过 Selenium 使用 Chrome 手动浏览 Xephyr https en wi

随机推荐

使用log4j2,控制台可以正常输出日志,但是log4j2日志文件为空?

Log4j 2 does not write to file md 问题使用log4j2 控制台可以正常输出日志 xff0c 但是log4j2日志文件为空 xff1f 配置文件log4j2 xml配置如下 span class hljs
Python之网络爬虫（Xpath语法、Scrapy框架的认识）

文章目录一 Xpath语法二 Scrapy框架的认识一 Xpath语法 xpath是一门在XML文档中查找信息的语言 1 节点 Node 元素属性文本命名空间文档 xff08 根 xff09 节点 2 节点关系父 xff08
Python之数据分析（Numpy的使用、多维数组、数据类型）

文章目录写在前面一数据分析与Numpy二多维数组三 Numpy的数据类型写在前面代码中的np表示的是numpy xff0c 因为导入的时候是 xff1a import numpy as np 一数据分析与Numpy 1 数据分析
Python之数据分析（Numpy的数组切片、数组变维、组合与拆分）

文章目录一 Numpy的切片二数组变维三组合与拆分一 Numpy的切片 1 格式数组起始终止步长 2 缺省值缺省起始 xff1a 步长为正 xff0c 首 xff1b 步长为负 xff0c 尾缺省终止 xff1a 步长为
Python之数据分析（Numpy通用属性、数据可视化与matplotlib库通用函数）

文章目录一 ndarray属性二数据可视化一 ndarray属性 1 通用属性 dtype xff1a 数组类型shape xff1a 数组维度T xff1a 转置视图ndim xff1a 维数 xff08 一维是1 xff0c 二维
Python之数据分析（figure图形对象、Numpy连线特殊点、图像多元布局）

文章目录一点的绘制二 figure图形对象三多元布局一点的绘制 1 绘制点需要提前设置点 span class token comment 设置点 xff0c 在plot后面绘制点 span xo span class token
Python之数据分析（坐标刻度定位器、散点图、柱状图、颜色区域填充）

文章目录写在前面 xff1a 一坐标刻度定位器二散点图三柱状图四颜色填充写在前面 xff1a import numpy as npimport matplotlib pylab as mp因此文章中的np就代表numpy库 xf
Python之数据分析（Numpy数据可视化：等高线图、热力图、饼图）

文章目录写在前面 xff1a 一等高线图二热力图三饼图写在前面 xff1a import numpy as npimport matplotlib pylab as mp因此文章中的np就代表numpy库 xff0c mp就代表p
Python之数据分析（动画效果、animation模块、气泡动画）

文章目录 1 动画效果2 原理分析3 动画源码本篇文章其实与数据分析没有太大关系 xff0c 因为是涉及到数据分析的数据可视化方面的内容 xff0c 因此也必须要学习主要内容是如何制作一个气泡动画效果 xff0c 当然也是使用matpl
Python之数据分析（生成动态图像、示波器效果）

文章目录 1 效果展示2 动画分析3 案例源码 1 效果展示动态更新波形图 xff1a 静态图 xff1a 2 动画分析这是一个使用了生成器的动画效果 xff0c 生成器里面会不断生成新的值 xff0c 然后放到更新函数里面在指定的in
Python之数据分析（Numpy中读取与保存数据文件、将数据文件制成K线图）

文章目录一读取与保存文件二将数据文件制成K线图一读取与保存文件 1 读取文件格式 numpy loadtxt 文件名 delimiter 61 分割符 usecols 61 选择列 unpack 61 是否解包 True Fals
使用Laravel提交POST请求出现The page has expired due to inactivity错误

使用Laravel提交POST请求出现The page has expired due to inactivity Please refresh and try again 问题提交POST请求 xff0c 出现如下错误 xff1a Th
Python之数据分析（算数平均值、加权平均值、最大值与最小值）

文章目录一算数平均值二加权平均值三最大值与最小值一算数平均值 1 平均值的作用平均数是表示一组数据集中趋势的量数它是反映数据集中趋势的一项指标一组数据少则几十 xff0c 多则上千 xff0c 甚至于过百万 xff0c 由
Python之数据分析（中位数、波动范围、极差、离差、方差、标准差）

文章目录一中位数二波动范围与极差三离差方差与标准差一中位数 1 中位数将多个样本按照大小顺序排列 xff0c 居于中间位置的元素为中位数 2 经典求法 1 xff09 A xff1a 样本集 2 xff09 L xff1a
Python之数据分析（规范数据生成器Faker，学习、数据分析、开发测试专用）

文章目录写在前面一生成数据写入csv文件中二基础信息三邮箱信息四地理信息五数字信息六时间信息七网络基础信息八浏览器信息九文本与文本加密信息写在前面无论是在我们学习数据分析之际 xff0c 还是在实际的开发测试过程中
Python之数据分析（星期均值、星期汇总、Numpy的take与where方法、apply_along_axis函数）

文章目录一处理星期数据二 apply along axis函数的用法三星期汇总案例一处理星期数据 1 datetime对象的weekday 方法该方法将会用0到6这七个数字表示周一到周日 2 计算周一到周五数据平均值的三种方法
Python之数据分析（卷积运算、移动均线、布林带）

文章目录一卷积运算二移动均线的绘制三布林带绘制本篇依然是数据分析里数据可视化方面的内容 xff0c 主要内容有一维卷积完全卷积有效卷积移动均线的绘制布林带的绘制一卷积运算 1 关于卷积这里说到的卷积计算 xff0c
Python之数据分析（numpy线性模型、线性预测、线性拟合）

文章目录一线性预测二线性拟合线性模型分为两种 xff1a 线性预测和线性拟合 xff0c 这两种都可以起到预测走势和数据点的作用 xff0c 当然 xff0c 预测是存在一定误差的 xff0c 因此这种预测图像仅供参考一线性预测
小白打基础一定要吃透的11类 Python 内置函数

内置函数就是python给你提供的拿来直接用的函数 xff0c 比如print xff0c input等截止到python版本3 6 2 python一共提供了68个内置函数本人在复习过程中将其整理了出来 xff0c 做成了思维导图的
Python之数据分析（numpy裁剪、压缩、累乘，样本相关性曲线的绘制）

文章目录一裁剪压缩累乘二样本相关性曲线一裁剪压缩累乘 1 裁剪概念 xff1a 指的是削掉波峰或波谷这类型的 xff0c 将调用数组中小于min的元素设置为min xff0c 大于max的元素设置为max用法 xff1a

Python之数据分析（numpy裁剪、压缩、累乘，样本相关性曲线的绘制）

文章目录

一、裁剪、压缩、累乘

二、样本相关性曲线

Python之数据分析（numpy裁剪、压缩、累乘，样本相关性曲线的绘制） 的相关文章

随机推荐

热门标签

Python之数据分析（numpy裁剪、压缩、累乘，样本相关性曲线的绘制）的相关文章