在 scipy 中创建新的发行版

2024-05-15

我试图根据我拥有的一些数据创建一个分布，然后从该分布中随机抽取。这是我所拥有的：

from scipy import stats
import numpy

def getDistribution(data):
    kernel = stats.gaussian_kde(data)
    class rv(stats.rv_continuous):
        def _cdf(self, x):
            return kernel.integrate_box_1d(-numpy.Inf, x)
    return rv()

if __name__ == "__main__":
    # pretend this is real data
    data = numpy.concatenate((numpy.random.normal(2,5,100), numpy.random.normal(25,5,100)))
    d = getDistribution(data)

    print d.rvs(size=100) # this usually fails

我认为这正在做我想做的事情，但是当我尝试这样做时，我经常收到错误（见下文）d.rvs(), and d.rvs(100)从来不工作。难道我做错了什么？有没有更简单或更好的方法来做到这一点？如果这是 scipy 中的错误，有什么方法可以解决它吗？

最后，是否有更多关于创建自定义发行版的文档？我发现的最好的文档是 scipy.stats.rv_continuous 文档，它非常简洁，并且不包含任何有用的示例。

回溯：

回溯（最近一次调用最后一次）：文件“testDistributions.py”，行 19、在打印 d.rvs(size=100) 文件“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions.py” , 696路，房车 vals = self._rvs(*args) 文件“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions.py” , 第 1193 行，在 _rvs 中 Y = self._ppf(U,*args) 文件“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions. py", 第 1212 行，在 _ppf 中返回 self.vecfunc(q,*args) 文件“/usr/local/lib/python2.6/dist-packages/numpy-1.6.1-py2.6-linux-x86_64.egg/numpy/lib/function_base.py “， 1862 行，在calltheout = self.thefunc(*newargs) 文件“/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/stats/distributions.py” , 第 1158 行，在 _ppf_single_call 中返回optimize.brentq(self._ppf_to_solve, self.xa, self.xb, args=(q,)+args, xtol=self.xtol) 文件 “/usr/local/lib/python2.6/dist-packages/scipy-0.10.0-py2.6-linux-x86_64.egg/scipy/optimize/zeros.py”， 366 号线，布伦特克 r = _zeros._brentq(f,a,b,xtol,maxiter,args,full_output,disp) ValueError: f(a) 和 f(b) 必须具有不同的符号

Edit

对于那些好奇的人，请按照下面答案中的建议，以下是有效的代码：

from scipy import stats
import numpy

def getDistribution(data):
    kernel = stats.gaussian_kde(data)
    class rv(stats.rv_continuous):
        def _rvs(self, *x, **y):
            # don't ask me why it's using self._size 
            # nor why I have to cast to int
            return kernel.resample(int(self._size)) 
        def _cdf(self, x):
            return kernel.integrate_box_1d(-numpy.Inf, x)
        def _pdf(self, x):
            return kernel.evaluate(x)
    return rv(name='kdedist', xa=-200, xb=200)

特别是你的回溯：

rvs 使用 cdf 的逆 ppf 来创建随机数。由于您没有指定 ppf，因此它是通过求根算法计算的，brentq. brentq使用下限和上限来搜索函数为零的值 at 的位置（找到 x 使得 cdf(x)=q，q 是分位数）。

默认的限制，xa and xb，在您的示例中太小。以下内容适用于 scipy 0.9.0，xa, xb可以在创建函数实例时设置

def getDistribution(data):
    kernel = stats.gaussian_kde(data)
    class rv(stats.rv_continuous):
        def _cdf(self, x):
            return kernel.integrate_box_1d(-numpy.Inf, x)
    return rv(name='kdedist', xa=-200, xb=200)

目前有一个针对 scipy 的拉取请求来改进这一点，因此在下一个版本中xa and xb将自动扩展以避免f(a) and f(b) must have different signs例外。

关于此的文档并不多，最简单的是遵循一些示例（并在邮件列表上询问）。

编辑：添加

pdf：既然你有 gaussian_kde 也给出的密度函数，我会添加_pdf方法，这将使一些计算更加高效。

编辑2：添加

rvs：如果你对生成随机数感兴趣，那么gaussian_kde有一个重采样方法。可以通过对数据进行采样并添加高斯噪声来生成随机样本。因此，这将比使用 ppf 方法的通用 rvs 更快。我会编写一个 ._rvs 方法，只调用 gaussian_kde 的重新采样方法。

预计算ppf：我不知道有什么通用方法来预先计算 ppf。然而，我想到的方法（但到目前为止从未尝试过）是在许多点预先计算 ppf，然后使用线性插值来近似 ppf 函数。

编辑3：关于_rvs回答 Srivatsan 在评论中的问题

_rvs是公共方法调用的特定于发行版的方法rvs. rvs是一个通用方法，它执行一些参数检查、添加位置和比例并设置属性self._size这是请求的随机变量数组的大小，然后调用分布特定方法._rvs或者它是通用的对应物。中的额外参数._rvs是形状参数，但由于本例中没有形状参数，*x and **y是多余的和未使用的。

我不知道效果如何size或形状.rvs该方法适用于多变量情况。这些分布是为单变量分布设计的，可能无法完全适用于多变量情况，或者可能需要一些重塑。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 scipy 中创建新的发行版的相关文章

将字符串转换为带有毫秒和时区的日期时间 - Python

我有以下 python 片段 from datetime import datetime timestamp 05 Jan 2015 17 47 59 000 0800 datetime object datetime strptime t
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
Python 多处理示例不起作用

我正在尝试学习如何使用multiprocessing但我无法让它发挥作用这是代码文档 http docs python org 2 library multiprocessing html from multiprocessing imp
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
如何使用包含代码的“asyncio.sleep()”进行单元测试？

我在编写 asyncio sleep 包含的单元测试时遇到问题我要等待实际的睡眠时间吗 I used freezegun到嘲笑时间当我尝试使用普通可调用对象运行测试时这个库非常有用但我找不到运行包含 asyncio sleep 的测
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
__del__ 真的是析构函数吗？

我主要用 C 做事情其中析构函数方法实际上是为了销毁所获取的资源最近我开始使用python 这真的很有趣而且很棒我开始了解到它有像java一样的GC 因此没有过分强调对象所有权构造和销毁据我所知 init 方法对我来说在 py
从 scikit-learn 导入 make_blobs [重复]

这个问题在这里已经有答案了我收到下一个警告 D Programming Python ML venv lib site packages sklearn utils deprecation py 77 DeprecationWarning
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
Python 中的二进制缓冲区

在Python中你可以使用StringIO https docs python org library struct html用于字符数据的类似文件的缓冲区内存映射文件 https docs python org library mmap
Abaqus 将曲面转化为集合

我一直试图在模型中找到两个表面的中心参见照片但未能成功它们是元素表面面查询中没有选项可以查找元素表面的中心只能查找元素集的中心找到节点集的中心也很好但是我的节点集没有出现在工具 gt 查询 gt 质量属性选项中而且我找不到
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Numpy 优化

我有一个根据条件分配值的函数我的数据集大小通常在 30 50k 范围内我不确定这是否是使用 numpy 的正确方法但是当数字超过 5k 时它会变得非常慢有没有更好的方法让它更快 import numpy as np N 5000
Python 3 中“map”类型的对象没有 len()

我在使用 Python 3 时遇到问题我得到了 Python 2 7 代码目前我正在尝试更新它我收到错误类型错误 map 类型的对象没有 len 在这部分 str len seed candidates 在我像这样初始化它之前 se
检查所有值是否作为字典中的键存在

我有一个值列表和一本字典我想确保列表中的每个值都作为字典中的键存在目前我正在使用两组来确定字典中是否存在任何值 unmapped set foo set bar keys 有没有更Pythonic的方法来测试这个感觉有点像黑客您的方
循环标记时出现“ValueError：无法识别的标记样式 -d”

我正在尝试编码pyplot允许不同标记样式的绘图这些图是循环生成的标记是从列表中选取的为了演示目的我还提供了一个颜色列表版本是Python 2 7 9 IPython 3 0 0 matplotlib 1 4 3 这是一个简单的代
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

Objective C (iphone) 关于发布的问题

如果我创建一个视图并将其添加为子视图并将其添加到数组中是否必须释放它两次 UIView cat UIView alloc initWithFrame someFrame self view addSubview cat self ani
AVPlayer 不播放音频 - iOS 9，目标 - C

我正在尝试从我的应用程序中的 URL 播放音频 iOS 8 中一切都按预期发生模拟器和物理设备对于 iOS 9 它可以在模拟器中运行但在设备上音频根本无法播放出现流媒体如果我单击播放进度条还显示音频正在加载并播放但没有声音
计算特定产品类别的购物车商品数量

我试图仅从 WooCommerce 中的特定产品类别获取购物车中的商品数量我正在为一家酒厂做一个网站它有酒精和非酒精产品所有葡萄酒都属于葡萄酒主类别或类别 ID 34 其下有许多子类别和产品对于属于此类别的任何商品我需要知道此
IEnumerable.Except 不起作用，那么我该怎么办？

我有一个 linq to sql 数据库非常简单我们有 3 个表项目和用户有一个名为 User Projects 的连接表将它们连接在一起我已经有了一个获得的工作方法IEnumberable
为 Logstash 中的新字段设置 Elasticsearch Analyzer

通过使用GROK filter 我们可以向Logstash添加新字段但是我想知道如何为该特定字段设置分析器例如我有一个新的 id 字段其中有一个字段例如a b 但是 Elasticsearch 附带的普通分析器会将其分解为a a
阻止通过 GET 传递“提交”按钮值？

我正在尝试通过 GET 传递表单信息这很重要这样人们就可以将表单选择中过滤后的数据发送给其他人问题是使用下面的代码它不仅传递过滤器信息还传递提交表单值如下所示 index php month filter Feb year f
Oracle - 获取星期几

今天是星期二为什么当我运行这个 SQL 语句时它说今天不是星期二 SELECT CASE WHEN TO CHAR sysdate Day Tuesday THEN Its Tuesday ELSE Its Not Tuesday EN
正则表达式将单词的开头和结尾与元音匹配

我正在尝试以下操作Regex aeiou aeiou 但它不起作用我测试了 abcda 并且不匹配它应该只是 aeiou aeiou 额外的您需要第二个字符是一个文字点例如 a hello 但由于您的测试用例 abcda 不包含这样
标准的能力

我发现了一些使用标准的旧例子here http www serpentine com blog 2009 09 29 criterion a new benchmarking library for haskell 看起来好像早在 2009
使用点播资源从资产目录获取视频

我将标签 tokyo 归因于我的 mp4 视频并将其设置为在应用程序安装过程中已安装最初我使用路径从我的资源加载它但是现在它不同了因为它位于资产目录中阅读文档后我尝试了类似的操作 NSBundleResourceRequest
Promise 构造函数回调的主体何时执行？

假设我有以下代码构造一个Promise function doSomethingAsynchronous return new Promise resolve gt const result doSomeWork setTimeout gt
打印到 stdout 会导致阻塞的 goroutine 运行吗？

作为一个愚蠢的基本线程练习我一直在尝试实现理发师睡觉的问题 http en wikipedia org wiki Sleeping barber problem在戈兰对于通道来说这应该很容易但我遇到了一个 heisenbug 也就是
使用restsharp序列化对象并将其传递给WebApi而不是序列化列表

我有一个看起来像的视图模型 public class StoreItemViewModel public Guid ItemId get set public List
partitioningBy 必须生成一个包含 true 和 false 条目的映射吗？

The 分区依据 https docs oracle com javase 8 docs api java util stream Collectors html partitioningBy java util function Pred
在 Sql STUFF 命令中将最后一项的逗号分隔符替换为“and”

如果我查询的输出是英国美国印度是否可以像英国美国那样显示查询结果and India 这是我的查询 Select stuff Select Distinct Country as text from tbl Country where
javascript/jquery 禁用点击提交按钮，防止重复提交

所以我的提交按钮如下所示 a href img src images user create product png border 0 a 当我双击它时显然会双重提交问题是我将信息保存在数据库中因此那里会有重复的信息我不想那样这
如何通过 javascript 和 ajax 调用 Scala 中的方法？

我不知道我的标题是否有点误导但这是我真正需要帮助的我正在获取这个网址 get fb login fbEmail function data console log data 这是我的路线 GET fb login email prese
新任务中使用的依赖注入服务

我在需要时使用依赖项注入来访问我的服务但我现在想要创建一个并发任务但这会由于依赖项注入对象及其生命周期而导致问题我读过这篇文章标题防止多线程 Link http mehdi me ambient dbcontext in ef6
如何在 ng-repeat 中使用 $index 来启用类并显示 DIV？

我有一套 li 元素 ul li a href href ABC a li li a href href DEF a li li a href href A index a li ul li
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss

在 scipy 中创建新的发行版

在 scipy 中创建新的发行版 的相关文章

随机推荐

热门标签

在 scipy 中创建新的发行版的相关文章