正态分布(也称为高斯分布)是统计中最常用的连续分布。正态分布在统计中至关重要,主要有以下三个原因:
正态分布由图经典钟形表示。在正态分布中,您可以计算值以一定范围或间隔出现的概率。但是,由于将连续变量的概率测量为曲线下的面积,因此来自连续分布(例如正态分布)的特定值的确切概率为零。例如,时间(以秒为单位)被测量并且不计数。因此,您可以确定网络浏览器上视频下载时间在7到10秒之间的概率,或者下载时间在8到9秒之间的概率,或者下载时间在7.99到90秒之间的概率。8.01秒。但是,下载时间恰好为8秒的概率为零。正态分布具有几个重要的理论特性
![bbf076cce36f210c5bb0601aa23b8604.png](https://img-blog.csdnimg.cn/img_convert/bbf076cce36f210c5bb0601aa23b8604.png)
装满10,000瓶软饮料的量
实际上,许多变量的分布与正态分布的理论性质非常相似。表中的数据代表最近一天装满10.000升1升瓶中的软饮料量。感兴趣的连续变量,即软饮料的填充量,可以通过正态分布来近似。10,000瓶中的软饮料量的测量值在1.05至1.055升之间,并围绕该组对称分布,形成钟形图案。图显示了相对频率直方图和多边形,用于填充10,000个瓶子的数量分布。
![f49cfa5952f6f19fc368f54b95049f97.png](https://img-blog.csdnimg.cn/img_convert/f49cfa5952f6f19fc368f54b95049f97.png)
10,000瓶软饮料中的相对频率直方图
对于这些数据,正态分布的前三个理论特性得到了近似满足。但是,第四范围不是无限的。装满瓶子的数量不能为零或小于0,也不能装满超出其容量的瓶子。从表中可以看到,每10,000个装满的瓶子中只有48个预期含有1.08
升或更高,并且相等的数字预计少于1.025升。
符号f(X)用于表示概率密度函数。正态分布的概率密度函数在公式中给出。
![5a428b1116fcc83f7e54a11fbaf28800.png](https://img-blog.csdnimg.cn/img_convert/5a428b1116fcc83f7e54a11fbaf28800.png)
e =用2.71828近似的数学常数
π=用3.14159近似的数学常数
μ =平均值
σ =标准偏差
X =连续变量的任何值,其中-∞
尽
管公式看起来很复杂,但由于e和是数学常数,所以随机变量X的概率仅取决
于正态分布的两个参数-平均值μ和标准偏差σ。
每次指定μ和σ的特定值时,都会生成不同的正态概率分布。
图说明了这一原理。
![5c6a1bc8c672a1f1c7909672c2ffc7ea.png](https://img-blog.csdnimg.cn/img_convert/5c6a1bc8c672a1f1c7909672c2ffc7ea.png)
标记为A和B的分布具有相同的平均值(μ),但具有不同的标准偏差。
分布A和C的标准偏差(σ)相同,但均值不同。
分布B和C对于μ和σ具有不同的值。
计算正态概率要计算正态概率,首先需要使用公式
![be377ae03179a81b07fb7a1ff627df03.png](https://img-blog.csdnimg.cn/img_convert/be377ae03179a81b07fb7a1ff627df03.png)
所示的转换公式将正态分布变量X转换为标准化正态变量Z。
应用此公式可让您在正态概率表中查找值,并避免了公式(1)可能需要的繁琐而复杂的计算。转换公式将计算出一个Z值,该值表示标准值单位中的x值与平均值u的差。变量X具有平均值u和标准偏差σ,而标准化变量Z始终具有平均值u = 0和标准偏差
σ = 1。然后,您可以使用表(累积标准化正态分布)来确定概率。例如,过去的数据表明下载视频的时间是正态分布的,平均时间为7秒,标准差为
σ = 2秒。从图中可以看到,
![01920b7ed6949758430189f47c4f4fb6.png](https://img-blog.csdnimg.cn/img_convert/01920b7ed6949758430189f47c4f4fb6.png)
每个度量X都有一个对应的标准化度量Z,它是根据公式(2)(转换公式)计算得出的。因此,9秒的下载时间等于平均数之上的1个标准单位(1个标准偏差),因为Z =(9-7) /2= 11秒的下载时间等于-3个标准化单位(3个标准差)低于均值,因为Z =(1-7)/2= -3在上图中,标准偏差是测量单位。换句话说,9秒的时间比7秒的平均时间高2秒(1个标准差)或更慢。同样,1秒的时间比平均时间低6秒(3个标准差)或更快。为进一步说明转换公式,假设另一个网站对于正态分布的视频具有下载时间,平均时间为= 4秒,标准偏差 = 1秒。下图显示了这种分布。
![708f224c95e9011c3281e2e4f473d67e.png](https://img-blog.csdnimg.cn/img_convert/708f224c95e9011c3281e2e4f473d67e.png)
将这些结果与MyTVLab网站的结果进行比较,您会发现5秒的下载时间比平均下载时间高出1个标准差,因为Z =(5-4)/1= +1
1秒的时间比平均下载时间低3个标准偏差,因为
Z = (1-4)/1= -3计算出Z值后,您可以使用累积标准化正态分布中的值表(查找正态概率。假设您想查找MyTVLab网站的下载时间少于9秒。假设平均u = 7秒,标准偏差σ = 2秒,则将X = 9转换为标准单位。导致Z值为+1.00使用此值,您可以使用表查找法线下的累积面积,该面积小于Z = +1.00(在其左侧)。要读取小于Z = +1.00的曲线下的概率或面积,请向下扫描表中的Z列,直到在1.0的Zrow中找到感兴趣的Z值(十分之一)。接下来,阅读该行,直到与包含Z值的第100位的列相交为止。因此,在表的主体中,Z = 1.00的概率对应于行Z = 1.0与列Z = .00的交集。下表显示了该交集。
![dd8b10c119d8f82c93b775c6e6e102f9.png](https://img-blog.csdnimg.cn/img_convert/dd8b10c119d8f82c93b775c6e6e102f9.png)
在交叉点处列出的概率为0.8413,这意味着下载时间少于9秒的可能性为84.13%。下图以图形方式显示了这种可能性。
![c01642bcff9e677cb9fc3e8e769d07cd.png](https://img-blog.csdnimg.cn/img_convert/c01642bcff9e677cb9fc3e8e769d07cd.png)
从累积标准化正态分布确定小于Z的面积
但是,对于其他网站,您看到5秒的时间比4秒的平均时间高1个标准化单位。因此,下载时间少于5秒的概率也为0.8413。下图显示,不管正态分布变量的均值u和标准偏差σ如何,公式(2)都可以将X值转换为Z值。
![a36e8fa26036e6fab3effeb2946c27b9.png](https://img-blog.csdnimg.cn/img_convert/a36e8fa26036e6fab3effeb2946c27b9.png)
演示两条法线下对应累积部分的比例转换
示例1
求P(X> 9)
MyTVLab网站的视频下载时间超过9秒的概率是多少?
解:下载时间少于9秒的概率为0.8413。因此,下载时间将超过9秒的概率是1-0.8413 = 0.1587。下图说明了此结果。
![afb68fea09c600fb55982029a015d898.png](https://img-blog.csdnimg.cn/img_convert/afb68fea09c600fb55982029a015d898.png)
例2,
求P(X <7 or X> 9)
MyTVLab网站的视频下载时间少于7秒或超过9秒的概率是多少?
解:要找到此概率,您可以分别计算下载时间小于7秒的概率和下载时间大于9秒的概率,然后将这两个概率相加。下图说明了此结果。
![2ecf9e877816b17fdb310da41bec008d.png](https://img-blog.csdnimg.cn/img_convert/2ecf9e877816b17fdb310da41bec008d.png)
因为平均值是7秒,并且平均值等于正态分布中的中值,所以50%的下载时间在7秒以下。从例1中,您知道下载时间大于9秒的概率为0.1587。因此,下载时间低于7秒或超过9秒(P(X <7或X> 9))的概率为0.5000 + 0.1587 = 0.6587。
例3,
求P(5
MyTVLab网站的视频下载时间在5到9秒之间(即P(5
解:在下图中,您可以看到感兴趣的区域位于两个值5和9之间。
![199801caeef1470db7da72b491cf15c4.png](https://img-blog.csdnimg.cn/img_convert/199801caeef1470db7da72b491cf15c4.png)
例3的结果使您可以声明,对于任何正态分布,这些值的68.26%将落在平均值的±1标准偏差之内。从下图中,您可以看到95.44%的值将落在平均值的±2标准偏差之内。因此,95.44%的下载时间在3到11秒之间。
![669ce21c77c5a50df27bcdc3dd1f7d95.png](https://img-blog.csdnimg.cn/img_convert/669ce21c77c5a50df27bcdc3dd1f7d95.png)
从下图中可以看到,该值的99.73%在平均值的上下3个标准偏差之内。
![b11cd71f5e3f8a73f2d99ee9c31b2886.png](https://img-blog.csdnimg.cn/img_convert/b11cd71f5e3f8a73f2d99ee9c31b2886.png)
从而。99.73%的下载时间在1到13秒之间。因此,不太可能(0.0027,或10,000中只有27)下载时间太快或太慢,以至于不到1秒或超过13秒。通常,您可以使用6σ(即均值以下3个标准偏差到均值以上3个标准偏差)作为正态分布数据范围的实际近似值。对于任何正态分布的情况。
约68.26%的值落在平均值的±1标准偏差内
约95.44%的值落在平均值的±2标准偏差内
约99.73%的值落在平均值的±3标准偏差内
寻找X值示例1至3要求您使用正态分布表在正态曲线下查找与特定X值相对应的面积。对于其他情况,您可能需要执行相反的操作:查找对应于特定区域的X值。通常,您可以使用公式来查找X值。
![f2923fe8e44103c1ae1f1d645746ec83.png](https://img-blog.csdnimg.cn/img_convert/f2923fe8e44103c1ae1f1d645746ec83.png)
要找到与已知概率相关的特定值,请按照下列步骤操作:•绘制正态曲线,然后将平均值和X的值放在X和Z刻度上。•查找小于X的累积面积。•遮盖感兴趣的区域。•使用表,确定正态线下面积对应的Z值
曲线小于X。•使用公式求解X:
示例4
求出X值为0.10的累积概率。
MyTVLab视频的最快10%下载完成之前需要多少时间(以秒为单位)?
解:由于预计10%的视频将在X秒内下载,因此法线下小于该值的面积为0.1000。搜索面积或概率为0.1000。最接近的结果是0.1003,如表所示
![e08431726e00aa80a1b4f5c61a4cf29c.png](https://img-blog.csdnimg.cn/img_convert/e08431726e00aa80a1b4f5c61a4cf29c.png)
在正态分布线下找到对应于特定累积面积(0.10)的Z值
从该区域到表格的页边空白,您发现与特定的Z行(-1.2)和Z列(.08)相对应的Z值为1.28(见图)。
![512023e340d7be55f4c9d926cfb02910.png](https://img-blog.csdnimg.cn/img_convert/512023e340d7be55f4c9d926cfb02910.png)
找到Z后,即可使用公式确定X值。
替换u = 7、σ= 2和Z = -1.28,
X = u + Zσ
X = 7 +(-1.28)(2)= 4.44秒
因此,下载时间的10%为4.44秒或更短。
例5,查找包含95%下载时间的X值。
围绕平均值对称分布的X的下限值和上限值是多少,包括MyTVLab网站上视频的95%的下载时间?
解:首先,您需要找到X的较低值(称为XL)。然后,找到X的上限值(称为Xu),因为95%的值在XL和Xu之间,并且XL和XU与平均值均等距离,所以2.5%的值在XL之下(参见图)。
![360c448e9353d8a9753a1ade2d851874.png](https://img-blog.csdnimg.cn/img_convert/360c448e9353d8a9753a1ade2d851874.png)
尽管X未知,但是您可以找到相应的Z值,因为曲线下的面积小于该Z的值为0.0250。使用表搜索概率0.0250。
![e21829a1f58e0be03081bf71053a2b12.png](https://img-blog.csdnimg.cn/img_convert/e21829a1f58e0be03081bf71053a2b12.png)
从表格的正文到表格的页边距,您看到与特定的Z行(-1.9)和Z列(.06)相对应的Z值为-1.96。
找到Z后,最后一步是使用公式,如下所示:
![e505298abc08cd28d767621145967de2.png](https://img-blog.csdnimg.cn/img_convert/e505298abc08cd28d767621145967de2.png)
您使用类似的过程来查找X。由于仅2.5%的视频下载时间长于Xu秒,因此97.5%的视频下载时间短于Xu秒。从正态分布的对称性中,您会发现所需的Z值(如图所示)为+1.96(因为Z位于标准化均值0的右侧)。您还可以从表中提取此Z值。您可以看到曲线下的面积小于Z值+1.96,即为0.975。
![013fe0fd863711b4493f1a9ba8852f22.png](https://img-blog.csdnimg.cn/img_convert/013fe0fd863711b4493f1a9ba8852f22.png)
![bdd3cb64558c97f9639a0b6c08dcd834.png](https://img-blog.csdnimg.cn/img_convert/bdd3cb64558c97f9639a0b6c08dcd834.png)
![5c16c271640ae1ddc48b72dfb6f4ea3d.png](https://img-blog.csdnimg.cn/img_convert/5c16c271640ae1ddc48b72dfb6f4ea3d.png)
因此,95%的下载时间在3.08到10.92秒之间。
您可以使用Excel来计算1个正态概率,而不是在表中查找累积概率。图显示了一个工作表,该工作表计算正常概率并找到与示例1至5类似的问题的X值。
![13bdb532bb5064c17866465cc204bc27.png](https://img-blog.csdnimg.cn/img_convert/13bdb532bb5064c17866465cc204bc27.png)
![819b3757eb9178e9713a68941ce43f08.png](https://img-blog.csdnimg.cn/img_convert/819b3757eb9178e9713a68941ce43f08.png)