您好,欢迎来到刀刀网。
搜索
您的当前位置:首页从0开始学统计-正态分布与标准正态分布

从0开始学统计-正态分布与标准正态分布

来源:刀刀网

1.什么是正态分布?

正态分布,又称高斯分布,是统计学中最重要的连续概率分布之一,其概率密度函数呈现出对称的钟形曲线。正态分布的特点包括:

(2)集中性:大部分数据集中在均值附近,而离均值越远的数据出现的概率逐渐减小。

(3)稳定性:正态分布在不同样本量和不同参数设定下都能保持一定的形态。

(4)参数化:正态分布由两个参数决定,即均值(μ)和标准差(σ),其中均值决定了分布的中心位置,标准差决定了分布的扁平程度。

在正态分布中,μ表示分布的均值,σ表示分布的标准差。μ±σ表示均值的一个标准差范围,通常用来描述数据的分布情况。

具体来说,μ±σ表示均值μ的一个标准差范围,其中包含了大约68% 的数据。换句话说,如果数据服从正态分布,并且均值为μ,标准差为σ,那么大约68%的数据点将落在μ±σ的范围内。

2.如何利用正态分布区分正常值和异常值?

利用正态分布来区分正常值和异常值通常涉及以下步骤:

(1)确定数据分布:首先需要确认数据是否服从正态分布。可以通过直方图、Q-Q 图或 Shapiro-Wilk 正态性检验等方法来检查数据的分布情况。

(2)计算均值和标准差:如果数据近似服从正态分布,那么计算数据的均值(μ)和标准差(σ)。

(3)确定异常值的阈值:根据正态分布的性质,可以选择一个合适的阈值来判断异常值。通常情况下,可以使用均值加减几倍标准差的方法来确定异常值的阈值。例如,常用的方法是选择均值加减2或3个标准差的范围作为异常值的阈值。

(4) 识别异常值:根据选定的阈值,识别数据中落在阈值之外的观测值。这些落在阈值之外的观测值可以被视为异常值。

(5)进一步分析异常值:一旦识别出异常值,需要进一步分析这些异常值,了解其产生的原因,并考虑是否需要排除或调整这些异常值。

需要注意的是,正态分布方法只适用于近似服从正态分布的数据。对于不符合正态分布的数据,可能需要使用其他方法来识别异常值,如箱线图、离群值检测算法等。此外,在识别异常值时,还需要考虑数据的背景和领域知识,以避免误判。

已知人群的身高符合正态分布,假设我国男性的平均身高为172.1cm,标准差是5.2cm。那么请问大多数男性的身高分布范围是多少?

3.什么是标准正态分布

标准正态分布是指均值为0,标准差为1的正态分布,通常记作 N(0,1)。在标准正态分布中,数据的分布呈现出对称的钟形曲线,均值为0,标准差为1,即大约68% 的数据落在区间[-1, 1] 内,约95% 的数据落在区间[-2, 2] 内,约99.7% 的数据落在区间[-3, 3] 内。

标准正态分布在统计学和数据分析中经常被使用,因为许多统计方法和推断都建立在对正态分布的假设之上。标准正态分布最大的好处是有标准正态分布表可以查询。


如果知道一个数值的Z值,就可以在标准正态分布表中查到对应的概率值。在使用的时候,第一步是先计算数值的Z值,然后将其四舍五入到小数点后第二位;第二步是在标准正态分布表中的左侧查到直到标准分数的小数点后第一位,然后用顶部的数值查所对应的Z值的小数点后第二位。

在实际应用中,标准正态分布经常用于统计假设检验、计算概率值和确定置信区间等方面。

4.什么是Z值?

标准正态分布也叫Z分布,Z值是指在Z分布中某个数值的标准化得分,也叫Z分数(Z-score),也称为标准分数,表示了该数值相对于均值的位置。Z值可以通过以下公式计算得出:


其中,x是原始数据的数值,μ是数据集的均值,σ是数据集的标准差。

Z值的计算方法可以将非标准正态分布的原始数据标准化为Z分布上的一个标准正态分布变量。


我们回到小美要找身高185cm的男朋友的问题上,之前我们只是粗略的估计了身高大于185cm男生的概率小于2.5%。现在我们结合标准正态分布表,看看到底是多少。


计算得到Z=2.48,查表得0.9934,也就是说身高大于185cm, 就超过了99%的男生。或者说身高大于185cm的男生在人群中的占比只有0.0066,还不到1%。

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- gamedaodao.com 版权所有 湘ICP备2022005869号-6

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务