概率论

概率论

一、概率论的基本概念

概率的性质

逆事件的概率:

减法公式:

加法公式:

古典概型

实验的样本点有限,且每个样本点出现的可能性相同。

球盒模型

相关资料:

理解:https://www.bilibili.com/video/BV1SX4y1k7Dv?t=0.4

公式:https://www.bilibili.com/video/BV12J411H72u?t=1591.3&p=2

n个球,m个盒

同球,同盒,不可空:公式比较复杂

同球,同盒,可空:公式比较复杂

同球,不同盒,不可空:

同球,不同盒,可空:

不同球,同盒,不可空:第二斯特林数

不同球,同盒,可空:上面这种情况做了些调整

不同球,不同盒,不可空:

不同球,不同盒,可空:

几何概型

为一个线段或者平面,的子区间,任取某一点落在中的事件仍记为,则

条件概率

条件概率记为在事件发生的情况下发生的概率

乘法公式

全概率公式

为随机事件的样本空间,为E的随机事件,若

则称的有限划分,此时

贝叶斯公式

分子用到了乘法公式,分母用到了全概率公式

事件的独立性

为两事件,若,则称事件独立

二、随机变量

2.1 离散型随机变量

随机变量X本质是样本空间S到实数空间的映射,只是为了方便表示。

离散型随机变量:X的取值是有限个或者无限可列个。

2.1.1 离散型随机变量的分布律

设离散型随机变量的所有取值为,则取到各个可能值的概率称为分布律。

2.1.2 常见的离散型随机变量

  • 0-1分布

    只有两个可能取值0,1

  • 二项分布

    伯努利实验:相同条件下,重复的,相互独立地进行的一种随机实验。将这种实验重复n次成为n重伯努利实验。

    基于0-1分布的情况下,每一次伯努利实验都是一个0-1分布。n重伯努利实验中事件出现的次数也是一个随机变量,这个分布是二项分布,记为

  • 泊松分布

    适合描述单位时间或空间内事件的发生次数,记为。例如单位面积内的细菌数量

    其中是单位时间或空间里事件发生的平均次数。

泊松定理:

,当很大,很小时,近似服从的泊松分布

2.1.3 随机变量的分布函数

为随机变量,为任意实数,则称为的分布函数

2.2 连续型随机变量

其中为概率密度函数

2.2.1 常见的连续型随机变量

  • 均匀分布

  • 指数分布

    刻画两个随机事件之间发生的间隔

    指数分布具有无记忆性,可以参考灯泡的寿命

  • 正态分布(高斯分布)

    标准正态分布:

    ,则

2.3 随机变量函数的分布

对于离散型,直接列表即可

对于连续型:

设随机变量的概率密度函数为,那么的分布函数为:

三、多维随机变量

定义:设为随机实验上的随机变量,则为二维随机变量。

3.1 二维离散型随机变量

3.1.1 联合分布律

3.1.2 联合分布函数

3.1.3 边缘分布

单独考虑某一个随机变量

3.1.4 独立性

3.2 二维连续型随机变量

3.2.1 联合分布函数

3.2.2 边缘分布

3.3 二维随机变量函数的分布

对于离散型,同样是画表格

设二维连续型随机变量的概率密度函数为,则的分布函数为

卷积公式:

,则可看做或者

特别的,当相互独立时

四、随机变量的数字特征

4.1 期望

定义

期望相关性质

  • 为两个随机变量,则
  • 相互独立,则

4.2 方差

方差定义

则标准差为

方差计算公式如下

方差的性质如下

  • 相互独立,则
分布 期望 方差
0-1 p p(1-p)
二项分布 np np(1-p)
泊松分布
均匀分布
正态分布
指数分布

4.3 协方差与相关系数

协方差的作用:判断两个随机变量的相关性如何

定义:

为两个随机变量,则二者的协方差如下

协方差的相关性质:

  • ,其中为任意常数
  • 相互独立,则

但是协方差很大程度上受到了量纲的影响,因此就有了相关系数

相关系数的相关性质如下

  • ,当,称不相关

  • 若随机变量相互独立,则二者不相关,反之不一定

五、大数定律和中心极限定理

5.1 切比雪夫不等式

前面的四章主要是应用在已知分布的场景,第五章主要是根据大量的观测去推断相应的分布

马尔可夫不等式的推导:

为一个随机变量,且恒成立,则

接下来推导切比雪夫不等式

那么如何理解切比雪夫不等式呢?

当我们遇到一个不明分布,我们知道其期望和方差时,我们可以计算出在期望附近的数值的概率

5.2 独立同分布中心极限定理

如何理解?比如要统计某工厂的螺丝生产达标情况,可以分100个人,各自统计50个螺丝,然后各自计算期望和方差,从而计算整体的期望和方差。

为相互独立的随机变量序列,则

独立同分布,则

六、数理统计的相关概念

6.1 统计量

统计量的定义:

为来自总体的一个样本,的函数,若中不含未知的参数,则称为一个统计量

常见统计量:

名称 定义
样本均值
样本方差
样本标准差
样本k阶原点距
样本k阶中心距

独立同分布且

样本均值分布:https://www.bilibili.com/video/BV12h411Z73h?t=376.7

6.2 卡方分布

独立且同分布,,则称统计量

服从自由度为的卡方分布,记

chi-square_distribution

卡方分布相关性质:

  • ,则
  • 分位点:满足的点

6.3 t分布

,则分布如下:

记为

一些性质:

  • 对称
  • ,分布近似于正态分布

6.4 F分布

,且相互独立,则

分布,记为

f_distribution

相关性质:

  • ,则

七、参数估计

7.1 点估计

也就是将未知参数估计为一个具体的值

7.1.1 矩估计

用样本的一阶远点矩(即样本均值)估计总体均值,即

7.1.2 极大似然估计

参考:https://www.bilibili.com/video/BV1QM4y167oZ?t=1.3

极大似然估计MLE: 是指在已知一些样本的情况下,如何求出最可能的参数

比如对于一个正态分布

我们有45个样本点取值:

对于每一个点:

而所有点都是独立同分布的,因此这45个点同时出现的概率为

因此我们需要计算

但是连乘不方便计算,因此加上ln方便计算

转变成

然后求导,令导数为0

7.1.3 无偏估计

,则的无偏估计

7.2 区间估计

正态总体常用统计量的分布:

7.2.1 双侧区间估计

,则称为置信度,分别为置信下限和置信上限。

若总体已知,未知:利用标准正态分布

若总体未知,未知:利用t分布

若估计:利用分布

7.2.2 单侧区间估计

,则称为置信度,为置信下限;设,则称为置信度,为置信上限;

思路同双侧

八、假设检验

假设检验的思想:小概率事件不会发生。

提出一个关于总体的假设,称为原假设,记为;与原假设对立的假设,称为备择假设,记为;

假设检验中用到的统计量称为检验统计量,检验统计量把样本空间划分为两个区域,使被拒绝的样本观察值组成的区域称为拒绝域,落入拒绝域的概率是给定的小概率

称为显著水平

附录

卡方分布代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import chi2

# 生成数据点
x = np.linspace(0, 50, 100) # 生成0到20之间的1000个数据点
# print(x)
# 不同自由度的卡方分布
degrees_of_freedom = [5, 10, 20] # 自由度
labels = [f'n={df}' for df in degrees_of_freedom]

a = plt.figure(figsize=(8, 6))
# 绘制不同自由度的卡方分布函数图像
for df, label in zip(degrees_of_freedom, labels):
y = chi2.pdf(x, df)
plt.plot(x, y, label=label)

plt.title('Chi-Squared Distribution for Different Degrees of Freedom')
plt.xlabel('X')
plt.ylabel('Probability Density Function')
plt.legend()
plt.grid(True)
plt.show()
a.savefig('chi-square_distribution.svg',format='svg')

t分布代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import t

# 生成数据点
x = np.linspace(-5, 5, 1000) # 生成-5到5之间的1000个数据点

# 不同自由度的t分布
degrees_of_freedom = [5, 10, 20] # 自由度
labels = [f'df={df}' for df in degrees_of_freedom]

a = plt.figure(figsize=(8, 6))

# 绘制不同自由度的t分布函数图像
for df, label in zip(degrees_of_freedom, labels):
y = t.pdf(x, df)
plt.plot(x, y, label=label)

plt.title('t-Distribution for Different Degrees of Freedom')
plt.xlabel('X')
plt.ylabel('Probability Density Function')
plt.legend()
plt.grid(True)
plt.show()
a.savefig('t_distribution.svg',format='svg')

F分布

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import f

# 生成数据点
x = np.linspace(0, 5, 1000) # 生成0到5之间的1000个数据点

# 不同自由度的F分布
degrees_of_freedom1 = [3, 10, 20] # 分子自由度
degrees_of_freedom2 = [10, 15, 25] # 分母自由度
labels = [f'df1={df1}, df2={df2}' for df1, df2 in zip(degrees_of_freedom1, degrees_of_freedom2)]

a = plt.figure(figsize=(8, 6))

# 绘制不同自由度的F分布函数图像
for df1, df2, label in zip(degrees_of_freedom1, degrees_of_freedom2, labels):
y = f.pdf(x, df1, df2)
plt.plot(x, y, label=label)

plt.title('F-Distribution for Different Degrees of Freedom')
plt.xlabel('X')
plt.ylabel('Probability Density Function')
plt.legend()
plt.grid(True)
plt.show()
a.savefig('f_distribution.svg',format='svg')

概率论
https://d4wnnn.github.io/2023/10/03/Courses/概率论/
作者
D4wn
发布于
2023年10月3日
许可协议