概率论
概率论
一、概率论的基本概念
概率的性质
逆事件的概率:
减法公式:
加法公式:
古典概型
实验的样本点有限,且每个样本点出现的可能性相同。
球盒模型
相关资料:
理解:https://www.bilibili.com/video/BV1SX4y1k7Dv?t=0.4
公式:https://www.bilibili.com/video/BV12J411H72u?t=1591.3&p=2
n个球,m个盒
同球,同盒,不可空:公式比较复杂
同球,同盒,可空:公式比较复杂
同球,不同盒,不可空:
同球,不同盒,可空:
不同球,同盒,不可空:第二斯特林数
不同球,同盒,可空:上面这种情况做了些调整
不同球,不同盒,不可空:
不同球,不同盒,可空:
几何概型
设
条件概率
条件概率
乘法公式
全概率公式
设
则称
贝叶斯公式
分子用到了乘法公式,分母用到了全概率公式
事件的独立性
设
二、随机变量
2.1 离散型随机变量
随机变量X本质是样本空间S到实数空间的映射,只是为了方便表示。
离散型随机变量:X的取值是有限个或者无限可列个。
2.1.1 离散型随机变量的分布律
设离散型随机变量
2.1.2 常见的离散型随机变量
0-1分布
只有两个可能取值0,1 二项分布
伯努利实验:相同条件下,重复的,相互独立地进行的一种随机实验。将这种实验重复n次成为n重伯努利实验。
基于0-1分布的情况下,每一次伯努利实验都是一个0-1分布。n重伯努利实验中事件
出现的次数也是一个随机变量,这个分布是二项分布,记为 泊松分布
适合描述单位时间或空间内事件的发生次数,记为
。例如单位面积内的细菌数量 其中 是单位时间或空间里事件发生的平均次数。
泊松定理:
若
2.1.3 随机变量的分布函数
设
2.2 连续型随机变量
其中
2.2.1 常见的连续型随机变量
均匀分布
指数分布
刻画两个随机事件之间发生的间隔
指数分布具有无记忆性,可以参考灯泡的寿命
正态分布(高斯分布)
标准正态分布:
若
,则
2.3 随机变量函数的分布
对于离散型,直接列表即可
对于连续型:
设随机变量
三、多维随机变量
定义:设
3.1 二维离散型随机变量
3.1.1 联合分布律
3.1.2 联合分布函数
3.1.3 边缘分布
单独考虑某一个随机变量
3.1.4 独立性
3.2 二维连续型随机变量
3.2.1 联合分布函数
3.2.2 边缘分布
3.3 二维随机变量函数的分布
对于离散型,同样是画表格
设二维连续型随机变量
卷积公式:
设
特别的,当
四、随机变量的数字特征
4.1 期望
定义
期望相关性质
- 设
为两个随机变量,则 - 设
与 相互独立,则
4.2 方差
方差定义
则标准差为
方差计算公式如下
方差的性质如下
- 若
相互独立,则
分布 | 期望 | 方差 |
---|---|---|
0-1 | p | p(1-p) |
二项分布 |
np | np(1-p) |
泊松分布 |
||
均匀分布 |
||
正态分布 |
||
指数分布 |
4.3 协方差与相关系数
协方差的作用:判断两个随机变量的相关性如何
定义:
设
协方差的相关性质:
,其中 为任意常数 - 若
相互独立,则
但是协方差很大程度上受到了量纲的影响,因此就有了相关系数
相关系数的相关性质如下
,当 ,称 不相关 若随机变量
相互独立,则二者不相关,反之不一定
五、大数定律和中心极限定理
5.1 切比雪夫不等式
前面的四章主要是应用在已知分布的场景,第五章主要是根据大量的观测去推断相应的分布
马尔可夫不等式的推导:
设
接下来推导切比雪夫不等式
那么如何理解切比雪夫不等式呢?
当我们遇到一个不明分布,我们知道其期望和方差时,我们可以计算出在期望附近的数值的概率
5.2 独立同分布中心极限定理
如何理解?比如要统计某工厂的螺丝生产达标情况,可以分100个人,各自统计50个螺丝,然后各自计算期望和方差,从而计算整体的期望和方差。
设
若
六、数理统计的相关概念
6.1 统计量
统计量的定义:
设
常见统计量:
名称 | 定义 |
---|---|
样本均值 | |
样本方差 | |
样本标准差 | |
样本k阶原点距 | |
样本k阶中心距 |
若
样本均值分布:https://www.bilibili.com/video/BV12h411Z73h?t=376.7
6.2 卡方分布
设
服从自由度为
卡方分布相关性质:
- 设
,则 - 上
分位点:满足 的点
6.3 t分布
设
记为
一些性质:
- 对称
- 当
, 分布近似于正态分布
6.4 F分布
设
为
相关性质:
- 若
,则
七、参数估计
7.1 点估计
也就是将未知参数估计为一个具体的值
7.1.1 矩估计
用样本的一阶远点矩(即样本均值)估计总体均值,即
7.1.2 极大似然估计
参考:https://www.bilibili.com/video/BV1QM4y167oZ?t=1.3
极大似然估计MLE: 是指在已知一些样本的情况下,如何求出最可能的参数
比如对于一个正态分布
我们有45个样本点取值:
对于每一个点:
而所有点都是独立同分布的,因此这45个点同时出现的概率为
因此我们需要计算
但是连乘不方便计算,因此加上ln方便计算
转变成
然后求导,令导数为0
7.1.3 无偏估计
若
7.2 区间估计
正态总体常用统计量的分布:
7.2.1 双侧区间估计
设
若总体
若总体
若估计
7.2.2 单侧区间估计
设
思路同双侧
八、假设检验
假设检验的思想:小概率事件不会发生。
提出一个关于总体的假设,称为原假设,记为
假设检验中用到的统计量称为检验统计量,检验统计量把样本空间划分为两个区域,使
附录
卡方分布代码
1 |
|
t分布代码
1 |
|
F分布
1 |
|