MA212 概率论与数理统计

Posted on 2024-08-19 Edited on 2025-11-10 In 2023 Fall Views:

仅作为其他课程复习用，不记录全部知识点。

第一章概率

记数方法

古典概型
- $\Omega$ 只含有限个样本点
- 每个样本点出现是等可能的

$$
P(A)=\frac{A \text{的有利场合数}}{\text{样本点总数}}=\frac{k}{n}
$$

几何概型
- 对比古典概型有无限个样本点

全概率定律

Def. 设 $\Omega$ 为样本空间，若事件 $B_1,B_2,\cdots ,B_n$ 满足：

$B_1,B_2,\cdots ,B_n$ 两两不相容
$B_1 \cup B_2 \cup \cdots \cup B_n = \Omega$

则称 $B_1,B_2,\cdots ,B_n$ 为样本空间的一个划分。

由此推出全概率公式：

$$
P(A)=\sum_{i=1}^{n} P(A|B_i) \cdot P(B_i)
$$

由全概率公式和条件概率的乘法公式推导出 Bayes 公式：

$$
P(B_i|A)=\frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n} P(A|B_j)P(B_j)}
$$

Bayes 公式的实际意义：

假定 $B_1,B_2,\cdots ,B_n$ 为导致实验结果的“原因”，称 $P(B_i) (i=1,2,\cdots ,n)$ 为先验概率。

若试验产生事件 A ，则要探讨事件发生的“原因”：称 $P(B_i|A)$ 为后验概率，称 $P(A|B_i)$ 为原因概率

第二章随机变量

离散随机变量

定义：

$$
P{ X=x_k }= p(x_k),\ \ (k=1,2,3,\cdots)
$$

为离散型 r.v. X 的概率质量函数 (PMF)

$$
F(x)=P{ X \le x }, -\infty \lt x \lt \infty
$$

为离散型 r.v. X 的累计分布函数 (CDF)

泊松定理

设 $\lambda \gt 0$，$n$ 为正整数，$\lim_{n \to \infty} np_n=\lambda$，则有

$$
\lim_{n\to \infty} C^k_n p^k_n(1-p_n)^{n-k}=\frac{\lambda^{k}e^{-\lambda}}{k!}
$$

连续随机变量

定义：

$$
F(x)=\int_{-\infty}^{x} f(t)\text{d}t,\ -\infty \lt x \lt \infty
$$

其中 $f(t)$ 为连续型 r.v. X 的概率密度函数 (PDF)

标准正态分布

$$
\begin{array}{l}
&\Phi(x)=\int_{-\infty}^{x} \psi(x)\text{d}x \
&\psi(x)=\frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \
&s.t.\ \mu=0,\ \sigma^2=1
\end{array}
$$

随机变量的函数

例：设随机变量 $X$，$Y$，满足 $Y=aX+b$，如何通过 $X$ 的概率密度分布求出 $Y$ 的 PDF？

解：令 $x=g(y)=\frac{y-b}{a}$，可得 $F_Y(y)=P{ Y\le y }=P{ X\le\frac{y-b}{a} }=F_X(\frac{y-b}{a})$。

化简得：$f_Y(y)=F_{X}'(g(y))=(g(y))'f_X(g(y))$

如正态分布 $X\sim N(\mu,\sigma^2)$ 的线性函数 $aX+b \sim N(a\mu +b,(a\sigma)^2)$ 也是正态分布

第三章联合分布

联合随机变量

定义：

$$
F(X,Y)\triangleq P { X\le x,Y\le y }\ \ s.t.\ {x,y}\in \mathbb{R}
$$

为 $X$ 与 $Y$ 的联合累积分布函数。

$$
F_X(x)= P { X\le x,Y\le \infty }\ \ s.t.\ x\in \mathbb{R}
$$

称为 $X$ 的边际分布，$Y$ 同理。

概率密度函数

$$
F(x,y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(u,v)\text{d}u\text{d}v,\ s.t.\ { x,y}\in\mathbb{R}
$$

则 $f(x,y)$ 为 $X$，$Y$ 的概率密度函数(joint PDF)

边际密度

$$
f_X(u)=\int_{-\infty}^{\infty} f(u,y)\text{d}y
$$

称为 $X$ 的边际密度，$Y$ 同理。

独立随机变量

$$
f(x,y)=f_X(x)\cdot f_Y(y)
$$

当上式成立时，$X$，$Y$ 相互独立，即相关系数 $\rho=0$。

条件分布

（只看连续，离散情况容易推导）

$
\begin{array}{l}
P(X\le x|y\le Y\le y+\epsilon) &=\frac{P{X\le x,y\le Y\le y+\epsilon}}{P{ y\le Y\le y+\epsilon\ }} \
&=\frac{\int_{-\infty}^{x}\int_{y}^{y+\epsilon} f(u,v)\text{d}u\text{d}v}{\int_{y}^{y+\epsilon} f_Y(v)\text{d}v} \
&=\frac{\epsilon\int_{-\infty}^{x}f(u,y_\epsilon)\text{d}u}{\epsilon f_Y(\tilde{y}{\epsilon})} \
&= \int{-\infty}^{x}\frac{f(u,y)}{f_Y(y)} \text{d}u\ \ (\epsilon\to 0)
\end{array}
$

定义 $\frac{f(u,y)}{f_Y(y)} \triangleq f_{X|Y}(x|y)$ 为 $Y=y$ 下 $X$ 的条件密度

联合分布随机变量的函数

1 . $Z=X+Y$

利用卷积公式 (可写作 $f_X * f_Y$)：

$$
\begin{array}{l}
&f_Z(z)=\int_{-\infty}^{\infty}f_X(z-y)f_Y(y)\text{d}y \
\text{or } &f_Z(z)=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)\text{d}x
\end{array}
$$

前提：

$X$，$Y$ 相互独立（如不独立，可利用联合分布、条件分布求得，或变换成独立变量再求解）。

2 . $Z=\frac{X}{Y}$

$$
\begin{array}{l}
&\text{由于 }F_Z(z)=P{ X/Y\le z }=\underset{\frac{x}{y}\le z}{\int\int} f(x,y)\text{d}x \text{d}y \text{ 积分区域可能不是矩形} \
&\text{为简化积分计算，使用 }\textbf{J}=\frac{\partial{(x,y)}}{\partial{(u, v)}}= \Large{\left| \begin{array}{c} \frac{\partial{x}}{\partial{u}} & \frac{\partial{x}}{\partial{v}} \ \frac{\partial{y}}{\partial{u}} & \frac{\partial{y}}{\partial{v}} \end{array} \right|} \
&\text{得 }F_Z(z)=\underset{\Omega}{\int\int} f[x(u,v),y(u,v)] |\textbf{J}|\text{d}u \text{d}v
\end{array}
$$

顺序统计量

设 $X_i\sim f(x)$ 是独立同分布的连续型 r.v.，则对于顺序统计量 $X_{(1)}(\min),\cdots ,X_{(n)}(\max)$ ，如何求 $X_{(k)}$ 的密度？

解：对于充分小的空间 $[x,x+\text{d}x]$，有

$$
\begin{array}{l}
&P{ x\lt X_{(k)} \lt x+\text{d}x }=\left(\begin{array}{c}n \ k-1 \end{array} \right) F(x)^{k-1} \left(\begin{array}{c}n-k+1 \ 1 \end{array} \right) [F(x+\text{d}x)-F(x)] \left(\begin{array}{c}n-k \ n-k \end{array} \right) [1-F(x+\text{d}x)^{n-k}] \
\therefore\ \ &f_k(x)=\frac{\text{d}P{ x\lt X_{(k)} \lt x+\text{d}x }}{\text{d}x}=\frac{n!}{(k-1)!(n-k)!}F(x)^{k-1} f(x)[1-F(x)]^{n-k}
\end{array}
$$

称此为 Veta 分布，记为 $X\sim Beta(k, n-k+1)$

Beta 密度用于刻画 [0, 1] 上的随机变量：

$$
\begin{array}{l}
&f(u)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}u^{a-1}(1-u)^{b-1} \
s.t.\ &\Gamma(x)=(x-1)! ,\ 0\le u\le 1
\end{array}
$$

第四章随机变量的数字特征

协方差

定义：

$$
\begin{array}{l}
&Cov(X,Y)\triangleq E[(X-E(X))\cdot (Y-E(Y))]
\end{array}
$$

称为 X，Y 的协方差，其相关系数表示为：

$$
\begin{array}{l}
&\rho_{XY}\triangleq Cov(X^{*},Y^{*})=\frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{E(Y)}}
\end{array}
$$

利用这个属性进行 X，Y 线性拟合的计算：

记均方误差为 $e=E[(Y-\hat{Y})^2]=E[(Y-(aX+b))^2]$

令 $\left{ \begin{array}{l} &\frac{\partial{e}}{\partial{b}}=2b+2aE(X)-2E(Y)=0 \ &\frac{\partial{e}}{\partial{a}}=2aE(X^2)-2E(XY)+2bE(X)=0 \end{array} \right.$

解得 $\left{ \begin{array}{l} &b_0=\frac{Cov(X,Y)}{D(X)} \ &a_0=E(Y)-E(X)\cdot b_0 \end{array} \right.$

进一步得 $\underset{a,b}{\min e}=D(Y)(1-\frac{Cov^2(X,Y)}{D(X)D(Y)})=D(Y)(1-\rho^2_{XY})$

注意：$\rho_{XY}=0$ 并不意味着 X，Y 相互独立！（但正态分布能证明不相关 = 独立）

定义：

对 r.v. X，Y，

$E(X^k)\ \ \ (k=1,2,\cdots)$ 为 k 阶原点矩

$E[(X-E(X))^k]\ \ \ (k=1,2,\cdots)$ 为 k 阶中心矩

$E[(X-E(X))^k(Y-E(Y))^l]\ \ \ (k,l=1,2,\cdots)$ 为 k+l 阶混合中心矩

因此，r.v. 的期望是一阶原点矩，方差是2阶中心矩，协方差是2阶混合中心矩。

条件期望

定义：

$$
\left{\begin{array}{rl}
&E(h(Y)|X=x)=\sum_{y}h(y)p_{Y|X}(y|x) &\text{（离散）} \
&E(h(Y)|X=x)=\int_{y}h(y)f_{Y|X}(y|x)\text{d}y &\text{（连续）}
\end{array}\right.
$$

特殊情况下，$h(y)=y$

回顾泊松分布： $X\sim P(\lambda t)$

$P(X=k)=\frac{(\lambda t)^k}{k!}e^{-\lambda t}\ \ \ k\in\mathbb{N}$ 称为泊松强度。

例：考虑 [0, 1] 区间上均值为 $\lambda$ 的泊松流，令 N 是 [0, 1] 上点的个数。对于 $p\lt 1$，令 X 是 [0, p] 上点的个数。计算给定 N = n 的情况下，X 的条件分布和条件期望。

解：联合分布

$P{X=x,N=n }=\frac{(p\lambda)^xe^{-p\lambda}}{x!}\cdot \frac{((1-p)\lambda)^{(n-x)}e^{-(1-p)\lambda}}{(n-x)!}$

而 $N\sim P(\lambda)$

因此 $P{X=x|N=n }=\frac{n!}{x!(n-x)!}p^x(1-p)^{(n-x)}\sim b(n,p)$

从而 $X$ 的条件期望为 $np$。

第五章数理统计（入门）

大数定律

（伯努利版）设 $P(A)=p$，则对任意 $\epsilon\gt 0$，有 $\color{red} \underset{n\to \infty}{\lim}=P{|\frac{n_A}{n}-p|\ge \epsilon }=0$

（切比雪夫版）${X_n}$ 为独立随机变量列，且期望方差相同，则对任意 $\epsilon\gt 0$，有 $\color{red} \underset{n\to \infty}{\lim}=P{|\frac{1}{n}\sum_{i=1}^{n}X_i-\mu|\ge \epsilon }=0$

（这意味着样本量足够大时，期望可被样本的算术均值替代）

中心极限定理

若 $X_n$ 的分布 $F_n(x)$ 对任意 $x$ 满足

$$
\color{red}
\begin{array}{l}
&\underset{n\to \infty}{\lim} F_n(x)=\underset{n\to \infty}{\lim}P{ \frac{\sum_{i=1}^{n}(X_i-\mu_i)}{\sqrt{\sum_{i=1}^{n}\sigma_i^2}}\le x }=\psi(x)
\end{array}
$$

则称 ${X_n }$ 服从中心极限定理（$\psi(x)$ 为标准正态）

特别当 $X_n$ 独立同分布，则有 $\underset{n\to \infty}{\lim}P{ \frac{\sum_{i=1}^{n}X_i-n\mu_i}{\sqrt{n}\sigma_i}\le x }=\psi(x)$

德莫夫-拉普拉斯中心极限定理：对 $\eta_n\sim b(n,p)$

$\frac{\eta_n-np}{\sqrt{np(1-p)}}\sim N(0,1)$

参考高尔顿钉板

第六章数理统计（基础）

抽样分布

1 . $\chi^2$ - 分布

设 $X_1-X_n$ 是来自总体 $X\sim N(0,1)$ 的样本，令

$$
\begin{array}{l}
\chi^2=X_1^2+X_2^2+\cdots +X_n^2
\end{array}
$$

称 $\chi^2$ 服从自由度为 $n$ 的 $\chi^2$ - 分布（也称卡方分布），记为 $\chi^2(n)$。

自由度：自由度是二次型 $\chi^2=X_1^2+X_2^2+\cdots +X_n^2$ 的秩，即可独立变化的变量个数。

数字特征：

$E(\chi^2)=n$
$D(\chi^2)=2n$

2 . t - 分布

设 $X\sim N(0,1)$，$Y\sim \chi^2(n)$，且 $X$，$Y$ 独立，令

$$
\begin{array}{l}
t=X/\sqrt{Y/n}
\end{array}
$$

称 $t$ 为服从自由度为 n 的 t - 分布，记为 $t(n)$。

性质：

数字特征
- $E(t)=0$
- $D(t)=\frac{n}{n+2}$
当 n 充分大时，T 近似服从 N(0, 1)，即趋近标准正态分布
- 可证明 $\underset{n\to\infty}{\lim}f(x)=(2\pi)^{-\frac{1}{2}}e^{-\frac{x^2}{2}}$

3 . F - 分布

设 $U\sim \chi^2(n_1)$，$V\sim \chi^2(n_2)$，且 $U$，$V$ 独立，令

$$
\begin{array}{l}
F=\Large\frac{U/n_1}{V/n_2}
\end{array}
$$

称 F 为服从自由度为 $(n_1,n_2)$ 的 F - 分布，记为 $F(n_1,n_2)$。

二级结论：

$$
\begin{array}{l}
&T\sim t(n) \Rightarrow T^2\sim F(1,n) \
\text{证：} &T=\frac{X}{\sqrt{Y/n}} \Rightarrow T^2=\frac{X^2/1}{Y/n}, \
\text{ 且 }&X^2,Y\text{ 仍相互独立}
\end{array}
$$

抽样分布定理

1 . 设 $X_1\sim X_n$ 是来自总体 $X\sim N(\mu,\sigma^2)$ 的样本，则

$$
\begin{array}{l}
\bar{X}\sim N(\mu,\frac{\sigma^2}{n})
\end{array}
$$

因为 $\bar{X}=(X_1+\cdots +X_n)/n$ ，而线性组合仍服从正态分布。

因此，$E(\bar{X})=\mu$，$D(\bar{X})=\frac{\sigma^2}{n}$

2 . 设 $X_1\sim X_n$ 是来自总体 $X\sim N(\mu,\sigma^2)$ 的样本，$\bar{X}$ 、$S^2$ 分别是样本均值和样本方差，则有

$$
\begin{array}{lr}
&\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1) &(1) \
&\bar{X},S^2\text{ 相互独立} &(2)
\end{array}
$$

3 . waiting…

4 .

5 .

第七章参数估计

点估计

定义：设总体分布函数 $F(x,\theta)$ ， $X_1\sim X_n$ 为样本，构造一个统计量 $\theta=\theta(X_1,\cdots ,X_n)$ 来估计参数 $\theta$ ，则称为参数 $\theta$ 的估计量。

将观测值 $x_1,\cdots ,x_n$ 带入 $\theta(X_1,\cdots ,X_n)$ ，得到的 $\theta(x_1,\cdots ,x_n)$ 称为参数 $\theta$ 的估计值。

常用点估计法：

矩估计：设总体 $X\sim F(x;\theta)$ ，$\theta_1\sim \theta_m$ 未知，设对 n 个样本，总体矩都存在（即 $\alpha_k \triangleq E(X^k),(k=1,2,\cdots,m)$ ），由辛钦大数定律得

$$
\begin{array}{l}
&A_k=\frac{1}{n}\sum_{i=1}^{n}X^k_i \overset{P}{\longrightarrow}E(X^k)=\alpha_k\ \ (n\to\infty,k=1,2,\cdots,m) \
\text{可认为 }&A_k\approx E(X^k)=\int{x^k}\text{d}F \triangleq \alpha_k(\theta_1,\cdots, \theta_m) & \
\therefore & \left{\begin{array}{l}
&\alpha_1(\theta_1,\cdots, \theta_m)=E(X) \approx A_1 \
&\alpha_2(\theta_1,\cdots, \theta_m)=E(X^2) \approx A_2 \
&\vdots \
&\alpha_m(\theta_1,\cdots, \theta_m)=E(X^m) \approx A_m
\end{array}\right.
\end{array}
$$

解上述方程组得：

$$
\left{
\begin{array}{l}
&\hat{\theta}_1=\hat{\theta}_1(A_1,A_2,\cdots,A_m) \
&\vdots \
&\hat{\theta}_m=\hat{\theta}_m(A_1,A_2,\cdots,A_m) \
\end{array}
\right.
$$

最大似然估计：构造似然函数 $L(\theta)$ ，通过求极大值点得到参数值

$$
L(\theta)=
\left{
\begin{array}{lr}
&p(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta) &(\text{离散}) \
&f(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}f(x_i;\theta) &(\text{连续}) \
\end{array}
\right.
$$

取对数便于求偏导（对每个参数 $\theta_i$ 求偏导）：$\large\frac{\partial{\ln{L}}}{\partial{\theta_i}}=0$

参数评价标准

无偏性：$E(\hat\theta)=\theta$
有效性：$E(\hat\theta_1)=E(\hat\theta_2)=\theta$ 且 $D(\hat\theta_1)\le D(\hat\theta_2)$，则称 $\hat\theta_1$ 较 $\hat\theta_2$ 有效。
相合性（一致性）：设 $\hat\theta_n=\hat\theta(X_1,X_2,\cdots,X_n)$ 是 $\theta$ 的点估计，若 $\forall \theta\in\Theta$ 满足对 $\forall\epsilon\gt 0$ 有 $\color{red}\underset{n\to\infty}{\lim}P{|\hat\theta_n -\theta|\ge \epsilon }=0$ ，则称 $\hat\theta_n$ 是 $\theta$ 的相合估计，记作 $\hat\theta_n\overset{P}{\longrightarrow}\theta(n\to\infty)$ 。

区间估计

区别：点估计构造一个参数统计量，而区间估计构造两个并将 $(\theta_1,\theta_2)$ 以一定的置信度作为 $\theta$ 的估算区间。

定义：设总体 $X\sim F(x;\theta)$ ，若存在 2 个统计量

$$
\begin{array}{lr}
&\underline{\theta}=\underline{\theta}(X_1,\cdots,X_n),\ \ \ \overline{\theta}=\overline{\theta}(X_1,\cdots,X_n) &(\underline{\theta}\lt\overline{\theta})
\end{array}
$$

使得 $\forall\theta\in\Theta$ 有 $P{\underline{\theta}\le\theta\le\overline{\theta}}\ge 1-\alpha$ ，则称随机区间 $(\underline{\theta},\overline{\theta})$ 为 $\theta$ 的置信水平为 $1-\alpha$ 的置信区间，$\underline{\theta}$ 和 $\overline{\theta}$ 分别称为置信下限和置信上限。

区间估计一般方法
- 枢轴法（对应 t-分布的应用）
- 波动理论（对应卡方分布的应用）

二级结论总结

$\sigma^2$ 已知，对 $\mu$ 估计：$\color{red}(\bar{X}-u_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}},\bar{X}+u_{1-\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}})$
$\sigma^2$ 未知，对 $\mu$ 估计：$\color{red}(\bar{X}-\frac{S}{\sqrt{n}}t_{1-\frac{\alpha}{2}}(n-1),\bar{X}+\frac{S}{\sqrt{n}}t_{1-\frac{\alpha}{2}}(n-1))$
$\mu$ 未知，对 $\sigma^2$ 估计：$\large\color{red}(\frac{(n-1)S^2}{\chi^2_{1-\frac{\alpha}{2}}(n-1)}, \frac{(n-1)S^2}{\chi^2_{\frac{\alpha}{2}}(n-1)})$

后两条的推导式：

$$
\begin{array}{c}
&P\left{ \frac{|\bar{X}-\mu|}{S/\sqrt{n}}\lt t_{1-\frac{\alpha}{2}}(n-1) \right}=1-\alpha \
&P\left{\chi^2_{\frac{\alpha}{2}}(n-1)\lt \frac{(n-1)S^2}{\sigma^2}\lt\chi^2_{1-\frac{\alpha}{2}}(n-1) \right}=1-\alpha
\end{array}
$$

第八章假设检验

一、建立对立的假设：

原假设（零假设）$H_0$ 和备择假设（对立假设）$H_1$

保护原假设：原假设错误的“代价”必须小于备择假设（如原假设新药物有副作用）
原假设趋于维持现状
原假设取简单假设

二、给出检验统计量，确定拒绝域形式

拒绝域是拒绝原假设的样本值范围，其补集为接受域。

设置合理的 $C$ 值（待定常数），使得 $\bar{X}$ 大于/小于该常数时，拒绝原假设。

I 类错误与 II 类错误

I 类错误指拒绝原假设但是原假设为真的情况，用 $\alpha$ 表示犯错概率，一般控制在 $(0.01,0.1)$ 范围内。(也称显著水平)

II 类错误指接受原假设但原假设为假的情况，用 $\beta$ 表示。

三、根据显著水平和统计量的分布确定临界值

根据 NP 原则，先保证犯 I 类错误的概率不超过 $\alpha$，再令犯 II 类错误的概率尽可能小。

例：取 $\alpha=0.05$ ，当 $H_0:\mu=0$ 成立时，$\frac{\bar{X}}{0.6/\sqrt{9}}\sim N(0,1)$。（统计量分布）则可进行如下计算：

$$
\begin{array}{l}
P{\bar{X}\ge C|\mu=0 }&=P\left{\frac{\bar{X}}{\sigma/\sqrt{n}}\ge\frac{C}{\sigma/\sqrt{n}}|\mu=0 \right} \
&=1-\psi\left(\frac{C}{\sigma/\sqrt{n}}\right)\le\alpha=0.05\ \ (0.05=\psi(-\textbf{z}{0.05})) \
&\Rightarrow \frac{C}{0.6/\sqrt{9}}\ge \textbf{z}{0.05}=1.645 \Rightarrow C\ge0.329
\end{array}
$$

因此取 $C=0.329$ 以减小 II 类错误！

四、根据样本数据判断是否要拒绝假设

例：如 $\bar{x}=0.522\gt 0.329$，则拒绝原假设。

正态总体参数的假设检验样例

In development…

------------- 本文结束感谢阅读 -------------

第一章 概率