Merge branch 'chapter-2'

HPDell · Dec 14, 2018 · 76ccca1 · 76ccca1
2 parents 56ecb00 + 3821c55
commit 76ccca1
Show file tree

Hide file tree

Showing 8 changed files with 274 additions and 1 deletion.
diff --git a/.vscode/latex.code-snippets b/.vscode/latex.code-snippets
@@ -32,5 +32,9 @@
 			"\\end{itemize}",
 			"$0"
 		]
+	},
+	"Chi Sqare Distribution": {
+		"prefix": "chisquare",
+		"body": "$ \\chi^2 $ 分布"
 	}
 }
diff --git a/Chapter-2.tex b/Chapter-2.tex
@@ -0,0 +1,6 @@
+\chapter{数理统计的基本概念}
+
+\input{Chapter-2/Section-2-1.tex}
+\input{Chapter-2/Section-2-2.tex}
+\input{Chapter-2/Section-2-3.tex}
+\input{Chapter-2/Section-2-4.tex}
diff --git a/Chapter-2/Section-2-1.tex b/Chapter-2/Section-2-1.tex
@@ -0,0 +1,64 @@
+\section{总体与样本}
+
+\hparagraph{总体与个体} 研究对象的全体称为\highlight{总体}，
+总体中所包含的个体的个数称为总体的\highlight{容量}。
+总体中每个成员称为\highlight{个体}。
+
+\begin{itemize}[leftmargin=\paritemindent]
+    \item 由于每个个体的出现是随机的，所以相应的数量指标的出现也带有随机性。
+    从而可以把这种数量指标看作一个随机变量$ X $，因此随机变量$ X $的分布就是该数量指标在总体中的分布。
+    \item 总体就可以用一个随机变量及其分布来描述。因此在理论上可以把总体与概率分布等同起来。
+    统计中，总体这个概念的要旨是：总体就是一个随机变量(向量)或一个概率分布。
+\end{itemize}
+
+\hparagraph{样本} 
+总体中抽出若干个体而成的集体，称为\highlight{样本}。样本中所含个体的个数，称为\highlight{样本容量}。
+
+\hparagraph{抽样} 统计中，采用的抽样方法是随机抽样法，即子样中每个个体是从总体中随意地取出来的。
+\hsubparagraph{抽样的分类} 
+\begin{itemize}[leftmargin=\subparitemindent]
+    \item \highlight{重复（返回）抽样}：从总体中抽取个体检查后放回，总体成分不变（分布不变）。
+    样本 $ X_1, X_2, \cdots, X_n $ 相互独立，与总体有相同的分布。
+    \item \highlight{非重复（无返回）抽样}：对有限总体取出样本后改变了总体的成分，所以 $ X_1, X_2, \cdots, X_n $ 不相互独立；
+    对无限总体而言做无返回抽取，并不改变总体的成分， $ X_1, X_2, \cdots, X_n $ 相互独立，与总体有相同的分布。
+\end{itemize}
+
+\hsubparagraph{常用方法} 简单随机抽样。
+\begin{itemize}[leftmargin=\subparitemindent]
+    \item 代表性（随机性）：。 从总体中抽取样本的每一个分量$ X_k $是随机的，每一个个体被抽到的可能性相同。
+    \item 独立同分布性： $ X_1, X_2, \cdots, X_n $ 相互独立，其中每一个分量$ X_k $与所考察的总体有相同的分布。
+\end{itemize}
+
+\hsubparagraph{样本联合分布} 若总体的分布函数为 $ F(x) $ 、概率密度为 $ f(x) $ ，则其简单随机样本的联合分布函数为
+\begin{equation}
+    F_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = F(1) F(2) \cdots F(n)
+\end{equation}
+其简单随机样本的联合概率密度函数为
+\begin{equation}
+    f_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = f(1) f(2) \cdots f(n)
+\end{equation}
+
+\hparagraph{样本经验分布函数} 在 $ n $ 次独立重复实验中，事件 $ \left\{ X \leqslant x \right\}  $ 发生的频率
+\begin{equation}
+    \hat{F}_n(x;X_1, X_2, \cdots, X_n) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \leqslant x)
+\end{equation}
+具有分布函数的一切性质。是在每个数据点 $ X_i $ 上权重相等的均匀分布的分布函数。
+
+\hsubparagraph{性质}
+\begin{itemize}[leftmargin=\subparitemindent]
+    \item 给定 $ x $， $ \hat{F}_n(x) $ 是一个随机变量： $ n\hat{F}_n(x) $ 服从二项分布 $ b(n, F(x)) $ 
+    \item $ E(\hat{F}_n(x)) = F(x) $
+    \item $ D(\hat{F}_n(x)) = \frac{F(x)(1-F(x))}{n} \rightarrow 0 $
+    \item $ \hat{F}_n(x) \xrightarrow{P} F(x) $
+    \item Dvoretzky-Kiefer-Wolfowitz (DKW)不等式：如果 $ X_1, X_2, \cdots, X_n \sim F $ ，则对任意 $ \epsilon > 0 $
+    \begin{equation}
+        P\left\{ \sup_x \left| \hat{F}_n(x)) - F(x) \right| > \epsilon \right\}  \leqslant 2e^{-2n\epsilon^2}
+    \end{equation}
+\end{itemize}
+
+\hsubparagraph{格列汶科定理} 当 $ n \rightarrow \infty $ 时， $ \hat{F}_n(x) $ 以概率 $ 1 $ 关于 $ x $ 一致收敛于 $ F(x) $ ，
+即
+\begin{equation}
+    P\left\{ \lim_{n\rightarrow\infty} \sup_{-\infty<x<\infty} \left| \hat{F}_n(x) - F(x) \right| = 0 \right\} = 1
+\end{equation}
+当样本容量 $ n $ 足够大时，对所有的 $ x $,  $ \hat{F}_n(x) $ 与 $ F(x) $ 之差的绝对值都很小，这件事发生的概率为 $ 1 $ 。
diff --git a/Chapter-2/Section-2-2.tex b/Chapter-2/Section-2-2.tex
@@ -0,0 +1,59 @@
+\section{统计量}
+
+\hparagraph{统计量} 不含任何未知参数的样本的函数称为统计量。它是完全由样本决定的量。
+\begin{itemize}[leftmargin=\paritemindent]
+    \item 统计量是随机变量
+    \item 设 $ X_1, X_2, \cdots, X_n $ 是来自总体$ X $ 的一个样本， $ x_1, x_2, \cdots, x_n $ 是一个样本的观察值，
+    则 $ g(x_1, x_2, \cdots, x_n) $ 也是统计量 $ g(X_1, X_2, \cdots, X_n) $ 的观察值。
+\end{itemize}
+
+\hparagraph{常见统计量}
+\begin{itemize}[leftmargin=\paritemindent]
+    \item \highlight{样本均值}：
+    $$ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i $$
+    \item \highlight{样本方差}：
+    $$ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 = \frac{1}{n} \left( \sum_{i=1}^{n} X_i^2 - n\bar{X}^2 \right) $$
+    \item \highlight{样本标准差}：
+    $$ S = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2} $$
+    \item \highlight{样本 $ k $ 阶原点矩}：
+    $$ A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k $$
+    \item \highlight{样本 $ k $ 阶中心矩}：
+    $$ B_k = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^k $$
+    \item \highlight{顺序统计量}：设 $ (x_1, x_2, \cdots, x_n) $ 为样本 $ (X_1, X_2, \cdots, X_n) $ 的一个观察值，
+    且 $ x_{(1)} \leqslant x_{(2)} \leqslant \cdots \leqslant x_{(n)} $ 。当 $ (X_1, X_2, \cdots, X_n) $ 取值为
+    $ (x_1, x_2, \cdots, x_n) $ 时，定义随机变量 $ X_{(k)} = x_{(k)} $ 则称统计量 $ (X_{(1)}, X_{(2)}, \cdots, X_{(n)}) $
+    为顺序统计量。
+    \item \highlight{极差}：
+    $$ D_n = X_{(n)} - X_{(1)} $$
+\end{itemize}
+
+\hparagraph{常见统计量的性质}
+\begin{itemize}[leftmargin=\paritemindent]
+    \item $ E(\bar{X}) = E(X) = \mu $
+    \item $ D(\bar{X}) = \frac{D(X)}{n} = \frac{\sigma^2}{n} $
+    \item $ E(S^2) = D(X) = \sigma^2 $
+    \item 若总体 $ k $ 阶矩 $ E(X^k) = \mu_k $ 存在，则当 $ n \rightarrow \infty $ 时，
+    \begin{equation}
+        A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k \xrightarrow{P} \mu_k
+    \end{equation}
+    推广
+    \begin{equation}
+        g(A_1, A_2, \cdots, A_n) \xrightarrow{P} g(\mu_1, \mu_2, \cdots, \mu_n)
+    \end{equation}
+\end{itemize}
+
+\hparagraph{统计量的分布} 设总体分布的特征函数为 $ \phi_X(t) $ ，则 $ \bar{X} $ 的特征函数是
+\begin{equation}
+    \phi_{\bar{X}}(t) = \left(\phi_X\left(\frac{t}{n}\right)\right)^n
+\end{equation}
+\begin{itemize}[leftmargin=\paritemindent]
+    \item 正态分布： $ \bar{X} \sim N(\mu, \sigma^2 / n) $
+    $$ \phi_{\bar{X}}(t) = e^{\symrm{i}\mu t - \frac{1}{2} \frac{\sigma^2}{n} t^2} $$
+    \item 泊松分布：
+    $$ \phi_{\bar{X}}(t) = \exp \left( n\lambda \left(e^{\symrm{i}t/n} - 1\right) \right) $$
+    \item 指数分布： $ \bar{X} \sim \Gamma \left(n-1, \frac{1}{n\lambda}\right) $
+    $$ \phi_{\bar{X}}(t) = \left( 1 - \frac{\symrm{i}t}{n\lambda} \right) $$
+    \item 二项分布：
+    $$ \phi_{\bar{X}}(t) = \left( p e^{\symrm{i}t/n} + q \right)^{Nn} $$
+\end{itemize}
+
diff --git a/Chapter-2/Section-2-3.tex b/Chapter-2/Section-2-3.tex
@@ -0,0 +1,85 @@
+\section{三大统计抽样分布}
+
+\hparagraph{$ \chi^2 $分布} 设 $ X_1, X_2, \cdots, X_n $ 互相独立，都服从正态分布 $ N(0,1) $ 则称随机变量
+\begin{equation}
+    \chi^2 = X_{1}^2, X_{2}^2, \cdots, X_{n}^2
+\end{equation}
+所服从的分布为自由度为 $ n $ 的 $ \chi^2 $ 分布。
+
+\hsubparagraph{密度函数} $ \chi^2 $ 分布的密度函数为
+\begin{equation}
+    f(x;n) = \left\{ \begin{array}{ll}
+        \ddfrac{1}{2^{\frac{n}{2}} \Gamma(n/2)} x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} & x \geqslant 0 \\
+        0 & x < 0
+    \end{array} \right.
+\end{equation}
+
+\hsubparagraph{期望和方差} $ E(X) = n, D(X) = 2n $ 。
+
+\hsubparagraph{性质}
+\begin{itemize}[leftmargin=\subparitemindent]
+    \item 设 $ X_1, X_2, \cdots, X_n $ 互相独立，都服从正态分布 $ N(0,1) $ 则
+    \begin{equation}
+        \chi^2 = \frac{1}{\sigma^2} \sum_{i=1}^{n}(X_i - \mu)^2 \sim \chi^2(n)
+    \end{equation}
+    \item \highlight{可加性}： 设 $ X_1 \sim \chi^2(n_1), X_2 \sim \chi^2(n_2) $ 且 $ X_1, X_2 $ 互相独立，则
+    \begin{equation}
+        X_1 + X_2 \sim \chi^2(n_1 + n_2)
+    \end{equation}
+    \item 若 $ \chi^2 \sim \chi^2(n) $ 则当 $ n $ 充分大时， $ \frac{X-n}{\sqrt{2n}} $ 的分布近似正态分布 $ N(0,1) $ 。
+\end{itemize}
+
+\hsubparagraph{上分位点} 对于给定的正数 $ \alpha(0 < \alpha < 1) $ 称满足条件
+\begin{equation}
+    P\left\{ \chi^2 > \chi^2_\alpha(n) \right\} = \int_{\chi^2_\alpha(n)}^{\infty} f(y) \diff y = \alpha
+\end{equation}
+的点 $ \chi^2_\alpha(n) $ 称为 $ \chi^2(n) $ 分布的上 $ \alpha $ 分位点。
+
+\hparagraph{$ t $分布} 设 $ X \sim N(0,1),Y \sim \chi^2(n) $ 且 $ X $ 与 $ Y $ 相互独立，则称变量
+\begin{equation}
+    T = \frac{X}{\sqrt{\ddfrac{Y}{n}}}
+\end{equation}
+所服从的分布为自由度为 $ n $ 的 $ t $ 分布，记为 $ T \sim t(n) $ 。
+
+\hsubparagraph{密度函数} $ t $ 分布的密度函数为
+\begin{equation}
+    h(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)} \left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}}
+    \quad -\infty < t < \infty
+\end{equation}
+
+\hsubparagraph{期望和方差} $ E(t) = 0, D(t) = \frac{n}{n-2} $ 。
+
+\hsubparagraph{性质}
+\begin{itemize}[leftmargin=\subparitemindent]
+    \item 密度函数关于 $ t=0 $ 对称，当 $ n $ 充分大时，其图形近似于标准正态分布概率密度的图形。且
+    \begin{equation}
+        \lim_{n \rightarrow \infty} h(t) = \frac{1}{2\pi} e^{-\frac{t^2}{2}}
+    \end{equation}
+    即当 $ n $ 足够大时， $ T \sim N(0,1) $ 。
+\end{itemize}
+
+\hparagraph{$ F $分布} 设 $ X \sim \chi^2(n_1), Y \sim \chi^2(n_2) $ 且 $ X,Y $ 独立，则称统计量
+\begin{equation}
+    F = \frac{X/n_1}{Y/n-2}
+\end{equation}
+服从自由度为 $ n_1,n_2 $ 的 $ F $ 分布， $ n_1 $ 为第一自由度， $ n_2 $ 为第二自由度，记为 $ F \sim F(n_1,n_2) $ 。
+
+\hsubparagraph{密度函数} $ F $ 分布的密度函数为
+\begin{equation}
+    f(y) = \left\{ \begin{array}{ll}
+        \ddfrac{\Gamma\left(\ddfrac{n_1+n_2}{2}\right)}{\Gamma\left(\ddfrac{n_1}{2}\right)\Gamma\left(\ddfrac{n_2}{2}\right)}
+        \left(\frac{n_1}{n_2}\right) ^{\frac{n_1}{2}}(y)^{\frac{n_1}{2} - 1}
+        \left( 1 + \frac{n_1}{n_2}y \right)^{-\frac{n_1+n_2}{2}} & y > 0 \\
+        0 & y \leqslant 0
+    \end{array} \right.
+\end{equation}
+
+\hsubparagraph{期望和方差} $ E(t) = \frac{n_2}{n_2 - 2} $ 。
+
+\hsubparagraph{性质}
+\begin{itemize}[leftmargin=\subparitemindent]
+    \item 即它的数学期望并不依赖于第一自由度。
+    \item 若 $ F \sim F(n_1, n_2) $ 则 $ \frac{1}{F} \sim F(n_2, n_1) $
+    \item $ F_{1 - \alpha}(n_1,n_2) = 1 / F_{\alpha}(n_2,n_1) $
+\end{itemize}
+
diff --git a/Chapter-2/Section-2-4.tex b/Chapter-2/Section-2-4.tex
@@ -0,0 +1,54 @@
+\section{正态总体抽样分布定理}
+
+\noindent 设总体 $ X $ 的均值为 $ \mu $ ，方差为 $ \sigma^2 $ ， $ X_1, X_2, \cdots, X_n $ 是来自总体的一个样本，则样本均值 $ \bar{X} $
+和样本方差 $ S^2 $ 有
+\begin{align}
+    E(\bar{X}) & = \mu \\
+    D(\bar{X}) & = \frac{\sigma^2}{\mu} \\
+    E(S^2) & = \sigma^2
+\end{align}
+
+\hparagraph{样本均值的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本， $ \bar{X} $ 是样本均值，则有
+\begin{equation}
+    X \sim N\left(\mu, \frac{\sigma^2}{n}\right)
+\end{equation}
+则
+\begin{equation}
+    \frac{\bar{X} - \mu}{\ddfrac{\sigma^2}{\sqrt{n}}} \sim N(0,1)
+\end{equation}
+
+\hparagraph{样本方差的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本， $ \bar{X} $ 是样本均值，
+$ S^2 $ 是样本方差，则有
+\begin{itemize}[leftmargin=\paritemindent]
+    \item \begin{equation}
+        \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)
+    \end{equation}
+    \item $ \bar{X} $ 与 $ S^2 $ 独立
+\end{itemize}
+
+
+\hparagraph{样本均值的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本， $ \bar{X} $ 是样本均值，
+$ S^2 $ 是样本方差，则有
+\begin{equation}
+    \frac{\bar{X} - \mu}{\ddfrac{S}{\sqrt{n}}} \sim t(n-1)
+\end{equation}
+
+\hparagraph{两总体样本均值差的分布} 设 $ X\sim N(\mu_1, \sigma_{1}^{2}), X\sim N(\mu_2, \sigma_{2}^{2}) $ 且 $ X,Y $ 独立，
+$ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ X $ 的样本，$ Y_1, Y_2, \cdots, Y_n $ 是来自正态总体 $ Y $ 的样本，
+$ \bar{X},\bar{Y} $ 分别是这两个样本的均值，$ S_{1}^{2}, S_{2}^{2} $ 分别是这两个样本的方差，则有
+\begin{align}
+    \frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}} & \sim F(n_1 - 1,n_2 -1) \\
+    \ddfrac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{
+        \sqrt{\frac{(n_1 - 1)S_{1}^{2} + (n_2 - 1)S_{2}^{2}}{n_1 + n_2 - 2}}
+        \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}
+    } & \sim t(n_1 + n_2 - 2)
+\end{align}
+
+\hparagraph{Cochran定理}  设 $ X_1, X_2, \cdots, X_n $ 独立同分布，服从 $ N(0,1) $ ， $ X = (X_1, X_2, \cdots, X_n)^{\symrm{T}} $ ，
+$$ Q = \sum_{i=1}^{n}X_{i}^{2} = \sum_{l=1}^{n}Q_l $$ 是 $ X = (X_1, X_2, \cdots, X_n)^{\symrm{T}} $ 的二次型，
+$ Q = X^{\symrm{T}}A_l X $ 则下述结论成立的充要条件是 $$ n = \sum_{i=1}^{k} n_i $$
+\begin{itemize}[leftmargin=\paritemindent]
+    \item $ Q_1, Q_2, \cdots, Q_k $ 相互独立
+    \item $ Q_l \sim \chi^2(n_l) $
+\end{itemize}
+
diff --git a/MathematicalStatistics.tex b/MathematicalStatistics.tex
@@ -13,4 +13,5 @@
 
         \mainmatter
         \include{Chapter-1}
+        \include{Chapter-2}
     \end{document}
diff --git a/setting.tex b/setting.tex
@@ -72,7 +72,7 @@
 \newcommand{\diff}{\symrm{d }}
 \newcommand{\cpi}{\symrm{\pi}}
 \newcommand{\trans}{^\symrm{T}}
-\newcommand{\highlight}[1]{\textbf{\alert{#1}}}
+\newcommand{\highlight}[1]{\textcolor{blue}{\textbf{\kaishu{#1}}}}
 \newcommand{\done}{\ooalign{$\square$ \cr \raisebox{3pt}{\scriptsize{$√$}}}}
 \newcommand{\undone}{\ooalign{$\square$ \cr \raisebox{3pt}{}}}
 \newcommand{\Cov}{\mathrm{Cov}}