Skip to content

Commit

Permalink
Merge branch 'chapter-2'
Browse files Browse the repository at this point in the history
  • Loading branch information
HPDell committed Dec 14, 2018
2 parents 56ecb00 + 3821c55 commit 76ccca1
Show file tree
Hide file tree
Showing 8 changed files with 274 additions and 1 deletion.
4 changes: 4 additions & 0 deletions .vscode/latex.code-snippets
Original file line number Diff line number Diff line change
Expand Up @@ -32,5 +32,9 @@
"\\end{itemize}",
"$0"
]
},
"Chi Sqare Distribution": {
"prefix": "chisquare",
"body": "$ \\chi^2 $ 分布"
}
}
6 changes: 6 additions & 0 deletions Chapter-2.tex
Original file line number Diff line number Diff line change
@@ -0,0 +1,6 @@
\chapter{数理统计的基本概念}

\input{Chapter-2/Section-2-1.tex}
\input{Chapter-2/Section-2-2.tex}
\input{Chapter-2/Section-2-3.tex}
\input{Chapter-2/Section-2-4.tex}
64 changes: 64 additions & 0 deletions Chapter-2/Section-2-1.tex
Original file line number Diff line number Diff line change
@@ -0,0 +1,64 @@
\section{总体与样本}

\hparagraph{总体与个体} 研究对象的全体称为\highlight{总体},
总体中所包含的个体的个数称为总体的\highlight{容量}。
总体中每个成员称为\highlight{个体}。

\begin{itemize}[leftmargin=\paritemindent]
\item 由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性。
从而可以把这种数量指标看作一个随机变量$ X $,因此随机变量$ X $的分布就是该数量指标在总体中的分布。
\item 总体就可以用一个随机变量及其分布来描述。因此在理论上可以把总体与概率分布等同起来。
统计中,总体这个概念的要旨是:总体就是一个随机变量(向量)或一个概率分布。
\end{itemize}

\hparagraph{样本}
总体中抽出若干个体而成的集体,称为\highlight{样本}。样本中所含个体的个数,称为\highlight{样本容量}。

\hparagraph{抽样} 统计中,采用的抽样方法是随机抽样法,即子样中每个个体是从总体中随意地取出来的。
\hsubparagraph{抽样的分类}
\begin{itemize}[leftmargin=\subparitemindent]
\item \highlight{重复(返回)抽样}:从总体中抽取个体检查后放回,总体成分不变(分布不变)。
样本 $ X_1, X_2, \cdots, X_n $ 相互独立,与总体有相同的分布。
\item \highlight{非重复(无返回)抽样}:对有限总体取出样本后改变了总体的成分,所以 $ X_1, X_2, \cdots, X_n $ 不相互独立;
对无限总体而言做无返回抽取,并不改变总体的成分, $ X_1, X_2, \cdots, X_n $ 相互独立,与总体有相同的分布。
\end{itemize}

\hsubparagraph{常用方法} 简单随机抽样。
\begin{itemize}[leftmargin=\subparitemindent]
\item 代表性(随机性):。 从总体中抽取样本的每一个分量$ X_k $是随机的,每一个个体被抽到的可能性相同。
\item 独立同分布性: $ X_1, X_2, \cdots, X_n $ 相互独立,其中每一个分量$ X_k $与所考察的总体有相同的分布。
\end{itemize}

\hsubparagraph{样本联合分布} 若总体的分布函数为 $ F(x) $ 、概率密度为 $ f(x) $ ,则其简单随机样本的联合分布函数为
\begin{equation}
F_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = F(1) F(2) \cdots F(n)
\end{equation}
其简单随机样本的联合概率密度函数为
\begin{equation}
f_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = f(1) f(2) \cdots f(n)
\end{equation}

\hparagraph{样本经验分布函数} 在 $ n $ 次独立重复实验中,事件 $ \left\{ X \leqslant x \right\} $ 发生的频率
\begin{equation}
\hat{F}_n(x;X_1, X_2, \cdots, X_n) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \leqslant x)
\end{equation}
具有分布函数的一切性质。是在每个数据点 $ X_i $ 上权重相等的均匀分布的分布函数。

\hsubparagraph{性质}
\begin{itemize}[leftmargin=\subparitemindent]
\item 给定 $ x $$ \hat{F}_n(x) $ 是一个随机变量: $ n\hat{F}_n(x) $ 服从二项分布 $ b(n, F(x)) $
\item $ E(\hat{F}_n(x)) = F(x) $
\item $ D(\hat{F}_n(x)) = \frac{F(x)(1-F(x))}{n} \rightarrow 0 $
\item $ \hat{F}_n(x) \xrightarrow{P} F(x) $
\item Dvoretzky-Kiefer-Wolfowitz (DKW)不等式:如果 $ X_1, X_2, \cdots, X_n \sim F $ ,则对任意 $ \epsilon > 0 $
\begin{equation}
P\left\{ \sup_x \left| \hat{F}_n(x)) - F(x) \right| > \epsilon \right\} \leqslant 2e^{-2n\epsilon^2}
\end{equation}
\end{itemize}

\hsubparagraph{格列汶科定理} 当 $ n \rightarrow \infty $ 时, $ \hat{F}_n(x) $ 以概率 $ 1 $ 关于 $ x $ 一致收敛于 $ F(x) $
\begin{equation}
P\left\{ \lim_{n\rightarrow\infty} \sup_{-\infty<x<\infty} \left| \hat{F}_n(x) - F(x) \right| = 0 \right\} = 1
\end{equation}
当样本容量 $ n $ 足够大时,对所有的 $ x $, $ \hat{F}_n(x) $$ F(x) $ 之差的绝对值都很小,这件事发生的概率为 $ 1 $
59 changes: 59 additions & 0 deletions Chapter-2/Section-2-2.tex
Original file line number Diff line number Diff line change
@@ -0,0 +1,59 @@
\section{统计量}

\hparagraph{统计量} 不含任何未知参数的样本的函数称为统计量。它是完全由样本决定的量。
\begin{itemize}[leftmargin=\paritemindent]
\item 统计量是随机变量
\item$ X_1, X_2, \cdots, X_n $ 是来自总体$ X $ 的一个样本, $ x_1, x_2, \cdots, x_n $ 是一个样本的观察值,
$ g(x_1, x_2, \cdots, x_n) $ 也是统计量 $ g(X_1, X_2, \cdots, X_n) $ 的观察值。
\end{itemize}

\hparagraph{常见统计量}
\begin{itemize}[leftmargin=\paritemindent]
\item \highlight{样本均值}:
$$ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i $$
\item \highlight{样本方差}:
$$ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 = \frac{1}{n} \left( \sum_{i=1}^{n} X_i^2 - n\bar{X}^2 \right) $$
\item \highlight{样本标准差}:
$$ S = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2} $$
\item \highlight{样本 $ k $ 阶原点矩}:
$$ A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k $$
\item \highlight{样本 $ k $ 阶中心矩}:
$$ B_k = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^k $$
\item \highlight{顺序统计量}:设 $ (x_1, x_2, \cdots, x_n) $ 为样本 $ (X_1, X_2, \cdots, X_n) $ 的一个观察值,
$ x_{(1)} \leqslant x_{(2)} \leqslant \cdots \leqslant x_{(n)} $ 。当 $ (X_1, X_2, \cdots, X_n) $ 取值为
$ (x_1, x_2, \cdots, x_n) $ 时,定义随机变量 $ X_{(k)} = x_{(k)} $ 则称统计量 $ (X_{(1)}, X_{(2)}, \cdots, X_{(n)}) $
为顺序统计量。
\item \highlight{极差}:
$$ D_n = X_{(n)} - X_{(1)} $$
\end{itemize}

\hparagraph{常见统计量的性质}
\begin{itemize}[leftmargin=\paritemindent]
\item $ E(\bar{X}) = E(X) = \mu $
\item $ D(\bar{X}) = \frac{D(X)}{n} = \frac{\sigma^2}{n} $
\item $ E(S^2) = D(X) = \sigma^2 $
\item 若总体 $ k $ 阶矩 $ E(X^k) = \mu_k $ 存在,则当 $ n \rightarrow \infty $ 时,
\begin{equation}
A_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k \xrightarrow{P} \mu_k
\end{equation}
推广
\begin{equation}
g(A_1, A_2, \cdots, A_n) \xrightarrow{P} g(\mu_1, \mu_2, \cdots, \mu_n)
\end{equation}
\end{itemize}

\hparagraph{统计量的分布} 设总体分布的特征函数为 $ \phi_X(t) $ ,则 $ \bar{X} $ 的特征函数是
\begin{equation}
\phi_{\bar{X}}(t) = \left(\phi_X\left(\frac{t}{n}\right)\right)^n
\end{equation}
\begin{itemize}[leftmargin=\paritemindent]
\item 正态分布: $ \bar{X} \sim N(\mu, \sigma^2 / n) $
$$ \phi_{\bar{X}}(t) = e^{\symrm{i}\mu t - \frac{1}{2} \frac{\sigma^2}{n} t^2} $$
\item 泊松分布:
$$ \phi_{\bar{X}}(t) = \exp \left( n\lambda \left(e^{\symrm{i}t/n} - 1\right) \right) $$
\item 指数分布: $ \bar{X} \sim \Gamma \left(n-1, \frac{1}{n\lambda}\right) $
$$ \phi_{\bar{X}}(t) = \left( 1 - \frac{\symrm{i}t}{n\lambda} \right) $$
\item 二项分布:
$$ \phi_{\bar{X}}(t) = \left( p e^{\symrm{i}t/n} + q \right)^{Nn} $$
\end{itemize}

85 changes: 85 additions & 0 deletions Chapter-2/Section-2-3.tex
Original file line number Diff line number Diff line change
@@ -0,0 +1,85 @@
\section{三大统计抽样分布}

\hparagraph{$ \chi^2 $分布} 设 $ X_1, X_2, \cdots, X_n $ 互相独立,都服从正态分布 $ N(0,1) $ 则称随机变量
\begin{equation}
\chi^2 = X_{1}^2, X_{2}^2, \cdots, X_{n}^2
\end{equation}
所服从的分布为自由度为 $ n $$ \chi^2 $ 分布。

\hsubparagraph{密度函数} $ \chi^2 $ 分布的密度函数为
\begin{equation}
f(x;n) = \left\{ \begin{array}{ll}
\ddfrac{1}{2^{\frac{n}{2}} \Gamma(n/2)} x^{\frac{n}{2} - 1} e^{-\frac{x}{2}} & x \geqslant 0 \\
0 & x < 0
\end{array} \right.
\end{equation}

\hsubparagraph{期望和方差} $ E(X) = n, D(X) = 2n $

\hsubparagraph{性质}
\begin{itemize}[leftmargin=\subparitemindent]
\item$ X_1, X_2, \cdots, X_n $ 互相独立,都服从正态分布 $ N(0,1) $
\begin{equation}
\chi^2 = \frac{1}{\sigma^2} \sum_{i=1}^{n}(X_i - \mu)^2 \sim \chi^2(n)
\end{equation}
\item \highlight{可加性}: 设 $ X_1 \sim \chi^2(n_1), X_2 \sim \chi^2(n_2) $$ X_1, X_2 $ 互相独立,则
\begin{equation}
X_1 + X_2 \sim \chi^2(n_1 + n_2)
\end{equation}
\item$ \chi^2 \sim \chi^2(n) $ 则当 $ n $ 充分大时, $ \frac{X-n}{\sqrt{2n}} $ 的分布近似正态分布 $ N(0,1) $
\end{itemize}

\hsubparagraph{上分位点} 对于给定的正数 $ \alpha(0 < \alpha < 1) $ 称满足条件
\begin{equation}
P\left\{ \chi^2 > \chi^2_\alpha(n) \right\} = \int_{\chi^2_\alpha(n)}^{\infty} f(y) \diff y = \alpha
\end{equation}
的点 $ \chi^2_\alpha(n) $ 称为 $ \chi^2(n) $ 分布的上 $ \alpha $ 分位点。

\hparagraph{$ t $分布} 设 $ X \sim N(0,1),Y \sim \chi^2(n) $$ X $$ Y $ 相互独立,则称变量
\begin{equation}
T = \frac{X}{\sqrt{\ddfrac{Y}{n}}}
\end{equation}
所服从的分布为自由度为 $ n $$ t $ 分布,记为 $ T \sim t(n) $

\hsubparagraph{密度函数} $ t $ 分布的密度函数为
\begin{equation}
h(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)} \left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}}
\quad -\infty < t < \infty
\end{equation}

\hsubparagraph{期望和方差} $ E(t) = 0, D(t) = \frac{n}{n-2} $

\hsubparagraph{性质}
\begin{itemize}[leftmargin=\subparitemindent]
\item 密度函数关于 $ t=0 $ 对称,当 $ n $ 充分大时,其图形近似于标准正态分布概率密度的图形。且
\begin{equation}
\lim_{n \rightarrow \infty} h(t) = \frac{1}{2\pi} e^{-\frac{t^2}{2}}
\end{equation}
即当 $ n $ 足够大时, $ T \sim N(0,1) $
\end{itemize}

\hparagraph{$ F $分布} 设 $ X \sim \chi^2(n_1), Y \sim \chi^2(n_2) $$ X,Y $ 独立,则称统计量
\begin{equation}
F = \frac{X/n_1}{Y/n-2}
\end{equation}
服从自由度为 $ n_1,n_2 $$ F $ 分布, $ n_1 $ 为第一自由度, $ n_2 $ 为第二自由度,记为 $ F \sim F(n_1,n_2) $

\hsubparagraph{密度函数} $ F $ 分布的密度函数为
\begin{equation}
f(y) = \left\{ \begin{array}{ll}
\ddfrac{\Gamma\left(\ddfrac{n_1+n_2}{2}\right)}{\Gamma\left(\ddfrac{n_1}{2}\right)\Gamma\left(\ddfrac{n_2}{2}\right)}
\left(\frac{n_1}{n_2}\right) ^{\frac{n_1}{2}}(y)^{\frac{n_1}{2} - 1}
\left( 1 + \frac{n_1}{n_2}y \right)^{-\frac{n_1+n_2}{2}} & y > 0 \\
0 & y \leqslant 0
\end{array} \right.
\end{equation}

\hsubparagraph{期望和方差} $ E(t) = \frac{n_2}{n_2 - 2} $

\hsubparagraph{性质}
\begin{itemize}[leftmargin=\subparitemindent]
\item 即它的数学期望并不依赖于第一自由度。
\item$ F \sim F(n_1, n_2) $$ \frac{1}{F} \sim F(n_2, n_1) $
\item $ F_{1 - \alpha}(n_1,n_2) = 1 / F_{\alpha}(n_2,n_1) $
\end{itemize}

54 changes: 54 additions & 0 deletions Chapter-2/Section-2-4.tex
Original file line number Diff line number Diff line change
@@ -0,0 +1,54 @@
\section{正态总体抽样分布定理}

\noindent 设总体 $ X $ 的均值为 $ \mu $ ,方差为 $ \sigma^2 $$ X_1, X_2, \cdots, X_n $ 是来自总体的一个样本,则样本均值 $ \bar{X} $
和样本方差 $ S^2 $
\begin{align}
E(\bar{X}) & = \mu \\
D(\bar{X}) & = \frac{\sigma^2}{\mu} \\
E(S^2) & = \sigma^2
\end{align}

\hparagraph{样本均值的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本, $ \bar{X} $ 是样本均值,则有
\begin{equation}
X \sim N\left(\mu, \frac{\sigma^2}{n}\right)
\end{equation}
\begin{equation}
\frac{\bar{X} - \mu}{\ddfrac{\sigma^2}{\sqrt{n}}} \sim N(0,1)
\end{equation}

\hparagraph{样本方差的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本, $ \bar{X} $ 是样本均值,
$ S^2 $ 是样本方差,则有
\begin{itemize}[leftmargin=\paritemindent]
\item \begin{equation}
\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)
\end{equation}
\item $ \bar{X} $$ S^2 $ 独立
\end{itemize}


\hparagraph{样本均值的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本, $ \bar{X} $ 是样本均值,
$ S^2 $ 是样本方差,则有
\begin{equation}
\frac{\bar{X} - \mu}{\ddfrac{S}{\sqrt{n}}} \sim t(n-1)
\end{equation}

\hparagraph{两总体样本均值差的分布} 设 $ X\sim N(\mu_1, \sigma_{1}^{2}), X\sim N(\mu_2, \sigma_{2}^{2}) $$ X,Y $ 独立,
$ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ X $ 的样本,$ Y_1, Y_2, \cdots, Y_n $ 是来自正态总体 $ Y $ 的样本,
$ \bar{X},\bar{Y} $ 分别是这两个样本的均值,$ S_{1}^{2}, S_{2}^{2} $ 分别是这两个样本的方差,则有
\begin{align}
\frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}} & \sim F(n_1 - 1,n_2 -1) \\
\ddfrac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{
\sqrt{\frac{(n_1 - 1)S_{1}^{2} + (n_2 - 1)S_{2}^{2}}{n_1 + n_2 - 2}}
\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}
} & \sim t(n_1 + n_2 - 2)
\end{align}

\hparagraph{Cochran定理} 设 $ X_1, X_2, \cdots, X_n $ 独立同分布,服从 $ N(0,1) $$ X = (X_1, X_2, \cdots, X_n)^{\symrm{T}} $
$$ Q = \sum_{i=1}^{n}X_{i}^{2} = \sum_{l=1}^{n}Q_l $$$ X = (X_1, X_2, \cdots, X_n)^{\symrm{T}} $ 的二次型,
$ Q = X^{\symrm{T}}A_l X $ 则下述结论成立的充要条件是 $$ n = \sum_{i=1}^{k} n_i $$
\begin{itemize}[leftmargin=\paritemindent]
\item $ Q_1, Q_2, \cdots, Q_k $ 相互独立
\item $ Q_l \sim \chi^2(n_l) $
\end{itemize}

1 change: 1 addition & 0 deletions MathematicalStatistics.tex
Original file line number Diff line number Diff line change
Expand Up @@ -13,4 +13,5 @@

\mainmatter
\include{Chapter-1}
\include{Chapter-2}
\end{document}
2 changes: 1 addition & 1 deletion setting.tex
Original file line number Diff line number Diff line change
Expand Up @@ -72,7 +72,7 @@
\newcommand{\diff}{\symrm{d }}
\newcommand{\cpi}{\symrm{\pi}}
\newcommand{\trans}{^\symrm{T}}
\newcommand{\highlight}[1]{\textbf{\alert{#1}}}
\newcommand{\highlight}[1]{\textcolor{blue}{\textbf{\kaishu{#1}}}}
\newcommand{\done}{\ooalign{$\square$ \cr \raisebox{3pt}{\scriptsize{$$}}}}
\newcommand{\undone}{\ooalign{$\square$ \cr \raisebox{3pt}{}}}
\newcommand{\Cov}{\mathrm{Cov}}
Expand Down

0 comments on commit 76ccca1

Please sign in to comment.