From fa16386507b2741206e24df3937e8158d9213943 Mon Sep 17 00:00:00 2001 From: Yigong Hu Date: Thu, 29 Nov 2018 11:32:16 +0800 Subject: [PATCH 1/2] =?UTF-8?q?=E4=BF=AE=E6=94=B9=EF=BC=9A=E5=86=99?= =?UTF-8?q?=E5=88=B0=E7=BB=9F=E8=AE=A1=E9=87=8F=E7=9A=84=E5=88=86=E5=B8=83?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- Chapter-2.tex | 4 +++ Chapter-2/Section-2-1.tex | 64 ++++++++++++++++++++++++++++++++++++++ Chapter-2/Section-2-2.tex | 56 +++++++++++++++++++++++++++++++++ MathematicalStatistics.tex | 1 + setting.tex | 2 +- 5 files changed, 126 insertions(+), 1 deletion(-) create mode 100644 Chapter-2.tex create mode 100644 Chapter-2/Section-2-1.tex create mode 100644 Chapter-2/Section-2-2.tex diff --git a/Chapter-2.tex b/Chapter-2.tex new file mode 100644 index 0000000..c4e00d1 --- /dev/null +++ b/Chapter-2.tex @@ -0,0 +1,4 @@ +\chapter{数理统计的基本概念} + +\input{Chapter-2/Section-2-1.tex} +\input{Chapter-2/Section-2-2.tex} \ No newline at end of file diff --git a/Chapter-2/Section-2-1.tex b/Chapter-2/Section-2-1.tex new file mode 100644 index 0000000..64d7434 --- /dev/null +++ b/Chapter-2/Section-2-1.tex @@ -0,0 +1,64 @@ +\section{总体与样本} + +\paragraph{总体与个体} 研究对象的全体称为\highlight{总体}, +总体中所包含的个体的个数称为总体的\highlight{容量}。 +总体中每个成员称为\highlight{个体}。 + +\begin{itemize}[leftmargin=\paritemindent] + \item 由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性。 + 从而可以把这种数量指标看作一个随机变量$ X $,因此随机变量$ X $的分布就是该数量指标在总体中的分布。 + \item 总体就可以用一个随机变量及其分布来描述。因此在理论上可以把总体与概率分布等同起来。 + 统计中,总体这个概念的要旨是:总体就是一个随机变量(向量)或一个概率分布。 +\end{itemize} + +\paragraph{样本} +总体中抽出若干个体而成的集体,称为\highlight{样本}。样本中所含个体的个数,称为\highlight{样本容量}。 + +\paragraph{抽样} 统计中,采用的抽样方法是随机抽样法,即子样中每个个体是从总体中随意地取出来的。 +\subparagraph{抽样的分类} +\begin{itemize}[leftmargin=\subparitemindent] + \item \highlight{重复(返回)抽样}:从总体中抽取个体检查后放回,总体成分不变(分布不变)。 + 样本 $ X_1, X_2, \cdots, X_n $ 相互独立,与总体有相同的分布。 + \item \highlight{非重复(无返回)抽样}:对有限总体取出样本后改变了总体的成分,所以 $ X_1, X_2, \cdots, X_n $ 不相互独立; + 对无限总体而言做无返回抽取,并不改变总体的成分, $ X_1, X_2, \cdots, X_n $ 相互独立,与总体有相同的分布。 +\end{itemize} + +\subparagraph{常用方法} 简单随机抽样。 +\begin{itemize}[leftmargin=\subparitemindent] + \item 代表性(随机性):。 从总体中抽取样本的每一个分量$ X_k $是随机的,每一个个体被抽到的可能性相同。 + \item 独立同分布性: $ X_1, X_2, \cdots, X_n $ 相互独立,其中每一个分量$ X_k $与所考察的总体有相同的分布。 +\end{itemize} + +\subparagraph{样本联合分布} 若总体的分布函数为 $ F(x) $ 、概率密度为 $ f(x) $ ,则其简单随机样本的联合分布函数为 +\begin{equation} + F_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = F(1) F(2) \cdots F(n) +\end{equation} +其简单随机样本的联合概率密度函数为 +\begin{equation} + f_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = f(1) f(2) \cdots f(n) +\end{equation} + +\paragraph{样本经验分布函数} 在 $ n $ 次独立重复实验中,事件 $ \left\{ X \leqslant x \right\} $ 发生的频率 +\begin{equation} + \hat{F}_n(x;X_1, X_2, \cdots, X_n) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \leqslant x) +\end{equation} +具有分布函数的一切性质。是在每个数据点 $ X_i $ 上权重相等的均匀分布的分布函数。 + +\subparagraph{性质} +\begin{itemize}[leftmargin=\subparitemindent] + \item 给定 $ x $, $ \hat{F}_n(x) $ 是一个随机变量: $ n\hat{F}_n(x) $ 服从二项分布 $ b(n, F(x)) $ + \item $ E(\hat{F}_n(x)) = F(x) $ + \item $ D(\hat{F}_n(x)) = \frac{F(x)(1-F(x))}{n} \rightarrow 0 $ + \item $ \hat{F}_n(x) \xrightarrow{P} F(x) $ + \item Dvoretzky-Kiefer-Wolfowitz (DKW)不等式:如果 $ X_1, X_2, \cdots, X_n \sim F $ ,则对任意 $ \epsilon > 0 $ + \begin{equation} + P\left\{ \sup_x \left| \hat{F}_n(x)) - F(x) \right| > \epsilon \right\} \leqslant 2e^{-2n\epsilon^2} + \end{equation} +\end{itemize} + +\subparagraph{格列汶科定理} 当 $ n \rightarrow \infty $ 时, $ \hat{F}_n(x) $ 以概率 $ 1 $ 关于 $ x $ 一致收敛于 $ F(x) $ , +即 +\begin{equation} + P\left\{ \lim_{n\rightarrow\infty} \sup_{-\infty Date: Fri, 14 Dec 2018 23:17:51 +0800 Subject: [PATCH 2/2] =?UTF-8?q?=E4=BF=AE=E6=94=B9=EF=BC=9A=E5=AE=8C?= =?UTF-8?q?=E6=88=90=E7=AC=AC=E4=BA=8C=E7=AB=A0?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .vscode/latex.code-snippets | 4 ++ Chapter-2.tex | 4 +- Chapter-2/Section-2-1.tex | 18 ++++---- Chapter-2/Section-2-2.tex | 13 +++--- Chapter-2/Section-2-3.tex | 85 +++++++++++++++++++++++++++++++++++++ Chapter-2/Section-2-4.tex | 54 +++++++++++++++++++++++ 6 files changed, 163 insertions(+), 15 deletions(-) create mode 100644 Chapter-2/Section-2-3.tex create mode 100644 Chapter-2/Section-2-4.tex diff --git a/.vscode/latex.code-snippets b/.vscode/latex.code-snippets index 5ff908e..141514b 100644 --- a/.vscode/latex.code-snippets +++ b/.vscode/latex.code-snippets @@ -32,5 +32,9 @@ "\\end{itemize}", "$0" ] + }, + "Chi Sqare Distribution": { + "prefix": "chisquare", + "body": "$ \\chi^2 $ 分布" } } \ No newline at end of file diff --git a/Chapter-2.tex b/Chapter-2.tex index c4e00d1..67a7301 100644 --- a/Chapter-2.tex +++ b/Chapter-2.tex @@ -1,4 +1,6 @@ \chapter{数理统计的基本概念} \input{Chapter-2/Section-2-1.tex} -\input{Chapter-2/Section-2-2.tex} \ No newline at end of file +\input{Chapter-2/Section-2-2.tex} +\input{Chapter-2/Section-2-3.tex} +\input{Chapter-2/Section-2-4.tex} \ No newline at end of file diff --git a/Chapter-2/Section-2-1.tex b/Chapter-2/Section-2-1.tex index 64d7434..af0b7de 100644 --- a/Chapter-2/Section-2-1.tex +++ b/Chapter-2/Section-2-1.tex @@ -1,6 +1,6 @@ \section{总体与样本} -\paragraph{总体与个体} 研究对象的全体称为\highlight{总体}, +\hparagraph{总体与个体} 研究对象的全体称为\highlight{总体}, 总体中所包含的个体的个数称为总体的\highlight{容量}。 总体中每个成员称为\highlight{个体}。 @@ -11,11 +11,11 @@ \section{总体与样本} 统计中,总体这个概念的要旨是:总体就是一个随机变量(向量)或一个概率分布。 \end{itemize} -\paragraph{样本} +\hparagraph{样本} 总体中抽出若干个体而成的集体,称为\highlight{样本}。样本中所含个体的个数,称为\highlight{样本容量}。 -\paragraph{抽样} 统计中,采用的抽样方法是随机抽样法,即子样中每个个体是从总体中随意地取出来的。 -\subparagraph{抽样的分类} +\hparagraph{抽样} 统计中,采用的抽样方法是随机抽样法,即子样中每个个体是从总体中随意地取出来的。 +\hsubparagraph{抽样的分类} \begin{itemize}[leftmargin=\subparitemindent] \item \highlight{重复(返回)抽样}:从总体中抽取个体检查后放回,总体成分不变(分布不变)。 样本 $ X_1, X_2, \cdots, X_n $ 相互独立,与总体有相同的分布。 @@ -23,13 +23,13 @@ \section{总体与样本} 对无限总体而言做无返回抽取,并不改变总体的成分, $ X_1, X_2, \cdots, X_n $ 相互独立,与总体有相同的分布。 \end{itemize} -\subparagraph{常用方法} 简单随机抽样。 +\hsubparagraph{常用方法} 简单随机抽样。 \begin{itemize}[leftmargin=\subparitemindent] \item 代表性(随机性):。 从总体中抽取样本的每一个分量$ X_k $是随机的,每一个个体被抽到的可能性相同。 \item 独立同分布性: $ X_1, X_2, \cdots, X_n $ 相互独立,其中每一个分量$ X_k $与所考察的总体有相同的分布。 \end{itemize} -\subparagraph{样本联合分布} 若总体的分布函数为 $ F(x) $ 、概率密度为 $ f(x) $ ,则其简单随机样本的联合分布函数为 +\hsubparagraph{样本联合分布} 若总体的分布函数为 $ F(x) $ 、概率密度为 $ f(x) $ ,则其简单随机样本的联合分布函数为 \begin{equation} F_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = F(1) F(2) \cdots F(n) \end{equation} @@ -38,13 +38,13 @@ \section{总体与样本} f_{X_1, X_2, \cdots, X_n}(x_1, x_2, \cdots, x_n) = f(1) f(2) \cdots f(n) \end{equation} -\paragraph{样本经验分布函数} 在 $ n $ 次独立重复实验中,事件 $ \left\{ X \leqslant x \right\} $ 发生的频率 +\hparagraph{样本经验分布函数} 在 $ n $ 次独立重复实验中,事件 $ \left\{ X \leqslant x \right\} $ 发生的频率 \begin{equation} \hat{F}_n(x;X_1, X_2, \cdots, X_n) = \frac{1}{n} \sum_{i=1}^{n} I(X_i \leqslant x) \end{equation} 具有分布函数的一切性质。是在每个数据点 $ X_i $ 上权重相等的均匀分布的分布函数。 -\subparagraph{性质} +\hsubparagraph{性质} \begin{itemize}[leftmargin=\subparitemindent] \item 给定 $ x $, $ \hat{F}_n(x) $ 是一个随机变量: $ n\hat{F}_n(x) $ 服从二项分布 $ b(n, F(x)) $ \item $ E(\hat{F}_n(x)) = F(x) $ @@ -56,7 +56,7 @@ \section{总体与样本} \end{equation} \end{itemize} -\subparagraph{格列汶科定理} 当 $ n \rightarrow \infty $ 时, $ \hat{F}_n(x) $ 以概率 $ 1 $ 关于 $ x $ 一致收敛于 $ F(x) $ , +\hsubparagraph{格列汶科定理} 当 $ n \rightarrow \infty $ 时, $ \hat{F}_n(x) $ 以概率 $ 1 $ 关于 $ x $ 一致收敛于 $ F(x) $ , 即 \begin{equation} P\left\{ \lim_{n\rightarrow\infty} \sup_{-\infty \chi^2_\alpha(n) \right\} = \int_{\chi^2_\alpha(n)}^{\infty} f(y) \diff y = \alpha +\end{equation} +的点 $ \chi^2_\alpha(n) $ 称为 $ \chi^2(n) $ 分布的上 $ \alpha $ 分位点。 + +\hparagraph{$ t $分布} 设 $ X \sim N(0,1),Y \sim \chi^2(n) $ 且 $ X $ 与 $ Y $ 相互独立,则称变量 +\begin{equation} + T = \frac{X}{\sqrt{\ddfrac{Y}{n}}} +\end{equation} +所服从的分布为自由度为 $ n $ 的 $ t $ 分布,记为 $ T \sim t(n) $ 。 + +\hsubparagraph{密度函数} $ t $ 分布的密度函数为 +\begin{equation} + h(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\Gamma\left(\frac{n}{2}\right)} \left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}} + \quad -\infty < t < \infty +\end{equation} + +\hsubparagraph{期望和方差} $ E(t) = 0, D(t) = \frac{n}{n-2} $ 。 + +\hsubparagraph{性质} +\begin{itemize}[leftmargin=\subparitemindent] + \item 密度函数关于 $ t=0 $ 对称,当 $ n $ 充分大时,其图形近似于标准正态分布概率密度的图形。且 + \begin{equation} + \lim_{n \rightarrow \infty} h(t) = \frac{1}{2\pi} e^{-\frac{t^2}{2}} + \end{equation} + 即当 $ n $ 足够大时, $ T \sim N(0,1) $ 。 +\end{itemize} + +\hparagraph{$ F $分布} 设 $ X \sim \chi^2(n_1), Y \sim \chi^2(n_2) $ 且 $ X,Y $ 独立,则称统计量 +\begin{equation} + F = \frac{X/n_1}{Y/n-2} +\end{equation} +服从自由度为 $ n_1,n_2 $ 的 $ F $ 分布, $ n_1 $ 为第一自由度, $ n_2 $ 为第二自由度,记为 $ F \sim F(n_1,n_2) $ 。 + +\hsubparagraph{密度函数} $ F $ 分布的密度函数为 +\begin{equation} + f(y) = \left\{ \begin{array}{ll} + \ddfrac{\Gamma\left(\ddfrac{n_1+n_2}{2}\right)}{\Gamma\left(\ddfrac{n_1}{2}\right)\Gamma\left(\ddfrac{n_2}{2}\right)} + \left(\frac{n_1}{n_2}\right) ^{\frac{n_1}{2}}(y)^{\frac{n_1}{2} - 1} + \left( 1 + \frac{n_1}{n_2}y \right)^{-\frac{n_1+n_2}{2}} & y > 0 \\ + 0 & y \leqslant 0 + \end{array} \right. +\end{equation} + +\hsubparagraph{期望和方差} $ E(t) = \frac{n_2}{n_2 - 2} $ 。 + +\hsubparagraph{性质} +\begin{itemize}[leftmargin=\subparitemindent] + \item 即它的数学期望并不依赖于第一自由度。 + \item 若 $ F \sim F(n_1, n_2) $ 则 $ \frac{1}{F} \sim F(n_2, n_1) $ + \item $ F_{1 - \alpha}(n_1,n_2) = 1 / F_{\alpha}(n_2,n_1) $ +\end{itemize} + diff --git a/Chapter-2/Section-2-4.tex b/Chapter-2/Section-2-4.tex new file mode 100644 index 0000000..efa821b --- /dev/null +++ b/Chapter-2/Section-2-4.tex @@ -0,0 +1,54 @@ +\section{正态总体抽样分布定理} + +\noindent 设总体 $ X $ 的均值为 $ \mu $ ,方差为 $ \sigma^2 $ , $ X_1, X_2, \cdots, X_n $ 是来自总体的一个样本,则样本均值 $ \bar{X} $ +和样本方差 $ S^2 $ 有 +\begin{align} + E(\bar{X}) & = \mu \\ + D(\bar{X}) & = \frac{\sigma^2}{\mu} \\ + E(S^2) & = \sigma^2 +\end{align} + +\hparagraph{样本均值的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本, $ \bar{X} $ 是样本均值,则有 +\begin{equation} + X \sim N\left(\mu, \frac{\sigma^2}{n}\right) +\end{equation} +则 +\begin{equation} + \frac{\bar{X} - \mu}{\ddfrac{\sigma^2}{\sqrt{n}}} \sim N(0,1) +\end{equation} + +\hparagraph{样本方差的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本, $ \bar{X} $ 是样本均值, +$ S^2 $ 是样本方差,则有 +\begin{itemize}[leftmargin=\paritemindent] + \item \begin{equation} + \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) + \end{equation} + \item $ \bar{X} $ 与 $ S^2 $ 独立 +\end{itemize} + + +\hparagraph{样本均值的分布} 设 $ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ N(\mu, \sigma^2) $ 的样本, $ \bar{X} $ 是样本均值, +$ S^2 $ 是样本方差,则有 +\begin{equation} + \frac{\bar{X} - \mu}{\ddfrac{S}{\sqrt{n}}} \sim t(n-1) +\end{equation} + +\hparagraph{两总体样本均值差的分布} 设 $ X\sim N(\mu_1, \sigma_{1}^{2}), X\sim N(\mu_2, \sigma_{2}^{2}) $ 且 $ X,Y $ 独立, +$ X_1, X_2, \cdots, X_n $ 是来自正态总体 $ X $ 的样本,$ Y_1, Y_2, \cdots, Y_n $ 是来自正态总体 $ Y $ 的样本, +$ \bar{X},\bar{Y} $ 分别是这两个样本的均值,$ S_{1}^{2}, S_{2}^{2} $ 分别是这两个样本的方差,则有 +\begin{align} + \frac{S_{1}^{2}/\sigma_{1}^{2}}{S_{2}^{2}/\sigma_{2}^{2}} & \sim F(n_1 - 1,n_2 -1) \\ + \ddfrac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{ + \sqrt{\frac{(n_1 - 1)S_{1}^{2} + (n_2 - 1)S_{2}^{2}}{n_1 + n_2 - 2}} + \sqrt{\frac{1}{n_1} + \frac{1}{n_2}} + } & \sim t(n_1 + n_2 - 2) +\end{align} + +\hparagraph{Cochran定理} 设 $ X_1, X_2, \cdots, X_n $ 独立同分布,服从 $ N(0,1) $ , $ X = (X_1, X_2, \cdots, X_n)^{\symrm{T}} $ , +$$ Q = \sum_{i=1}^{n}X_{i}^{2} = \sum_{l=1}^{n}Q_l $$ 是 $ X = (X_1, X_2, \cdots, X_n)^{\symrm{T}} $ 的二次型, +$ Q = X^{\symrm{T}}A_l X $ 则下述结论成立的充要条件是 $$ n = \sum_{i=1}^{k} n_i $$ +\begin{itemize}[leftmargin=\paritemindent] + \item $ Q_1, Q_2, \cdots, Q_k $ 相互独立 + \item $ Q_l \sim \chi^2(n_l) $ +\end{itemize} +