004 《概率统计与随机过程:理论、方法及应用 (Probability, Statistics, and Stochastic Processes: Theory, Methods, and Applications)》
🌟🌟🌟本文由Gemini 2.0 Flash Thinking Experimental 01-21生成,用来辅助学习。🌟🌟🌟
书籍大纲
▮▮ 1. 概率论基础 (Foundations of Probability)
▮▮▮▮ 1.1 样本空间与事件 (Sample Space and Events)
▮▮▮▮▮▮ 1.1.1 样本空间 (Sample Space)
▮▮▮▮▮▮ 1.1.2 事件与事件的运算 (Events and Operations of Events)
▮▮▮▮▮▮ 1.1.3 事件的代数 (Algebra of Events)
▮▮▮▮ 1.2 概率的公理化定义 (Axiomatic Definition of Probability)
▮▮▮▮▮▮ 1.2.1 概率的公理 (Axioms of Probability)
▮▮▮▮▮▮ 1.2.2 概率的基本性质 (Basic Properties of Probability)
▮▮▮▮▮▮ 1.2.3 古典概率与几何概率 (Classical Probability and Geometric Probability)
▮▮▮▮ 1.3 条件概率与事件的独立性 (Conditional Probability and Independence of Events)
▮▮▮▮▮▮ 1.3.1 条件概率 (Conditional Probability)
▮▮▮▮▮▮ 1.3.2 乘法公式 (Multiplication Rule)
▮▮▮▮▮▮ 1.3.3 全概率公式与贝叶斯公式 (Law of Total Probability and Bayes' Theorem)
▮▮▮▮▮▮ 1.3.4 事件的独立性 (Independence of Events)
▮▮ 2. 随机变量及其分布 (Random Variables and Distributions)
▮▮▮▮ 2.1 随机变量的概念 (Concept of Random Variable)
▮▮▮▮▮▮ 2.1.1 随机变量的定义 (Definition of Random Variable)
▮▮▮▮▮▮ 2.1.2 离散型随机变量与连续型随机变量 (Discrete and Continuous Random Variables)
▮▮▮▮▮▮ 2.1.3 分布函数 (Distribution Function)
▮▮▮▮ 2.2 离散型随机变量的分布 (Distributions of Discrete Random Variables)
▮▮▮▮▮▮ 2.2.1 伯努利分布与二点分布 (Bernoulli and Two-Point Distribution)
▮▮▮▮▮▮ 2.2.2 二项分布 (Binomial Distribution)
▮▮▮▮▮▮ 2.2.3 泊松分布 (Poisson Distribution)
▮▮▮▮▮▮ 2.2.4 几何分布与负二项分布 (Geometric and Negative Binomial Distribution)
▮▮▮▮▮▮ 2.2.5 超几何分布 (Hypergeometric Distribution)
▮▮▮▮ 2.3 连续型随机变量的分布 (Distributions of Continuous Random Variables)
▮▮▮▮▮▮ 2.3.1 均匀分布 (Uniform Distribution)
▮▮▮▮▮▮ 2.3.2 指数分布 (Exponential Distribution)
▮▮▮▮▮▮ 2.3.3 正态分布 (Normal Distribution)
▮▮▮▮▮▮ 2.3.4 伽玛分布与卡方分布 (Gamma and Chi-Square Distribution)
▮▮▮▮▮▮ 2.3.5 Beta 分布与 t 分布和 F 分布 (Beta, t, and F Distribution)
▮▮ 3. 随机变量的数字特征 (Numerical Characteristics of Random Variables)
▮▮▮▮ 3.1 期望 (Expectation)
▮▮▮▮▮▮ 3.1.1 离散型随机变量的期望 (Expectation of Discrete Random Variable)
▮▮▮▮▮▮ 3.1.2 连续型随机变量的期望 (Expectation of Continuous Random Variable)
▮▮▮▮▮▮ 3.1.3 期望的性质 (Properties of Expectation)
▮▮▮▮ 3.2 方差与标准差 (Variance and Standard Deviation)
▮▮▮▮▮▮ 3.2.1 方差的定义与计算 (Definition and Calculation of Variance)
▮▮▮▮▮▮ 3.2.2 标准差 (Standard Deviation)
▮▮▮▮▮▮ 3.2.3 方差的性质 (Properties of Variance)
▮▮▮▮▮▮ 3.2.4 切比雪夫不等式 (Chebyshev's Inequality)
▮▮▮▮ 3.3 协方差与相关系数 (Covariance and Correlation Coefficient)
▮▮▮▮▮▮ 3.3.1 协方差 (Covariance)
▮▮▮▮▮▮ 3.3.2 相关系数 (Correlation Coefficient)
▮▮▮▮ 3.4 矩与母函数 (Moments and Generating Functions)
▮▮▮▮▮▮ 3.4.1 矩 (Moments)
▮▮▮▮▮▮ 3.4.2 母函数 (Generating Functions)
▮▮ 4. 多维随机变量及其分布 (Multidimensional Random Variables and Distributions)
▮▮▮▮ 4.1 联合分布 (Joint Distribution)
▮▮▮▮▮▮ 4.1.1 联合分布函数 (Joint Distribution Function)
▮▮▮▮▮▮ 4.1.2 联合概率质量函数 (Joint Probability Mass Function)
▮▮▮▮▮▮ 4.1.3 联合概率密度函数 (Joint Probability Density Function)
▮▮▮▮ 4.2 边缘分布与条件分布 (Marginal and Conditional Distributions)
▮▮▮▮▮▮ 4.2.1 边缘分布 (Marginal Distribution)
▮▮▮▮▮▮ 4.2.2 条件分布 (Conditional Distribution)
▮▮▮▮ 4.3 随机变量的独立性 (Independence of Random Variables)
▮▮▮▮▮▮ 4.3.1 随机变量独立的定义 (Definition of Independence)
▮▮▮▮▮▮ 4.3.2 独立性的判别 (Criteria for Independence)
▮▮▮▮ 4.4 随机向量的数字特征 (Numerical Characteristics of Random Vectors)
▮▮▮▮▮▮ 4.4.1 随机向量的期望向量 (Expected Vector of Random Vector)
▮▮▮▮▮▮ 4.4.2 协方差矩阵与相关矩阵 (Covariance Matrix and Correlation Matrix)
▮▮▮▮ 4.5 多维正态分布 (Multivariate Normal Distribution)
▮▮▮▮▮▮ 4.5.1 多维正态分布的定义 (Definition of Multivariate Normal Distribution)
▮▮▮▮▮▮ 4.5.2 多维正态分布的性质 (Properties of Multivariate Normal Distribution)
▮▮ 5. 大数定律与中心极限定理 (Laws of Large Numbers and Central Limit Theorem)
▮▮▮▮ 5.1 大数定律 (Laws of Large Numbers)
▮▮▮▮▮▮ 5.1.1 切比雪夫大数定律 (Chebyshev's Law of Large Numbers)
▮▮▮▮▮▮ 5.1.2 伯努利大数定律 (Bernoulli's Law of Large Numbers)
▮▮▮▮▮▮ 5.1.3 辛钦大数定律 (Khinchin's Law of Large Numbers)
▮▮▮▮▮▮ 5.1.4 大数定律的应用 (Applications of Laws of Large Numbers)
▮▮▮▮ 5.2 中心极限定理 (Central Limit Theorem)
▮▮▮▮▮▮ 5.2.1 独立同分布情况下的中心极限定理 (CLT for i.i.d. Random Variables)
▮▮▮▮▮▮ 5.2.2 一般情况下的中心极限定理 (CLT for General Case)
▮▮▮▮▮▮ 5.2.3 中心极限定理的应用 (Applications of Central Limit Theorem)
▮▮ 6. 数理统计基础 (Foundations of Mathematical Statistics)
▮▮▮▮ 6.1 统计学的基本概念 (Basic Concepts of Statistics)
▮▮▮▮▮▮ 6.1.1 统计学的定义与研究对象 (Definition and Object of Statistics)
▮▮▮▮▮▮ 6.1.2 统计学的基本思想 (Basic Ideas of Statistics)
▮▮▮▮▮▮ 6.1.3 数据类型 (Types of Data)
▮▮▮▮ 6.2 描述性统计 (Descriptive Statistics)
▮▮▮▮▮▮ 6.2.1 数据的图表展示 (Graphical Representation of Data)
▮▮▮▮▮▮ 6.2.2 集中趋势的度量 (Measures of Central Tendency)
▮▮▮▮▮▮ 6.2.3 离散程度的度量 (Measures of Dispersion)
▮▮▮▮ 6.3 抽样理论基础 (Fundamentals of Sampling Theory)
▮▮▮▮▮▮ 6.3.1 总体与样本 (Population and Sample)
▮▮▮▮▮▮ 6.3.2 简单随机抽样 (Simple Random Sampling)
▮▮▮▮▮▮ 6.3.3 抽样分布的概念 (Concept of Sampling Distribution)
▮▮▮▮▮▮ 6.3.4 常用统计量的抽样分布 (Sampling Distributions of Common Statistics)
▮▮ 7. 参数估计 (Parameter Estimation)
▮▮▮▮ 7.1 点估计 (Point Estimation)
▮▮▮▮▮▮ 7.1.1 点估计的概念 (Concept of Point Estimation)
▮▮▮▮▮▮ 7.1.2 常用的点估计量 (Common Point Estimators)
▮▮▮▮▮▮ 7.1.3 估计量的评价标准 (Criteria for Evaluating Estimators)
▮▮▮▮ 7.2 区间估计 (Interval Estimation)
▮▮▮▮▮▮ 7.2.1 区间估计的概念与置信水平 (Concept of Interval Estimation and Confidence Level)
▮▮▮▮▮▮ 7.2.2 枢轴量法 (Pivotal Quantity Method)
▮▮▮▮▮▮ 7.2.3 正态总体均值和方差的区间估计 (Interval Estimation for Mean and Variance of Normal Population)
▮▮▮▮▮▮ 7.2.4 大样本情况下参数的区间估计 (Interval Estimation for Parameters in Large Samples)
▮▮▮▮ 7.3 参数估计的方法 (Methods of Parameter Estimation)
▮▮▮▮▮▮ 7.3.1 矩估计法 (Method of Moments)
▮▮▮▮▮▮ 7.3.2 最大似然估计法 (Maximum Likelihood Estimation)
▮▮ 8. 假设检验 (Hypothesis Testing)
▮▮▮▮ 8.1 假设检验的基本概念 (Basic Concepts of Hypothesis Testing)
▮▮▮▮▮▮ 8.1.1 假设检验的定义与基本思想 (Definition and Basic Idea of Hypothesis Testing)
▮▮▮▮▮▮ 8.1.2 原假设与备择假设 (Null and Alternative Hypotheses)
▮▮▮▮▮▮ 8.1.3 两类错误 (Type I and Type II Errors)
▮▮▮▮▮▮ 8.1.4 显著性水平与p值 (Significance Level and p-value)
▮▮▮▮ 8.2 正态总体参数的假设检验 (Hypothesis Testing for Parameters of Normal Population)
▮▮▮▮▮▮ 8.2.1 单个正态总体均值的假设检验 (Hypothesis Testing for Mean of Single Normal Population)
▮▮▮▮▮▮ 8.2.2 两个正态总体均值之差的假设检验 (Hypothesis Testing for Difference of Means of Two Normal Populations)
▮▮▮▮▮▮ 8.2.3 单个正态总体方差的假设检验 (Hypothesis Testing for Variance of Single Normal Population)
▮▮▮▮▮▮ 8.2.4 两个正态总体方差比的假设检验 (Hypothesis Testing for Ratio of Variances of Two Normal Populations)
▮▮▮▮ 8.3 非参数假设检验简介 (Introduction to Nonparametric Hypothesis Testing)
▮▮▮▮▮▮ 8.3.1 非参数检验的概念 (Concept of Nonparametric Tests)
▮▮▮▮▮▮ 8.3.2 符号检验 (Sign Test)
▮▮▮▮▮▮ 8.3.3 秩和检验 (Rank Sum Test)
▮▮ 9. 方差分析 (Analysis of Variance, ANOVA)
▮▮▮▮ 9.1 方差分析的基本原理 (Basic Principles of ANOVA)
▮▮▮▮▮▮ 9.1.1 方差分析的思想 (Idea of ANOVA)
▮▮▮▮▮▮ 9.1.2 方差分析的假设条件 (Assumptions of ANOVA)
▮▮▮▮ 9.2 单因素方差分析 (One-Way ANOVA)
▮▮▮▮▮▮ 9.2.1 单因素方差分析模型 (One-Way ANOVA Model)
▮▮▮▮▮▮ 9.2.2 平方和分解与F检验 (Sum of Squares Decomposition and F-test)
▮▮▮▮▮▮ 9.2.3 方差分析表 (ANOVA Table)
▮▮▮▮▮▮ 9.2.4 多重比较 (Multiple Comparisons)
▮▮▮▮ 9.3 双因素方差分析 (Two-Way ANOVA)
▮▮▮▮▮▮ 9.3.1 双因素无交互效应方差分析 (Two-Way ANOVA without Interaction)
▮▮▮▮▮▮ 9.3.2 双因素有交互效应方差分析 (Two-Way ANOVA with Interaction)
▮▮ 10. 回归分析 (Regression Analysis)
▮▮▮▮ 10.1 一元线性回归 (Simple Linear Regression)
▮▮▮▮▮▮ 10.1.1 一元线性回归模型 (Simple Linear Regression Model)
▮▮▮▮▮▮ 10.1.2 参数的最小二乘估计 (Least Squares Estimation of Parameters)
▮▮▮▮▮▮ 10.1.3 回归方程的显著性检验与拟合优度检验 (Significance Test and Goodness-of-Fit Test of Regression Equation)
▮▮▮▮▮▮ 10.1.4 利用回归方程进行预测 (Prediction using Regression Equation)
▮▮▮▮ 10.2 多元线性回归 (Multiple Linear Regression)
▮▮▮▮▮▮ 10.2.1 多元线性回归模型 (Multiple Linear Regression Model)
▮▮▮▮▮▮ 10.2.2 参数的最小二乘估计 (Least Squares Estimation of Parameters)
▮▮▮▮▮▮ 10.2.3 回归方程的显著性检验与拟合优度检验 (Significance Test and Goodness-of-Fit Test of Regression Equation)
▮▮▮▮▮▮ 10.2.4 多重共线性问题 (Multicollinearity)
▮▮▮▮▮▮ 10.2.5 模型选择与变量选择 (Model Selection and Variable Selection)
▮▮▮▮ 10.3 非线性回归简介 (Introduction to Nonlinear Regression)
▮▮▮▮▮▮ 10.3.1 非线性回归模型 (Nonlinear Regression Model)
▮▮▮▮▮▮ 10.3.2 非线性回归的参数估计 (Parameter Estimation in Nonlinear Regression)
▮▮ 11. 随机过程基本概念 (Basic Concepts of Stochastic Processes)
▮▮▮▮ 11.1 随机过程的定义与分类 (Definition and Classification of Stochastic Processes)
▮▮▮▮▮▮ 11.1.1 随机过程的定义 (Definition of Stochastic Process)
▮▮▮▮▮▮ 11.1.2 随机过程的分类 (Classification of Stochastic Processes)
▮▮▮▮▮▮ 11.1.3 随机过程的轨道 (Sample Paths of Stochastic Processes)
▮▮▮▮ 11.2 随机过程的有限维分布族 (Finite-Dimensional Distributions of Stochastic Processes)
▮▮▮▮▮▮ 11.2.1 有限维分布族的定义 (Definition of Finite-Dimensional Distributions)
▮▮▮▮▮▮ 11.2.2 相容性条件 (Consistency Conditions)
▮▮▮▮ 11.3 随机过程的数字特征 (Numerical Characteristics of Stochastic Processes)
▮▮▮▮▮▮ 11.3.1 均值函数 (Mean Function)
▮▮▮▮▮▮ 11.3.2 自相关函数与自协方差函数 (Autocorrelation Function and Autocovariance Function)
▮▮▮▮▮▮ 11.3.3 平稳过程 (Stationary Processes)
▮▮ 12. 泊松过程 (Poisson Processes)
▮▮▮▮ 12.1 泊松过程的定义与基本性质 (Definition and Basic Properties of Poisson Processes)
▮▮▮▮▮▮ 12.1.1 泊松过程的定义 (Definition of Poisson Process)
▮▮▮▮▮▮ 12.1.2 泊松过程的基本性质 (Basic Properties of Poisson Process)
▮▮▮▮▮▮ 12.1.3 泊松分布与泊松过程的关系 (Relationship between Poisson Distribution and Poisson Process)
▮▮▮▮ 12.2 非齐次泊松过程与复合泊松过程 (Non-homogeneous Poisson Process and Compound Poisson Process)
▮▮▮▮▮▮ 12.2.1 非齐次泊松过程 (Non-homogeneous Poisson Process)
▮▮▮▮▮▮ 12.2.2 复合泊松过程 (Compound Poisson Process)
▮▮▮▮ 12.3 泊松过程的应用 (Applications of Poisson Processes)
▮▮▮▮▮▮ 12.3.1 泊松过程在排队论中的应用 (Applications in Queuing Theory)
▮▮▮▮▮▮ 12.3.2 泊松过程在生物学中的应用 (Applications in Biology)
▮▮ 13. 马尔可夫链 (Markov Chains)
▮▮▮▮ 13.1 离散时间马尔可夫链 (Discrete-Time Markov Chains, DTMC)
▮▮▮▮▮▮ 13.1.1 马尔可夫性质与转移概率 (Markov Property and Transition Probabilities)
▮▮▮▮▮▮ 13.1.2 转移概率矩阵 (Transition Probability Matrix)
▮▮▮▮▮▮ 13.1.3 状态分类 (Classification of States)
▮▮▮▮▮▮ 13.1.4 极限分布与平稳分布 (Limiting Distribution and Stationary Distribution)
▮▮▮▮ 13.2 连续时间马尔可夫链 (Continuous-Time Markov Chains, CTMC)
▮▮▮▮▮▮ 13.2.1 转移速率与Q矩阵 (Transition Rates and Q-Matrix)
▮▮▮▮▮▮ 13.2.2 前向方程与后向方程 (Kolmogorov Forward and Backward Equations)
▮▮▮▮▮▮ 13.2.3 连续时间马尔可夫链的状态分类 (Classification of States in CTMC)
▮▮▮▮▮▮ 13.2.4 稳态分布 (Stationary Distribution in CTMC)
▮▮▮▮ 13.3 马尔可夫链的应用 (Applications of Markov Chains)
▮▮▮▮▮▮ 13.3.1 马尔可夫链在排队论中的应用 (Applications in Queuing Theory)
▮▮▮▮▮▮ 13.3.2 PageRank 算法 (PageRank Algorithm)
▮▮▮▮▮▮ 13.3.3 马尔可夫链在金融领域的应用 (Applications in Finance)
▮▮ 14. 布朗运动与扩散过程 (Brownian Motion and Diffusion Processes)
▮▮▮▮ 14.1 布朗运动 (Brownian Motion)
▮▮▮▮▮▮ 14.1.1 布朗运动的定义 (Definition of Brownian Motion)
▮▮▮▮▮▮ 14.1.2 布朗运动的性质 (Properties of Brownian Motion)
▮▮▮▮▮▮ 14.1.3 布朗运动的轨道性质 (Sample Path Properties of Brownian Motion)
▮▮▮▮ 14.2 随机积分初步 (Introduction to Stochastic Integration)
▮▮▮▮▮▮ 14.2.1 Itô 积分的定义思想 (Idea of Itô Integral)
▮▮▮▮▮▮ 14.2.2 Itô 公式 (Itô's Lemma)
▮▮▮▮ 14.3 扩散过程简介 (Introduction to Diffusion Processes)
▮▮▮▮▮▮ 14.3.1 扩散过程的定义 (Definition of Diffusion Process)
▮▮▮▮▮▮ 14.3.2 随机微分方程 (Stochastic Differential Equations, SDEs)
▮▮▮▮▮▮ 14.3.3 扩散过程的应用 (Applications of Diffusion Processes)
▮▮ 15. 时间序列分析初步 (Introduction to Time Series Analysis)
▮▮▮▮ 15.1 时间序列的基本概念 (Basic Concepts of Time Series)
▮▮▮▮▮▮ 15.1.1 时间序列的定义与类型 (Definition and Types of Time Series)
▮▮▮▮▮▮ 15.1.2 时间序列的平稳性 (Stationarity of Time Series)
▮▮▮▮▮▮ 15.1.3 自相关函数与偏自相关函数 (Autocorrelation Function and Partial Autocorrelation Function)
▮▮▮▮ 15.2 常用时间序列模型 (Common Time Series Models)
▮▮▮▮▮▮ 15.2.1 自回归模型 (Autoregressive Model, AR)
▮▮▮▮▮▮ 15.2.2 移动平均模型 (Moving Average Model, MA)
▮▮▮▮▮▮ 15.2.3 自回归移动平均模型 (Autoregressive Moving Average Model, ARMA)
▮▮▮▮▮▮ 15.2.4 模型参数估计与预测 (Parameter Estimation and Forecasting)
▮▮▮▮ 15.3 时间序列分析的应用 (Applications of Time Series Analysis)
▮▮▮▮▮▮ 15.3.1 时间序列分析在经济预测中的应用 (Applications in Economic Forecasting)
▮▮▮▮▮▮ 15.3.2 时间序列分析在金融分析中的应用 (Applications in Financial Analysis)
▮▮ 附录A: 数学基础知识回顾 (Review of Mathematical Foundations)
▮▮ 附录B: 常用概率分布表 (Tables of Common Probability Distributions)
▮▮ 附录C: 统计软件R与Python简介 (Introduction to Statistical Software R and Python)
▮▮ 附录D: 参考文献 (References)
▮▮ 附录E: 术语表 (Glossary)
1. 概率论基础 (Foundations of Probability)
本章介绍概率论的基本概念,包括样本空间、事件、概率的公理化定义等,为后续章节构建概率论的理论基础。
1.1 样本空间与事件 (Sample Space and Events)
定义样本空间、事件的概念,以及事件的关系和运算,为概率的定义提供基础。
1.1.1 样本空间 (Sample Space)
介绍样本空间的定义和类型,并通过实例进行说明。
① 定义:在随机试验 (random experiment) 中,所有可能出现的基本结果的集合称为样本空间 (sample space),通常用符号 \( \Omega \) 或 \( S \) 表示。样本空间中的每个基本结果称为样本点 (sample point) 或基本事件 (elementary event),通常用 \( \omega \) 或 \( e \) 表示。
② 样本空间的类型:根据样本空间中样本点的数量,样本空间可以分为:
▮▮▮▮ⓑ 离散样本空间 (discrete sample space):样本点的数量是有限的或可列无限的。例如,抛掷一枚硬币,样本空间为 \( \Omega = \{正面, 反面\} \)。抛掷一枚骰子,样本空间为 \( \Omega = \{1, 2, 3, 4, 5, 6\} \)。
▮▮▮▮ⓒ 连续样本空间 (continuous sample space):样本点的数量是不可列无限的。例如,测量一个灯泡的寿命,样本空间为 \( \Omega = [0, +\infty) \)。测量一个人的身高,样本空间可能为 \( \Omega = [0, 3] \) (以米为单位,实际身高不可能为负或无限高)。
③ 实例说明:
▮▮▮▮ⓑ 例1:抛掷一枚硬币。
▮▮▮▮▮▮▮▮样本空间为 \( \Omega = \{正面, 反面\} \)。
▮▮▮▮▮▮▮▮样本点为“正面”和“反面”。
▮▮▮▮ⓑ 例2:抛掷一枚骰子。
▮▮▮▮▮▮▮▮样本空间为 \( \Omega = \{1, 2, 3, 4, 5, 6\} \)。
▮▮▮▮▮▮▮▮样本点为 \( 1, 2, 3, 4, 5, 6 \) 点。
▮▮▮▮ⓒ 例3:记录某城市一天内的最高气温(摄氏度)。
▮▮▮▮▮▮▮▮样本空间可能为 \( \Omega = [-40, 50] \) (假设该城市极端温度范围)。
▮▮▮▮▮▮▮▮样本点为区间 \( [-40, 50] \) 内的任意实数。
▮▮▮▮ⓓ 例4:在单位圆内随机取一点,记录点的坐标 \( (x, y) \)。
▮▮▮▮▮▮▮▮样本空间为 \( \Omega = \{(x, y) \mid x^2 + y^2 \leq 1, x \in \mathbb{R}, y \in \mathbb{R} \} \)。
▮▮▮▮▮▮▮▮样本点为单位圆内的所有点的坐标。
1.1.2 事件与事件的运算 (Events and Operations of Events)
定义事件 (event) 的概念,讲解事件的并、交、补等运算及其性质。
① 事件的定义:在样本空间 \( \Omega \) 下,事件 \( A \) 是样本空间 \( \Omega \) 的一个子集,即 \( A \subseteq \Omega \)。当试验结果落在事件 \( A \) 这个子集内时,称事件 \( A \) 发生。
② 基本事件、复合事件与必然事件、不可能事件:
▮▮▮▮ⓑ 基本事件 (elementary event):由一个样本点组成的事件,也称为简单事件。
▮▮▮▮ⓒ 复合事件 (compound event):由多个样本点组成的事件。
▮▮▮▮ⓓ 必然事件 (sure event):在每次试验中都必然发生的事件,即样本空间 \( \Omega \) 本身。
▮▮▮▮ⓔ 不可能事件 (impossible event):在每次试验中都不可能发生的事件,即空集 \( \emptyset \)。
③ 事件的关系与运算:
设 \( A \) 和 \( B \) 是样本空间 \( \Omega \) 中的两个事件。
▮▮▮▮ⓐ 包含关系 (inclusion):若事件 \( A \) 的发生必然导致事件 \( B \) 的发生,则称事件 \( B \) 包含事件 \( A \),记作 \( A \subseteq B \)。在集合意义上,是指集合 \( A \) 是集合 \( B \) 的子集。
▮▮▮▮ⓑ 相等关系 (equality):若 \( A \subseteq B \) 且 \( B \subseteq A \),则称事件 \( A \) 与事件 \( B \) 相等,记作 \( A = B \)。在集合意义上,是指集合 \( A \) 与集合 \( B \) 是同一个集合。
▮▮▮▮ⓒ 并事件 (和事件) (union of events, sum of events):事件 \( A \) 与事件 \( B \) 的并事件记作 \( A \cup B \) 或 \( A + B \),表示事件 \( A \) 发生或事件 \( B \) 发生,或事件 \( A \) 和事件 \( B \) 同时发生。在集合意义上,是指集合 \( A \) 与集合 \( B \) 的并集:
\[ A \cup B = \{\omega \mid \omega \in A \text{ 或 } \omega \in B \} \]
▮▮▮▮ⓓ 交事件 (积事件) (intersection of events, product of events):事件 \( A \) 与事件 \( B \) 的交事件记作 \( A \cap B \) 或 \( AB \),表示事件 \( A \) 和事件 \( B \) 同时发生。在集合意义上,是指集合 \( A \) 与集合 \( B \) 的交集:
\[ A \cap B = \{\omega \mid \omega \in A \text{ 且 } \omega \in B \} \]
▮▮▮▮ⓔ 互斥事件 (互不相容事件) (mutually exclusive events, disjoint events):若事件 \( A \) 与事件 \( B \) 的交集为空集,即 \( A \cap B = \emptyset \),则称事件 \( A \) 与事件 \( B \) 互斥 或 互不相容,表示事件 \( A \) 和事件 \( B \) 不可能同时发生。
▮▮▮▮ⓕ 差事件 (difference of events):事件 \( A \) 与事件 \( B \) 的差事件记作 \( A \setminus B \) 或 \( A - B \),表示事件 \( A \) 发生但事件 \( B \) 不发生。在集合意义上,是指集合 \( A \) 与集合 \( B \) 的差集:
\[ A \setminus B = \{\omega \mid \omega \in A \text{ 且 } \omega \notin B \} = A \cap B^c \]
▮▮▮▮ⓖ 逆事件 (对立事件、补事件) (complementary event):事件 \( A \) 的逆事件 或 补事件 记作 \( A^c \) 或 \( \bar{A} \) 或 \( \Omega \setminus A \),表示事件 \( A \) 不发生。在集合意义上,是指集合 \( A \) 在样本空间 \( \Omega \) 中的补集:
\[ A^c = \{\omega \mid \omega \in \Omega \text{ 且 } \omega \notin A \} \]
④ 事件运算的性质:事件的运算满足集合运算的规律,例如:
▮▮▮▮ⓑ 交换律 (commutative laws): \( A \cup B = B \cup A \), \( A \cap B = B \cap A \)。
▮▮▮▮ⓒ 结合律 (associative laws): \( (A \cup B) \cup C = A \cup (B \cup C) \), \( (A \cap B) \cap C = A \cap (B \cap C) \)。
▮▮▮▮ⓓ 分配律 (distributive laws): \( A \cup (B \cap C) = (A \cup B) \cap (A \cup C) \), \( A \cap (B \cup C) = (A \cap B) \cup (A \cap C) \)。
▮▮▮▮ⓔ 德摩根律 (De Morgan's laws): \( (A \cup B)^c = A^c \cap B^c \), \( (A \cap B)^c = A^c \cup B^c \)。
▮▮▮▮ⓕ 吸收律 (absorption laws): \( A \cup (A \cap B) = A \), \( A \cap (A \cup B) = A \)。
▮▮▮▮ⓖ \( A \cup \Omega = \Omega \), \( A \cap \Omega = A \), \( A \cup \emptyset = A \), \( A \cap \emptyset = \emptyset \)。
▮▮▮▮ⓗ \( A \cup A^c = \Omega \), \( A \cap A^c = \emptyset \), \( (A^c)^c = A \)。
1.1.3 事件的代数 (Algebra of Events)
介绍事件代数 (algebra of events) 的概念,为概率的公理化定义做准备。
① 定义:设 \( \mathcal{F} \) 是样本空间 \( \Omega \) 的一些子集构成的集合族。如果集合族 \( \mathcal{F} \) 满足以下三个条件,则称 \( \mathcal{F} \) 为事件域 (field of events) 或 事件代数 (algebra of events):
▮▮▮▮ⓑ \( \Omega \in \mathcal{F} \) (样本空间是事件)。
▮▮▮▮ⓒ 若 \( A \in \mathcal{F} \),则 \( A^c \in \mathcal{F} \) (若 \( A \) 是事件,则 \( A \) 的逆事件也是事件。事件域对逆运算封闭)。
▮▮▮▮ⓓ 若 \( A, B \in \mathcal{F} \),则 \( A \cup B \in \mathcal{F} \) (若 \( A \) 和 \( B \) 是事件,则 \( A \) 与 \( B \) 的并事件也是事件。事件域对并运算封闭)。
② 事件域的性质:
▮▮▮▮ⓑ 由于 \( \mathcal{F} \) 对逆运算和并运算封闭,根据德摩根律,\( (A \cup B)^c = A^c \cap B^c \),以及 \( \mathcal{F} \) 对逆运算封闭,若 \( A \in \mathcal{F} \) 且 \( B \in \mathcal{F} \),则 \( A^c \in \mathcal{F} \) 且 \( B^c \in \mathcal{F} \),从而 \( A^c \cup B^c \in \mathcal{F} \),再取逆运算,得到 \( (A^c \cup B^c)^c = (A^c)^c \cap (B^c)^c = A \cap B \in \mathcal{F} \)。因此,事件域对交运算也封闭。
▮▮▮▮ⓒ 由于 \( \Omega \in \mathcal{F} \),且 \( \mathcal{F} \) 对逆运算封闭,则 \( \emptyset = \Omega^c \in \mathcal{F} \) (不可能事件是事件)。
▮▮▮▮ⓓ 若 \( A, B \in \mathcal{F} \),则 \( A \setminus B = A \cap B^c \in \mathcal{F} \) (事件域对差运算封闭)。
▮▮▮▮ⓔ 事件域 \( \mathcal{F} \) 对有限次的并、交、逆、差运算都封闭。
③ 最小事件域与 \( \sigma \) -事件域:
▮▮▮▮ⓑ 最小事件域:对于任意样本空间 \( \Omega \),总存在最小的事件域 \( \mathcal{F} = \{\emptyset, \Omega\} \)。它只包含不可能事件和必然事件。
▮▮▮▮ⓒ \( \sigma \) -事件域 (sigma-algebra of events):如果事件域 \( \mathcal{F} \) 还满足对可列并运算封闭的条件,即若 \( A_1, A_2, \dots \in \mathcal{F} \),则 \( \bigcup_{n=1}^{\infty} A_n \in \mathcal{F} \),则称 \( \mathcal{F} \) 为 \( \sigma \) -事件域 或 \( \sigma \) -代数。在现代概率论中,概率的公理化定义通常是基于 \( \sigma \) -事件域的。
▮▮▮▮ⓓ 若 \( \mathcal{F} \) 是 \( \sigma \) -事件域,则它也对可列交运算封闭,因为根据德摩根律 \( (\bigcup_{n=1}^{\infty} A_n)^c = \bigcap_{n=1}^{\infty} A_n^c \),若 \( A_n \in \mathcal{F} \),则 \( A_n^c \in \mathcal{F} \),从而 \( \bigcup_{n=1}^{\infty} A_n^c \in \mathcal{F} \),再取逆运算,得到 \( (\bigcup_{n=1}^{\infty} A_n^c)^c = \bigcap_{n=1}^{\infty} A_n \in \mathcal{F} \)。
1.2 概率的公理化定义 (Axiomatic Definition of Probability)
从公理出发,严格定义概率 (probability) 的概念,并介绍概率的基本性质。
1.2.1 概率的公理 (Axioms of Probability)
阐述概率的非负性、规范性和可加性公理。
设 \( \Omega \) 为样本空间,\( \mathcal{F} \) 是 \( \Omega \) 上的一个 \( \sigma \) -事件域。概率 \( P \) 是定义在 \( \mathcal{F} \) 上的一个实值函数,满足以下三个公理 (axioms):
① 非负性 (non-negativity):对于任意事件 \( A \in \mathcal{F} \),有 \( P(A) \geq 0 \)。
概率的取值是非负实数。
② 规范性 (normalization):对于必然事件 \( \Omega \),有 \( P(\Omega) = 1 \)。
必然事件的概率为 1。
③ 可列可加性 (countable additivity):若 \( A_1, A_2, \dots \) 是一列互不相容的事件,即对于任意 \( i \neq j \),有 \( A_i \cap A_j = \emptyset \),则有
\[ P\left(\bigcup_{n=1}^{\infty} A_n\right) = \sum_{n=1}^{\infty} P(A_n) \]
互不相容事件并的概率等于各事件概率之和。对于有限个互不相容事件 \( A_1, A_2, \dots, A_n \),可列可加性退化为有限可加性:
\[ P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i=1}^{n} P(A_i) \]
满足以上三个公理的函数 \( P \) 称为概率测度 (probability measure)。样本空间 \( \Omega \) 、\( \sigma \) -事件域 \( \mathcal{F} \) 和概率测度 \( P \) 构成概率空间 (probability space),记作 \( (\Omega, \mathcal{F}, P) \)。
1.2.2 概率的基本性质 (Basic Properties of Probability)
推导并解释概率的基本性质,如单调性、次可加性等。
根据概率的公理化定义,可以推导出概率的一些基本性质:
① 性质1:不可能事件的概率为零: \( P(\emptyset) = 0 \)。
证明:因为 \( \Omega \cup \emptyset = \Omega \) 且 \( \Omega \cap \emptyset = \emptyset \),所以 \( \Omega \) 和 \( \emptyset \) 互不相容。根据可加性公理, \( P(\Omega \cup \emptyset) = P(\Omega) + P(\emptyset) \)。又 \( \Omega \cup \emptyset = \Omega \),所以 \( P(\Omega) = P(\Omega) + P(\emptyset) \)。根据规范性公理 \( P(\Omega) = 1 \),因此 \( 1 = 1 + P(\emptyset) \),得到 \( P(\emptyset) = 0 \)。
② 性质2:有限可加性:若 \( A_1, A_2, \dots, A_n \) 是一组互不相容的事件,则
\[ P\left(\bigcup_{i=1}^{n} A_i\right) = \sum_{i=1}^{n} P(A_i) \]
这是可列可加性公理的直接推论,令 \( A_{n+1} = A_{n+2} = \dots = \emptyset \),利用 \( P(\emptyset) = 0 \) 以及可列可加性即可得到。
③ 性质3:概率的单调性 (monotonicity):若 \( A \subseteq B \),则 \( P(A) \leq P(B) \)。
证明:因为 \( A \subseteq B \),所以 \( B = A \cup (B \setminus A) \),且 \( A \cap (B \setminus A) = \emptyset \)。根据有限可加性, \( P(B) = P(A \cup (B \setminus A)) = P(A) + P(B \setminus A) \)。根据非负性公理, \( P(B \setminus A) \geq 0 \)。因此 \( P(B) = P(A) + P(B \setminus A) \geq P(A) \),即 \( P(A) \leq P(B) \)。
④ 性质4:概率的上界:对于任意事件 \( A \),有 \( 0 \leq P(A) \leq 1 \)。
证明:根据非负性公理, \( P(A) \geq 0 \)。又因为 \( A \subseteq \Omega \),根据单调性, \( P(A) \leq P(\Omega) \)。根据规范性公理, \( P(\Omega) = 1 \),所以 \( P(A) \leq 1 \)。因此 \( 0 \leq P(A) \leq 1 \)。
⑤ 性质5:逆事件的概率:对于任意事件 \( A \),有 \( P(A^c) = 1 - P(A) \)。
证明:因为 \( A \cup A^c = \Omega \) 且 \( A \cap A^c = \emptyset \),所以 \( A \) 和 \( A^c \) 互不相容。根据有限可加性, \( P(A \cup A^c) = P(A) + P(A^c) \)。又 \( A \cup A^c = \Omega \),根据规范性公理 \( P(\Omega) = 1 \),因此 \( 1 = P(A) + P(A^c) \),得到 \( P(A^c) = 1 - P(A) \)。
⑥ 性质6:广义加法公式 (容斥原理):对于任意两个事件 \( A \) 和 \( B \),有 \( P(A \cup B) = P(A) + P(B) - P(A \cap B) \)。
证明:可以将 \( A \cup B \) 分解为两个互不相容的事件之并: \( A \cup B = A \cup (B \setminus A) \),且 \( A \cap (B \setminus A) = \emptyset \)。根据有限可加性, \( P(A \cup B) = P(A) + P(B \setminus A) \)。又 \( B = (B \cap A) \cup (B \setminus A) \),且 \( (B \cap A) \cap (B \setminus A) = \emptyset \),所以 \( P(B) = P(B \cap A) + P(B \setminus A) \),即 \( P(B \setminus A) = P(B) - P(A \cap B) \)。代入前式,得到 \( P(A \cup B) = P(A) + P(B) - P(A \cap B) \)。
⑦ 性质7:次可加性 (subadditivity):对于任意可列个事件 \( A_1, A_2, \dots \),有
\[ P\left(\bigcup_{n=1}^{\infty} A_n\right) \leq \sum_{n=1}^{\infty} P(A_n) \]
证明 (简要思路):构造互不相容事件序列 \( B_1 = A_1, B_2 = A_2 \setminus A_1, B_3 = A_3 \setminus (A_1 \cup A_2), \dots, B_n = A_n \setminus (\bigcup_{i=1}^{n-1} A_i), \dots \)。则 \( B_n \subseteq A_n \),且 \( \bigcup_{n=1}^{\infty} A_n = \bigcup_{n=1}^{\infty} B_n \),且 \( B_1, B_2, \dots \) 互不相容。根据可列可加性和单调性,
\[ P\left(\bigcup_{n=1}^{\infty} A_n\right) = P\left(\bigcup_{n=1}^{\infty} B_n\right) = \sum_{n=1}^{\infty} P(B_n) \leq \sum_{n=1}^{\infty} P(A_n) \]
1.2.3 古典概率与几何概率 (Classical Probability and Geometric Probability)
介绍古典概率 (classical probability) 和几何概率 (geometric probability) 的计算方法及应用场景。
① 古典概率 (Classical Probability):
▮▮▮▮ⓑ 适用条件:古典概率适用于样本空间 \( \Omega \) 包含有限个样本点,且每个样本点发生的可能性相同(等可能性)。
▮▮▮▮ⓒ 计算公式:设样本空间 \( \Omega \) 包含 \( n \) 个样本点,事件 \( A \) 包含 \( k \) 个样本点,则事件 \( A \) 的古典概率为:
\[ P(A) = \frac{\text{事件 } A \text{ 包含的样本点数}}{\text{样本空间 } \Omega \text{ 包含的样本点数}} = \frac{k}{n} = \frac{|A|}{|\Omega|} \]
▮▮▮▮ⓒ 计算步骤:
▮▮▮▮▮▮▮▮❷ 确定样本空间 \( \Omega \) ,并计算样本点总数 \( n = |\Omega| \)。
▮▮▮▮▮▮▮▮❸ 确定事件 \( A \),并计算事件 \( A \) 包含的样本点数 \( k = |A| \)。
▮▮▮▮▮▮▮▮❹ 计算概率 \( P(A) = \frac{k}{n} \)。
▮▮▮▮ⓔ 例5:抛掷一枚均匀骰子,求出现奇数点的概率。
▮▮▮▮▮▮▮▮样本空间 \( \Omega = \{1, 2, 3, 4, 5, 6\} \),样本点总数 \( n = 6 \)。
▮▮▮▮▮▮▮▮事件 \( A = \{\text{出现奇数点}\} = \{1, 3, 5\} \),事件 \( A \) 包含的样本点数 \( k = 3 \)。
▮▮▮▮▮▮▮▮出现奇数点的概率为 \( P(A) = \frac{3}{6} = \frac{1}{2} \)。
② 几何概率 (Geometric Probability):
▮▮▮▮ⓑ 适用条件:几何概率适用于样本空间 \( \Omega \) 为某个几何区域(如线段、平面区域、立体区域),样本点是区域内的点,且样本点在区域内均匀分布(等可能落入区域内的任何部分)。
▮▮▮▮ⓒ 计算公式:设样本空间 \( \Omega \) 为某个几何区域,事件 \( A \) 为 \( \Omega \) 内的一个子区域,则事件 \( A \) 的几何概率为:
\[ P(A) = \frac{\text{事件 } A \text{ 对应的区域的测度}}{\text{样本空间 } \Omega \text{ 对应的区域的测度}} = \frac{\text{测度}(A)}{\text{测度}(\Omega)} \]
这里的“测度”在线段上是长度,在平面区域上是面积,在立体区域上是体积。
▮▮▮▮ⓒ 计算步骤:
▮▮▮▮▮▮▮▮❷ 确定样本空间 \( \Omega \) 对应的几何区域,并计算其测度 \( \text{测度}(\Omega) \)。
▮▮▮▮▮▮▮▮❸ 确定事件 \( A \) 对应的几何区域,并计算其测度 \( \text{测度}(A) \)。
▮▮▮▮▮▮▮▮❹ 计算概率 \( P(A) = \frac{\text{测度}(A)}{\text{测度}(\Omega)} \)。
▮▮▮▮ⓔ 例6:在长为 \( L \) 的线段上随机取一点,求该点落在长度为 \( l \) 的子线段内的概率(假设子线段包含于大线段内)。
▮▮▮▮▮▮▮▮样本空间 \( \Omega \) 为长为 \( L \) 的线段,其测度(长度)为 \( L \)。
▮▮▮▮▮▮▮▮事件 \( A \) 为点落在长度为 \( l \) 的子线段内,事件 \( A \) 对应的区域测度(长度)为 \( l \)。
▮▮▮▮▮▮▮▮点落在子线段内的概率为 \( P(A) = \frac{l}{L} \)。
▮▮▮▮ⓔ 例7 (蒲丰投针实验):平面上画有等距离 \( d \) 的平行线,将长为 \( l < d \) 的针随机投掷到平面上,求针与平行线相交的概率。
▮▮▮▮▮▮▮▮设 \( \theta \) 为针与平行线的夹角, \( x \) 为针的中点到最近的平行线的距离。则 \( \theta \in [0, \pi) \), \( x \in [0, d/2] \)。样本空间 \( \Omega = \{(\theta, x) \mid 0 \leq \theta < \pi, 0 \leq x \leq d/2 \} \),其测度(面积)为 \( \pi \cdot (d/2) = \frac{\pi d}{2} \)。
▮▮▮▮▮▮▮▮针与平行线相交的条件是 \( x \leq \frac{l}{2} \sin\theta \)。事件 \( A = \{(\theta, x) \mid 0 \leq \theta < \pi, 0 \leq x \leq \frac{l}{2} \sin\theta \} \),事件 \( A \) 对应的区域测度(面积)为 \( \int_{0}^{\pi} \frac{l}{2} \sin\theta \, d\theta = \frac{l}{2} [-\cos\theta]_{0}^{\pi} = \frac{l}{2} (1 - (-1)) = l \)。
▮▮▮▮▮▮▮▮针与平行线相交的概率为 \( P(A) = \frac{l}{\frac{\pi d}{2}} = \frac{2l}{\pi d} \)。
1.3 条件概率与事件的独立性 (Conditional Probability and Independence of Events)
引入条件概率 (conditional probability) 的概念,讨论事件的独立性 (independence of events),并介绍全概率公式 (law of total probability) 和 贝叶斯公式 (Bayes' theorem)。
1.3.1 条件概率 (Conditional Probability)
定义条件概率,并探讨其性质和应用。
① 定义:设 \( A \) 和 \( B \) 是样本空间 \( \Omega \) 中的两个事件,且 \( P(B) > 0 \)。在已知事件 \( B \) 发生的条件下,事件 \( A \) 发生的条件概率 (conditional probability) 定义为:
\[ P(A \mid B) = \frac{P(A \cap B)}{P(B)} \]
\( P(A \mid B) \) 读作 “在 \( B \) 给定下 \( A \) 的概率” 或 “ \( B \) 发生条件下 \( A \) 发生的概率”。
② 条件概率的理解:条件概率 \( P(A \mid B) \) 可以理解为,将样本空间限制在事件 \( B \) 发生的范围内,然后在新的样本空间 \( B \) 中,事件 \( A \) 发生的概率。相当于在事件 \( B \) 发生的条件下,重新考虑事件 \( A \) 发生的可能性。
③ 条件概率的性质:对于给定的事件 \( B \),\( P(\cdot \mid B) \) 是定义在 \( \mathcal{F} \) 上的一个概率测度,即条件概率满足概率的三个公理:
▮▮▮▮ⓑ 非负性:对于任意事件 \( A \in \mathcal{F} \), \( P(A \mid B) = \frac{P(A \cap B)}{P(B)} \geq 0 \) (因为 \( P(A \cap B) \geq 0 \) 且 \( P(B) > 0 \))。
▮▮▮▮ⓒ 规范性: \( P(\Omega \mid B) = \frac{P(\Omega \cap B)}{P(B)} = \frac{P(B)}{P(B)} = 1 \) (因为 \( \Omega \cap B = B \))。
▮▮▮▮ⓓ 可列可加性:若 \( A_1, A_2, \dots \) 是一列互不相容的事件,则
\[ P\left(\bigcup_{n=1}^{\infty} A_n \mid B\right) = \frac{P\left(\left(\bigcup_{n=1}^{\infty} A_n\right) \cap B\right)}{P(B)} = \frac{P\left(\bigcup_{n=1}^{\infty} (A_n \cap B)\right)}{P(B)} \]
由于 \( A_1, A_2, \dots \) 互不相容,则 \( A_1 \cap B, A_2 \cap B, \dots \) 也互不相容。根据概率的可列可加性,
\[ P\left(\bigcup_{n=1}^{\infty} (A_n \cap B)\right) = \sum_{n=1}^{\infty} P(A_n \cap B) \]
因此,
\[ P\left(\bigcup_{n=1}^{\infty} A_n \mid B\right) = \frac{\sum_{n=1}^{\infty} P(A_n \cap B)}{P(B)} = \sum_{n=1}^{\infty} \frac{P(A_n \cap B)}{P(B)} = \sum_{n=1}^{\infty} P(A_n \mid B) \]
所以,条件概率 \( P(\cdot \mid B) \) 满足概率的三个公理,因此也具有概率的所有基本性质,例如单调性、逆事件概率公式、广义加法公式等。
④ 例8:抛掷一枚骰子,已知出现点数大于 3,求出现点数为 5 的概率。
▮▮▮▮设事件 \( A = \{\text{出现点数为 5}\} = \{5\} \),事件 \( B = \{\text{出现点数大于 3}\} = \{4, 5, 6\} \)。
▮▮▮▮\( A \cap B = \{5\} \), \( P(A \cap B) = P(\{5\}) = \frac{1}{6} \), \( P(B) = P(\{4, 5, 6\}) = \frac{3}{6} = \frac{1}{2} \)。
▮▮▮▮在已知出现点数大于 3 的条件下,出现点数为 5 的概率为 \( P(A \mid B) = \frac{P(A \cap B)}{P(B)} = \frac{1/6}{1/2} = \frac{1}{3} \)。
1.3.2 乘法公式 (Multiplication Rule)
介绍概率的乘法公式及其应用。
① 乘法公式:由条件概率的定义 \( P(A \mid B) = \frac{P(A \cap B)}{P(B)} \) (当 \( P(B) > 0 \) 时),可以得到乘法公式 (multiplication rule):
\[ P(A \cap B) = P(B) P(A \mid B) \]
类似地,当 \( P(A) > 0 \) 时,有 \( P(B \mid A) = \frac{P(A \cap B)}{P(A)} \),得到
\[ P(A \cap B) = P(A) P(B \mid A) \]
因此,
\[ P(A \cap B) = P(A) P(B \mid A) = P(B) P(A \mid B) \]
乘法公式将联合概率 \( P(A \cap B) \) 分解为条件概率和边缘概率的乘积。
② 推广的乘法公式:对于多个事件 \( A_1, A_2, \dots, A_n \),乘法公式可以推广为:
\[ P(A_1 \cap A_2 \cap \dots \cap A_n) = P(A_1) P(A_2 \mid A_1) P(A_3 \mid A_1 \cap A_2) \dots P(A_n \mid A_1 \cap A_2 \cap \dots \cap A_{n-1}) \]
条件是每项条件概率都存在,即 \( P(A_1) > 0, P(A_1 \cap A_2) > 0, \dots, P(A_1 \cap A_2 \cap \dots \cap A_{n-1}) > 0 \)。
③ 例9 (摸球问题):一个盒子中有 5 个红球和 3 个白球,不放回地依次摸两次球,求第一次摸到红球且第二次摸到白球的概率。
▮▮▮▮设事件 \( A = \{\text{第一次摸到红球}\} \),事件 \( B = \{\text{第二次摸到白球}\} \)。
▮▮▮▮第一次摸球时,共有 8 个球,其中 5 个红球,所以 \( P(A) = \frac{5}{8} \)。
▮▮▮▮在第一次摸到红球的条件下,盒子中还剩下 7 个球,其中 4 个红球和 3 个白球。所以,在事件 \( A \) 发生的条件下,第二次摸到白球的条件概率为 \( P(B \mid A) = \frac{3}{7} \).
▮▮▮▮根据乘法公式,第一次摸到红球且第二次摸到白球的概率为:
\[ P(A \cap B) = P(A) P(B \mid A) = \frac{5}{8} \times \frac{3}{7} = \frac{15}{56} \]
1.3.3 全概率公式与贝叶斯公式 (Law of Total Probability and Bayes' Theorem)
详细讲解全概率公式和贝叶斯公式,并通过案例分析其应用。
① 完备事件组 (partition of the sample space):
设 \( B_1, B_2, \dots, B_n \) 是一组事件,如果它们满足:
▮▮▮▮ⓐ \( B_1, B_2, \dots, B_n \) 互不相容,即对于任意 \( i \neq j \), \( B_i \cap B_j = \emptyset \)。
▮▮▮▮ⓑ \( B_1 \cup B_2 \cup \dots \cup B_n = \Omega \)。
则称 \( B_1, B_2, \dots, B_n \) 为样本空间 \( \Omega \) 的一个完备事件组 (partition of the sample space) 或 划分。
② 全概率公式 (Law of Total Probability):
设 \( B_1, B_2, \dots, B_n \) 是样本空间 \( \Omega \) 的一个完备事件组,且 \( P(B_i) > 0 \) ( \( i = 1, 2, \dots, n \) )。则对于任意事件 \( A \),有全概率公式 (law of total probability):
\[ P(A) = \sum_{i=1}^{n} P(B_i) P(A \mid B_i) \]
推导:因为 \( B_1, B_2, \dots, B_n \) 是完备事件组,所以 \( \bigcup_{i=1}^{n} B_i = \Omega \)。因此 \( A = A \cap \Omega = A \cap (\bigcup_{i=1}^{n} B_i) = \bigcup_{i=1}^{n} (A \cap B_i) \)。又因为 \( B_1, B_2, \dots, B_n \) 互不相容,所以 \( A \cap B_1, A \cap B_2, \dots, A \cap B_n \) 也互不相容。根据概率的有限可加性,
\[ P(A) = P\left(\bigcup_{i=1}^{n} (A \cap B_i)\right) = \sum_{i=1}^{n} P(A \cap B_i) \]
根据乘法公式, \( P(A \cap B_i) = P(B_i) P(A \mid B_i) \)。代入上式,得到全概率公式:
\[ P(A) = \sum_{i=1}^{n} P(B_i) P(A \mid B_i) \]
③ 贝叶斯公式 (Bayes' Theorem):
在全概率公式的条件下,若已知事件 \( A \) 已经发生,要求事件 \( B_i \) 发生的后验概率 (posterior probability) \( P(B_i \mid A) \)。根据条件概率的定义和乘法公式,
\[ P(B_i \mid A) = \frac{P(A \cap B_i)}{P(A)} = \frac{P(B_i) P(A \mid B_i)}{P(A)} \]
将全概率公式 \( P(A) = \sum_{j=1}^{n} P(B_j) P(A \mid B_j) \) 代入分母,得到贝叶斯公式 (Bayes' theorem):
\[ P(B_i \mid A) = \frac{P(B_i) P(A \mid B_i)}{\sum_{j=1}^{n} P(B_j) P(A \mid B_j)} \]
贝叶斯公式描述了在已知结果 \( A \) 的情况下,推断原因 \( B_i \) 的概率。其中 \( P(B_i) \) 称为先验概率 (prior probability),表示在试验前对事件 \( B_i \) 发生概率的估计; \( P(A \mid B_i) \) 称为似然函数 (likelihood function),表示在事件 \( B_i \) 发生的条件下,事件 \( A \) 发生的概率; \( P(B_i \mid A) \) 称为后验概率 (posterior probability),表示在已知事件 \( A \) 发生的条件下,对事件 \( B_i \) 发生概率的修正估计。
④ 案例分析:疾病诊断
假设人群中某种疾病的发病率为 0.1% (即 0.001)。有一种诊断该疾病的试剂盒,其灵敏度 (sensitivity) 为 99% (即患病者检测为阳性的概率为 0.99),特异度 (specificity) 为 95% (即未患病者检测为阴性的概率为 0.95)。现在某人使用该试剂盒检测结果为阳性,求此人真正患病的概率(后验概率)。
解:设事件 \( D = \{\text{患病}\} \), \( D^c = \{\text{未患病}\} \), \( T^+ = \{\text{检测结果为阳性}\} \), \( T^- = \{\text{检测结果为阴性}\} \)。
已知:
▮▮▮▮先验概率: \( P(D) = 0.001 \), \( P(D^c) = 1 - P(D) = 0.999 \)。
▮▮▮▮灵敏度: \( P(T^+ \mid D) = 0.99 \)。
▮▮▮▮特异度: \( P(T^- \mid D^c) = 0.95 \),则 \( P(T^+ \mid D^c) = 1 - P(T^- \mid D^c) = 1 - 0.95 = 0.05 \)。
求后验概率: \( P(D \mid T^+) \)。
根据贝叶斯公式:
\[ P(D \mid T^+) = \frac{P(D) P(T^+ \mid D)}{P(D) P(T^+ \mid D) + P(D^c) P(T^+ \mid D^c)} \]
代入已知数值:
\[ P(D \mid T^+) = \frac{0.001 \times 0.99}{0.001 \times 0.99 + 0.999 \times 0.05} = \frac{0.00099}{0.00099 + 0.04995} = \frac{0.00099}{0.05094} \approx 0.01943 \]
所以,即使检测结果为阳性,此人真正患病的概率也只有约 1.94%。这说明即使试剂盒的灵敏度和特异度都很高,由于疾病发病率很低,阳性预测值 (positive predictive value) 仍然不高。贝叶斯公式在医学诊断、风险评估等领域有重要应用。
1.3.4 事件的独立性 (Independence of Events)
定义事件的独立性,讨论独立事件的性质和判断方法。
① 事件的独立性定义:
设 \( A \) 和 \( B \) 是样本空间 \( \Omega \) 中的两个事件。如果满足以下条件,则称事件 \( A \) 和事件 \( B \) 相互独立 (independent events):
\[ P(A \cap B) = P(A) P(B) \]
直观理解:事件 \( A \) 的发生不影响事件 \( B \) 发生的概率,反之亦然。
② 独立性的等价条件:
如果 \( P(B) > 0 \),则 \( P(A \cap B) = P(A) P(B) \) 等价于 \( P(A \mid B) = P(A) \)。
如果 \( P(A) > 0 \),则 \( P(A \cap B) = P(A) P(B) \) 等价于 \( P(B \mid A) = P(B) \)。
即事件 \( A \) 和 \( B \) 独立,等价于在已知 \( B \) 发生的条件下,\( A \) 发生的概率仍然等于 \( A \) 自身发生的概率;也等价于在已知 \( A \) 发生的条件下,\( B \) 发生的概率仍然等于 \( B \) 自身发生的概率。
③ 多个事件的相互独立性:
对于多个事件 \( A_1, A_2, \dots, A_n \),如果对于其中任意 \( k \) ( \( 2 \leq k \leq n \) ) 个事件 \( A_{i_1}, A_{i_2}, \dots, A_{i_k} \),都有
\[ P(A_{i_1} \cap A_{i_2} \cap \dots \cap A_{i_k}) = P(A_{i_1}) P(A_{i_2}) \dots P(A_{i_k}) \]
则称事件 \( A_1, A_2, \dots, A_n \) 相互独立 (mutually independent)。
特别地,对于三个事件 \( A, B, C \) 相互独立,需要满足以下四个条件:
▮▮▮▮ⓐ \( P(A \cap B) = P(A) P(B) \)
▮▮▮▮ⓑ \( P(A \cap C) = P(A) P(C) \)
▮▮▮▮ⓒ \( P(B \cap C) = P(B) P(C) \)
▮▮▮▮ⓓ \( P(A \cap B \cap C) = P(A) P(B) P(C) \)
注意,仅满足两两独立(条件 a, b, c)不能保证三个事件相互独立。
④ 独立事件的性质:
▮▮▮▮ⓑ 若事件 \( A \) 和 \( B \) 相互独立,则 \( A \) 与 \( B^c \), \( A^c \) 与 \( B \), \( A^c \) 与 \( B^c \) 也分别相互独立。例如,证明 \( A \) 与 \( B^c \) 独立:
\[ P(A \cap B^c) = P(A \setminus B) = P(A) - P(A \cap B) = P(A) - P(A) P(B) = P(A) (1 - P(B)) = P(A) P(B^c) \]
▮▮▮▮ⓑ 若事件 \( A \) 和 \( B \) 互斥且 \( P(A) > 0, P(B) > 0 \),则 \( A \) 和 \( B \) 不可能独立,因为 \( P(A \cap B) = P(\emptyset) = 0 \),而 \( P(A) P(B) > 0 \),所以 \( P(A \cap B) \neq P(A) P(B) \)。
⑤ 例10:连续抛掷两次均匀硬币,设事件 \( A = \{\text{第一次抛掷正面}\} \),事件 \( B = \{\text{第二次抛掷正面}\} \),事件 \( C = \{\text{两次抛掷结果相同}\} \)。判断事件 \( A, B, C \) 的独立性。
▮▮▮▮样本空间 \( \Omega = \{ (正, 正), (正, 反), (反, 正), (反, 反) \} \),每个样本点概率为 \( \frac{1}{4} \)。
▮▮▮▮\( A = \{ (正, 正), (正, 反) \} \), \( P(A) = \frac{2}{4} = \frac{1}{2} \)。
▮▮▮▮\( B = \{ (正, 正), (反, 正) \} \), \( P(B) = \frac{2}{4} = \frac{1}{2} \)。
▮▮▮▮\( C = \{ (正, 正), (反, 反) \} \), \( P(C) = \frac{2}{4} = \frac{1}{2} \)。
▮▮▮▮\( A \cap B = \{ (正, 正) \} \), \( P(A \cap B) = \frac{1}{4} = P(A) P(B) \),所以 \( A \) 和 \( B \) 独立。
▮▮▮▮\( A \cap C = \{ (正, 正) \} \), \( P(A \cap C) = \frac{1}{4} = P(A) P(C) \),所以 \( A \) 和 \( C \) 独立。
▮▮▮▮\( B \cap C = \{ (正, 正) \} \), \( P(B \cap C) = \frac{1}{4} = P(B) P(C) \),所以 \( B \) 和 \( C \) 独立。
▮▮▮▮\( A \cap B \cap C = \{ (正, 正) \} \), \( P(A \cap B \cap C) = \frac{1}{4} \neq P(A) P(B) P(C) = \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} = \frac{1}{8} \)。
▮▮▮▮因此,事件 \( A, B, C \) 两两独立,但不相互独立。
2. 随机变量及其分布 (Random Variables and Distributions)
本章引入随机变量 (random variable) 的概念,讨论离散型随机变量 (discrete random variable) 和连续型随机变量 (continuous random variable) 的分布函数 (distribution function)、概率密度函数 (probability density function) 等,为后续的统计推断 (statistical inference) 和随机过程 (stochastic processes) 的学习奠定基础。
2.1 随机变量的概念 (Concept of Random Variable)
本节定义随机变量,区分离散型和连续型随机变量,并介绍随机变量的分布函数。
2.1.1 随机变量的定义 (Definition of Random Variable)
定义 2.1.1 (随机变量) 设 \( (\Omega, \mathcal{F}, P) \) 为一个概率空间 (probability space)。如果对于每一个实数 \( x \in \mathbb{R} \),集合 \( \{ \omega \in \Omega: X(\omega) \leq x \} = \{X \leq x \} \) 都是事件,即 \( \{X \leq x \} \in \mathcal{F} \),则称定义在样本空间 \( \Omega \) 上的实值函数 \( X(\omega) \) 为随机变量 (random variable)。
简单来说,随机变量 \( X \) 是一个定义在样本空间 \( \Omega \) 上的实值函数,它将每一个基本事件 \( \omega \in \Omega \) 映射到一个实数 \( X(\omega) \)。关键在于,对于任意实数 \( x \),事件 \( \{X \leq x \} \) 的概率 \( P(X \leq x) \) 是有意义的。
示例 2.1.1 考虑抛掷一枚硬币两次的随机实验。样本空间为 \( \Omega = \{ (H, H), (H, T), (T, H), (T, T) \} \)。设 \( X \) 表示两次抛掷中正面 (Head, H) 出现的次数。则 \( X \) 是一个随机变量,其可能的取值为 \( 0, 1, 2 \)。
⚝ \( X((H, H)) = 2 \)
⚝ \( X((H, T)) = 1 \)
⚝ \( X((T, H)) = 1 \)
⚝ \( X((T, T)) = 0 \)
对于任意实数 \( x \),例如 \( x = 1.5 \),事件 \( \{X \leq 1.5 \} = \{ (T, T), (H, T), (T, H) \} \) 是一个事件,其概率可以计算。
2.1.2 离散型随机变量与连续型随机变量 (Discrete and Continuous Random Variables)
根据随机变量取值的不同,可以将其分为离散型随机变量和连续型随机变量。
定义 2.1.2 (离散型随机变量) 如果随机变量 \( X \) 的取值是有限个或可列无限个,则称 \( X \) 为离散型随机变量 (discrete random variable)。
离散型随机变量的取值可以一一列举出来,例如:
⚝ 抛掷硬币正面出现的次数 (0, 1, 2, ...)
⚝ 某段时间内到达银行窗口办理业务的顾客人数 (0, 1, 2, ...)
⚝ 一批产品中的不合格品数量 (0, 1, 2, ..., N)
定义 2.1.3 (连续型随机变量) 如果随机变量 \( X \) 的取值充满一个区间或几个区间的并集,则称 \( X \) 为连续型随机变量 (continuous random variable)。
连续型随机变量的取值是不可列的,例如:
⚝ 人的身高、体重
⚝ 灯泡的寿命
⚝ 某地区的气温
示例 2.1.2
⚝ 离散型随机变量: 掷骰子出现的点数,可能的取值为 \( \{1, 2, 3, 4, 5, 6\} \)。
⚝ 连续型随机变量: 测量房间的温度,可能的取值在一个连续的温度区间内,例如 \( [10^\circ C, 30^\circ C] \)。
2.1.3 分布函数 (Distribution Function)
为了全面描述随机变量的统计规律,引入分布函数 (distribution function) 的概念。分布函数对描述各种类型的随机变量都适用。
定义 2.1.4 (分布函数) 设 \( X \) 是一个随机变量,对于任意实数 \( x \),定义函数
\[ F_X(x) = P(X \leq x) \]
称 \( F_X(x) \) 为随机变量 \( X \) 的分布函数 (distribution function),也称为累积分布函数 (cumulative distribution function, CDF)。
分布函数 \( F_X(x) \) 表示随机变量 \( X \) 取值小于等于 \( x \) 的概率。
分布函数的性质:
设 \( F(x) \) 是随机变量 \( X \) 的分布函数,则 \( F(x) \) 具有以下基本性质:
① 非降性 (Monotonicity): 若 \( x_1 < x_2 \),则 \( F(x_1) \leq F(x_2) \)。
▮▮▮▮证明:因为 \( \{X \leq x_1 \} \subseteq \{X \leq x_2 \} \),根据概率的单调性,\( P(X \leq x_1) \leq P(X \leq x_2) \),即 \( F(x_1) \leq F(x_2) \)。
② 右连续性 (Right-continuity): \( F(x) \) 是右连续的,即 \( \lim_{h \to 0^+} F(x+h) = F(x) \)。
▮▮▮▮证明:考虑事件序列 \( A_n = \{ X \leq x + \frac{1}{n} \} \),\( n = 1, 2, \dots \)。当 \( n \to \infty \) 时,\( A_n \) 单调递减趋于 \( A = \{ X \leq x \} \)。根据概率的连续性,\( \lim_{n \to \infty} P(A_n) = P(A) \),即 \( \lim_{n \to \infty} F(x + \frac{1}{n}) = F(x) \)。因此,\( F(x) \) 右连续。
③ 极限性质 (Limit Properties):
▮▮▮▮ⓑ \( \lim_{x \to -\infty} F(x) = 0 \)
▮▮▮▮证明:考虑事件序列 \( B_n = \{ X \leq -n \} \),\( n = 1, 2, \dots \)。当 \( n \to \infty \) 时,\( B_n \) 单调递减趋于空集 \( \emptyset \)。根据概率的连续性,\( \lim_{n \to \infty} P(B_n) = P(\emptyset) = 0 \),即 \( \lim_{n \to \infty} F(-n) = 0 \),所以 \( \lim_{x \to -\infty} F(x) = 0 \)。
▮▮▮▮ⓑ \( \lim_{x \to +\infty} F(x) = 1 \)
▮▮▮▮证明:考虑事件序列 \( C_n = \{ X \leq n \} \),\( n = 1, 2, \dots \)。当 \( n \to \infty \) 时,\( C_n \) 单调递增趋于全集 \( \Omega \)。根据概率的连续性,\( \lim_{n \to \infty} P(C_n) = P(\Omega) = 1 \),即 \( \lim_{n \to \infty} F(n) = 1 \),所以 \( \lim_{x \to +\infty} F(x) = 1 \)。
④ 对于任意实数 \( x \),\( P(X = x) = F(x) - \lim_{y \to x^-} F(y) \)。特别地,\( P(X = x) = 0 \) 当且仅当 \( F(x) \) 在 \( x \) 处连续。
▮▮▮▮证明:\( P(X = x) = P(X \leq x) - P(X < x) = P(X \leq x) - P(\bigcup_{n=1}^\infty \{ X \leq x - \frac{1}{n} \} ) \)。由右连续性,\( P(X < x) = P(\bigcup_{n=1}^\infty \{ X \leq x - \frac{1}{n} \} ) = \lim_{n \to \infty} P(X \leq x - \frac{1}{n}) = \lim_{y \to x^-} F(y) \)。因此,\( P(X = x) = F(x) - \lim_{y \to x^-} F(y) \)。
⑤ 对于 \( a < b \),\( P(a < X \leq b) = F(b) - F(a) \)。
▮▮▮▮证明: \( \{X \leq b \} = \{X \leq a \} \cup \{ a < X \leq b \} \),且 \( \{X \leq a \} \) 与 \( \{ a < X \leq b \} \) 互斥。根据概率的可加性,\( P(X \leq b) = P(X \leq a) + P(a < X \leq b) \)。因此,\( P(a < X \leq b) = F(b) - F(a) \)。
2.2 离散型随机变量的分布 (Distributions of Discrete Random Variables)
本节介绍常见的离散型随机变量分布,如伯努利分布 (Bernoulli distribution)、二项分布 (binomial distribution)、泊松分布 (Poisson distribution) 等,并分析它们的性质和应用。
2.2.1 伯努利分布与二点分布 (Bernoulli and Two-Point Distribution)
定义 2.2.1 (伯努利分布/0-1分布) 若随机变量 \( X \) 只可能取 0 和 1 两个值,其概率分布为
\[ P(X = k) = \begin{cases} p, & k = 1 \\ 1-p, & k = 0 \\ 0, & \text{其他} \end{cases} \]
其中 \( 0 < p < 1 \),则称 \( X \) 服从伯努利分布 (Bernoulli distribution) 或 0-1分布 (zero-one distribution),记为 \( X \sim Bernoulli(p) \) 或 \( X \sim B(1, p) \)。
伯努利分布常用于描述单次试验中只有两种可能结果的随机现象,例如,抛掷一次硬币,结果为正面 (1) 或反面 (0);一次产品检验,结果为合格 (1) 或不合格 (0)。参数 \( p \) 表示试验成功的概率。
二点分布 (Two-Point Distribution) 是伯努利分布的另一种称呼。
性质:
⚝ 概率质量函数 (Probability Mass Function, PMF):
\[ p_X(k) = P(X = k) = p^k (1-p)^{1-k}, \quad k = 0, 1 \]
⚝ 分布函数 (CDF):
\[ F_X(x) = P(X \leq x) = \begin{cases} 0, & x < 0 \\ 1-p, & 0 \leq x < 1 \\ 1, & x \geq 1 \end{cases} \]
⚝ 期望 (Expectation): \( E(X) = 1 \cdot p + 0 \cdot (1-p) = p \)
⚝ 方差 (Variance): \( Var(X) = E(X^2) - [E(X)]^2 = (1^2 \cdot p + 0^2 \cdot (1-p)) - p^2 = p - p^2 = p(1-p) \)
2.2.2 二项分布 (Binomial Distribution)
定义 2.2.2 (二项分布) 将伯努利试验独立重复进行 \( n \) 次,每次试验成功的概率为 \( p \) (\( 0 < p < 1 \))。设 \( X \) 为 \( n \) 次试验中成功的次数,则 \( X \) 的可能取值为 \( 0, 1, 2, \dots, n \),且其概率分布为
\[ P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \dots, n \]
称 \( X \) 服从二项分布 (binomial distribution),记为 \( X \sim Binomial(n, p) \) 或 \( X \sim B(n, p) \)。其中 \( \binom{n}{k} = \frac{n!}{k!(n-k)!} \) 是二项系数 (binomial coefficient)。
二项分布描述了在 \( n \) 次独立重复的伯努利试验中,成功次数的分布。例如,抛掷硬币 \( n \) 次,正面朝上的次数;在生产过程中,抽取 \( n \) 个产品,其中不合格品的数量(假设每次抽取是独立的,且不合格率不变)。
性质:
⚝ 概率质量函数 (PMF):
\[ p_X(k) = P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, 2, \dots, n \]
⚝ 分布函数 (CDF):
\[ F_X(x) = P(X \leq x) = \sum_{k=0}^{\lfloor x \rfloor} \binom{n}{k} p^k (1-p)^{n-k} \]
其中 \( \lfloor x \rfloor \) 表示不大于 \( x \) 的最大整数。
⚝ 期望 (Expectation): \( E(X) = np \)
▮▮▮▮证明:因为 \( X \) 是 \( n \) 次独立伯努利试验成功次数之和,设 \( X_i \) 表示第 \( i \) 次试验是否成功,\( X_i \sim Bernoulli(p) \),\( i = 1, 2, \dots, n \)。则 \( X = \sum_{i=1}^n X_i \)。根据期望的线性性,\( E(X) = E(\sum_{i=1}^n X_i) = \sum_{i=1}^n E(X_i) = \sum_{i=1}^n p = np \)。
⚝ 方差 (Variance): \( Var(X) = np(1-p) \)
▮▮▮▮证明:由于 \( X_1, X_2, \dots, X_n \) 相互独立,根据方差的性质,\( Var(X) = Var(\sum_{i=1}^n X_i) = \sum_{i=1}^n Var(X_i) = \sum_{i=1}^n p(1-p) = np(1-p) \)。
应用案例:
⚝ 产品抽样检验: 假设某批产品的合格率为 90%。从中随机抽取 10 个产品进行检验,求其中恰好有 8 个合格品的概率。设 \( X \) 为 10 个产品中合格品的数量,则 \( X \sim B(10, 0.9) \)。所求概率为 \( P(X = 8) = \binom{10}{8} (0.9)^8 (0.1)^2 \approx 0.1937 \)。
2.2.3 泊松分布 (Poisson Distribution)
定义 2.2.3 (泊松分布) 若随机变量 \( X \) 的概率分布为
\[ P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots \]
其中 \( \lambda > 0 \) 是一个常数,则称 \( X \) 服从泊松分布 (Poisson distribution),记为 \( X \sim Poisson(\lambda) \) 或 \( X \sim P(\lambda) \)。
泊松分布常用于描述单位时间或单位空间内稀有事件发生的次数。例如:
⚝ 某服务窗口在单位时间内到达的顾客数
⚝ 某地区一年内发生的地震次数
⚝ 放射性物质在单位时间内衰变的原子数
⚝ 一本书一页中印刷错误的字数
参数 \( \lambda \) 表示单位时间或单位空间内事件发生的平均次数。
性质:
⚝ 概率质量函数 (PMF):
\[ p_X(k) = P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \dots \]
⚝ 分布函数 (CDF):
\[ F_X(x) = P(X \leq x) = \sum_{k=0}^{\lfloor x \rfloor} \frac{\lambda^k e^{-\lambda}}{k!} \]
⚝ 期望 (Expectation): \( E(X) = \lambda \)
▮▮▮▮证明:\( E(X) = \sum_{k=0}^\infty k \cdot P(X = k) = \sum_{k=0}^\infty k \frac{\lambda^k e^{-\lambda}}{k!} = \sum_{k=1}^\infty k \frac{\lambda^k e^{-\lambda}}{k!} = \sum_{k=1}^\infty \frac{\lambda^k e^{-\lambda}}{(k-1)!} = \lambda e^{-\lambda} \sum_{k=1}^\infty \frac{\lambda^{k-1}}{(k-1)!} \)。令 \( j = k - 1 \),则 \( E(X) = \lambda e^{-\lambda} \sum_{j=0}^\infty \frac{\lambda^j}{j!} = \lambda e^{-\lambda} \cdot e^\lambda = \lambda \)。
⚝ 方差 (Variance): \( Var(X) = \lambda \)
▮▮▮▮证明:\( E(X(X-1)) = \sum_{k=0}^\infty k(k-1) \frac{\lambda^k e^{-\lambda}}{k!} = \sum_{k=2}^\infty k(k-1) \frac{\lambda^k e^{-\lambda}}{k!} = \sum_{k=2}^\infty \frac{\lambda^k e^{-\lambda}}{(k-2)!} = \lambda^2 e^{-\lambda} \sum_{k=2}^\infty \frac{\lambda^{k-2}}{(k-2)!} \)。令 \( j = k - 2 \),则 \( E(X(X-1)) = \lambda^2 e^{-\lambda} \sum_{j=0}^\infty \frac{\lambda^j}{j!} = \lambda^2 e^{-\lambda} \cdot e^\lambda = \lambda^2 \)。
\( Var(X) = E(X^2) - [E(X)]^2 = E(X(X-1) + X) - [E(X)]^2 = E(X(X-1)) + E(X) - [E(X)]^2 = \lambda^2 + \lambda - \lambda^2 = \lambda \)。
泊松分布与二项分布的关系: 当二项分布 \( B(n, p) \) 中的 \( n \) 很大,\( p \) 很小,而 \( np = \lambda \) 适中时,二项分布可以用泊松分布近似。一般当 \( n \geq 20, p \leq 0.05 \) 时,近似效果较好。
应用案例:
⚝ 排队论: 顾客到达服务台的人数可以近似看作服从泊松分布。例如,某银行平均每小时到达 10 位顾客,可以认为顾客到达数服从 \( Poisson(10) \) 分布。
2.2.4 几何分布与负二项分布 (Geometric and Negative Binomial Distribution)
定义 2.2.4 (几何分布) 重复进行伯努利试验,每次试验成功的概率为 \( p \) (\( 0 < p < 1 \)),直到第一次成功为止。设 \( X \) 为所需的试验次数,则 \( X \) 的可能取值为 \( 1, 2, 3, \dots \),其概率分布为
\[ P(X = k) = (1-p)^{k-1} p, \quad k = 1, 2, 3, \dots \]
称 \( X \) 服从几何分布 (geometric distribution),记为 \( X \sim Geometric(p) \) 或 \( X \sim Geo(p) \)。
几何分布描述了在重复伯努利试验中,首次成功所需的试验次数。例如,反复投掷硬币直到第一次出现正面,投掷的次数;反复尝试某项操作直到成功,尝试的次数。
性质:
⚝ 概率质量函数 (PMF):
\[ p_X(k) = P(X = k) = (1-p)^{k-1} p, \quad k = 1, 2, 3, \dots \]
⚝ 分布函数 (CDF):
\[ F_X(x) = P(X \leq x) = \sum_{k=1}^{\lfloor x \rfloor} (1-p)^{k-1} p = 1 - (1-p)^{\lfloor x \rfloor}, \quad x \geq 1 \]
当 \( x < 1 \) 时,\( F_X(x) = 0 \)。
⚝ 期望 (Expectation): \( E(X) = \frac{1}{p} \)
⚝ 方差 (Variance): \( Var(X) = \frac{1-p}{p^2} \)
⚝ 无记忆性 (Memoryless Property): \( P(X > m + n | X > m) = P(X > n) \)。
▮▮▮▮这意味着,如果前 \( m \) 次试验都没有成功,那么再进行 \( n \) 次试验仍然没有成功的概率,与从头开始进行 \( n \) 次试验都没有成功的概率相同,过去的失败不影响未来的概率。
定义 2.2.5 (负二项分布/帕斯卡分布) 重复进行伯努利试验,每次试验成功的概率为 \( p \) (\( 0 < p < 1 \)),直到成功 \( r \) 次为止。设 \( X \) 为所需的试验次数,则 \( X \) 的可能取值为 \( r, r+1, r+2, \dots \),其概率分布为
\[ P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}, \quad k = r, r+1, r+2, \dots \]
称 \( X \) 服从负二项分布 (negative binomial distribution) 或 帕斯卡分布 (Pascal distribution),记为 \( X \sim NegativeBinomial(r, p) \) 或 \( X \sim NB(r, p) \)。
负二项分布描述了在重复伯努利试验中,达到 \( r \) 次成功所需的试验次数。几何分布是 \( r = 1 \) 的负二项分布的特例。
性质:
⚝ 概率质量函数 (PMF):
\[ p_X(k) = P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}, \quad k = r, r+1, r+2, \dots \]
⚝ 期望 (Expectation): \( E(X) = \frac{r}{p} \)
⚝ 方差 (Variance): \( Var(X) = \frac{r(1-p)}{p^2} \)
应用场景:
⚝ 市场营销: 预测为了达到一定数量的销售额,需要拜访客户的次数。
⚝ 生产管理: 预测为了找到 \( r \) 件合格品,需要检验的产品数量。
2.2.5 超几何分布 (Hypergeometric Distribution)
定义 2.2.6 (超几何分布) 在一个包含 \( N \) 个产品的批次中,有 \( M \) 个不合格品,\( N-M \) 个合格品。从中不放回地随机抽取 \( n \) 个产品。设 \( X \) 为抽取的 \( n \) 个产品中不合格品的数量,则 \( X \) 的可能取值为 \( 0, 1, 2, \dots, \min(n, M) \),其概率分布为
\[ P(X = k) = \frac{\binom{M}{k} \binom{N-M}{n-k}}{\binom{N}{n}}, \quad k = 0, 1, 2, \dots, \min(n, M) \]
称 \( X \) 服从超几何分布 (hypergeometric distribution),记为 \( X \sim Hypergeometric(N, M, n) \) 或 \( X \sim H(N, M, n) \)。
超几何分布描述了在不放回抽样条件下,从有限总体中抽取一定数量的样本,其中某类元素的数量分布。与二项分布的区别在于,二项分布是放回抽样或无限总体抽样,每次抽样是独立的;而超几何分布是不放回抽样,每次抽样不是独立的。
性质:
⚝ 概率质量函数 (PMF):
\[ p_X(k) = P(X = k) = \frac{\binom{M}{k} \binom{N-M}{n-k}}{\binom{N}{n}}, \quad k = 0, 1, 2, \dots, \min(n, M) \]
⚝ 期望 (Expectation): \( E(X) = n \frac{M}{N} \)
⚝ 方差 (Variance): \( Var(X) = n \frac{M}{N} \left(1 - \frac{M}{N}\right) \frac{N-n}{N-1} \)
应用案例:
⚝ 选举抽样调查: 在选举前进行民意调查,了解候选人的支持率。假设一个城市有 \( N \) 位选民,其中 \( M \) 位支持某候选人。随机抽取 \( n \) 位选民进行调查,可以利用超几何分布分析抽样结果的可靠性。
⚝ 彩票: 在彩票抽奖中,从一定数量的号码中随机抽取若干个号码,可以利用超几何分布计算中奖概率。
2.3 连续型随机变量的分布 (Distributions of Continuous Random Variables)
本节介绍常见的连续型随机变量分布,如均匀分布 (uniform distribution)、指数分布 (exponential distribution)、正态分布 (normal distribution) 等,并深入分析它们的性质和应用。
2.3.1 均匀分布 (Uniform Distribution)
定义 2.3.1 (均匀分布) 若连续型随机变量 \( X \) 的概率密度函数 (probability density function, PDF) 为
\[ f_X(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases} \]
其中 \( a < b \) 为常数,则称 \( X \) 服从均匀分布 (uniform distribution),记为 \( X \sim Uniform(a, b) \) 或 \( X \sim U(a, b) \)。
均匀分布表示在区间 \( [a, b] \) 内,随机变量 \( X \) 取任何值的可能性是相同的。概率密度函数在区间 \( [a, b] \) 上为常数, خارج 区间为 0。
性质:
⚝ 概率密度函数 (PDF):
\[ f_X(x) = \begin{cases} \frac{1}{b-a}, & a \leq x \leq b \\ 0, & \text{其他} \end{cases} \]
⚝ 分布函数 (CDF):
\[ F_X(x) = P(X \leq x) = \begin{cases} 0, & x < a \\ \frac{x-a}{b-a}, & a \leq x \leq b \\ 1, & x > b \end{cases} \]
▮▮▮▮推导:当 \( a \leq x \leq b \) 时,\( F_X(x) = \int_{-\infty}^x f_X(t) dt = \int_{a}^x \frac{1}{b-a} dt = \frac{1}{b-a} [t]_a^x = \frac{x-a}{b-a} \)。
⚝ 期望 (Expectation): \( E(X) = \frac{a+b}{2} \)
▮▮▮▮证明:\( E(X) = \int_{-\infty}^\infty x f_X(x) dx = \int_{a}^b x \frac{1}{b-a} dx = \frac{1}{b-a} [\frac{1}{2} x^2]_a^b = \frac{1}{2(b-a)} (b^2 - a^2) = \frac{b+a}{2} \)。
⚝ 方差 (Variance): \( Var(X) = \frac{(b-a)^2}{12} \)
▮▮▮▮证明:\( E(X^2) = \int_{a}^b x^2 \frac{1}{b-a} dx = \frac{1}{b-a} [\frac{1}{3} x^3]_a^b = \frac{1}{3(b-a)} (b^3 - a^3) = \frac{b^2 + ab + a^2}{3} \)。
\( Var(X) = E(X^2) - [E(X)]^2 = \frac{b^2 + ab + a^2}{3} - (\frac{a+b}{2})^2 = \frac{4(b^2 + ab + a^2) - 3(a+b)^2}{12} = \frac{b^2 - 2ab + a^2}{12} = \frac{(b-a)^2}{12} \)。
标准均匀分布: 特别地,当 \( a = 0, b = 1 \) 时,称 \( U(0, 1) \) 为标准均匀分布 (standard uniform distribution)。
应用案例:
⚝ 随机数生成: 计算机程序中常用的伪随机数生成器,通常生成服从 \( U(0, 1) \) 分布的随机数。
⚝ 模拟: 在统计模拟中,均匀分布是基础分布,其他分布的随机数可以通过均匀分布的随机数转换得到。
2.3.2 指数分布 (Exponential Distribution)
定义 2.3.2 (指数分布) 若连续型随机变量 \( X \) 的概率密度函数为
\[ f_X(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases} \]
其中 \( \lambda > 0 \) 为常数,则称 \( X \) 服从指数分布 (exponential distribution),记为 \( X \sim Exponential(\lambda) \) 或 \( X \sim Exp(\lambda) \)。参数 \( \lambda \) 称为率参数 (rate parameter)。有时也用均值参数 \( \mu = \frac{1}{\lambda} \) 来表示,记为 \( X \sim Exponential(\mu) \)。
指数分布常用于描述独立事件发生的时间间隔,例如:
⚝ 电子设备的寿命
⚝ 顾客到达服务台的时间间隔
⚝ 放射性原子衰变的时间间隔
性质:
⚝ 概率密度函数 (PDF):
\[ f_X(x) = \begin{cases} \lambda e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases} \]
⚝ 分布函数 (CDF):
\[ F_X(x) = P(X \leq x) = \begin{cases} 1 - e^{-\lambda x}, & x \geq 0 \\ 0, & x < 0 \end{cases} \]
▮▮▮▮推导:当 \( x \geq 0 \) 时,\( F_X(x) = \int_{-\infty}^x f_X(t) dt = \int_{0}^x \lambda e^{-\lambda t} dt = [-e^{-\lambda t}]_0^x = 1 - e^{-\lambda x} \)。
⚝ 期望 (Expectation): \( E(X) = \frac{1}{\lambda} = \mu \)
▮▮▮▮证明:\( E(X) = \int_{0}^\infty x \lambda e^{-\lambda x} dx \)。使用分部积分,令 \( u = x, dv = \lambda e^{-\lambda x} dx \),则 \( du = dx, v = -e^{-\lambda x} \)。
\( E(X) = [-xe^{-\lambda x}]_0^\infty - \int_{0}^\infty -e^{-\lambda x} dx = 0 + \int_{0}^\infty e^{-\lambda x} dx = [-\frac{1}{\lambda} e^{-\lambda x}]_0^\infty = \frac{1}{\lambda} \)。
⚝ 方差 (Variance): \( Var(X) = \frac{1}{\lambda^2} = \mu^2 \)
▮▮▮▮证明:\( E(X^2) = \int_{0}^\infty x^2 \lambda e^{-\lambda x} dx \)。再次使用分部积分,令 \( u = x^2, dv = \lambda e^{-\lambda x} dx \),则 \( du = 2x dx, v = -e^{-\lambda x} \)。
\( E(X^2) = [-x^2 e^{-\lambda x}]_0^\infty - \int_{0}^\infty -e^{-\lambda x} 2x dx = 0 + 2 \int_{0}^\infty x e^{-\lambda x} dx = \frac{2}{\lambda} \int_{0}^\infty x \lambda e^{-\lambda x} dx = \frac{2}{\lambda} E(X) = \frac{2}{\lambda^2} \)。
\( Var(X) = E(X^2) - [E(X)]^2 = \frac{2}{\lambda^2} - (\frac{1}{\lambda})^2 = \frac{1}{\lambda^2} \)。
⚝ 无记忆性 (Memoryless Property): \( P(X > s + t | X > s) = P(X > t) \)。
▮▮▮▮证明:\( P(X > s + t | X > s) = \frac{P(X > s + t, X > s)}{P(X > s)} = \frac{P(X > s + t)}{P(X > s)} = \frac{e^{-\lambda(s+t)}}{e^{-\lambda s}} = e^{-\lambda t} = P(X > t) \)。
▮▮▮▮无记忆性表明,对于寿命为指数分布的设备,在已经使用了时间 \( s \) 的条件下,再使用时间 \( t \) 以上的概率,与从新设备开始使用时间 \( t \) 以上的概率相同,设备过去的寿命不影响未来的寿命分布。
指数分布与泊松分布的关系: 若单位时间内到达服务台的顾客数服从泊松分布,则相邻顾客到达的时间间隔服从指数分布。泊松过程的等待时间服从指数分布。
应用案例:
⚝ 寿命分析: 电子元件、机器零件的寿命常近似服从指数分布。
⚝ 排队论: 服务时间、顾客到达间隔时间常假设服从指数分布。
2.3.3 正态分布 (Normal Distribution)
定义 2.3.3 (正态分布/高斯分布) 若连续型随机变量 \( X \) 的概率密度函数为
\[ f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < +\infty \]
其中 \( \mu \) 和 \( \sigma > 0 \) 为常数,则称 \( X \) 服从正态分布 (normal distribution) 或 高斯分布 (Gaussian distribution),记为 \( X \sim Normal(\mu, \sigma^2) \) 或 \( X \sim N(\mu, \sigma^2) \)。参数 \( \mu \) 是均值 (mean),\( \sigma^2 \) 是方差 (variance),\( \sigma \) 是标准差 (standard deviation)。
正态分布是概率统计中最重要、最常用的分布之一。许多自然现象和社会现象的随机变量都近似服从正态分布,例如,人的身高、体重、考试成绩、测量误差等。
性质:
⚝ 概率密度函数 (PDF): 钟形曲线,关于 \( x = \mu \) 对称,在 \( x = \mu \) 处取得最大值 \( \frac{1}{\sqrt{2\pi}\sigma} \)。曲线的形状由 \( \mu \) 和 \( \sigma \) 决定,\( \mu \) 决定中心位置,\( \sigma \) 决定曲线的陡峭程度。
⚝ 分布函数 (CDF):
\[ F_X(x) = P(X \leq x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt \]
正态分布的分布函数没有解析表达式,通常用标准正态分布表或统计软件计算。
⚝ 期望 (Expectation): \( E(X) = \mu \)
⚝ 方差 (Variance): \( Var(X) = \sigma^2 \)
标准正态分布: 当 \( \mu = 0, \sigma = 1 \) 时,称 \( N(0, 1) \) 为标准正态分布 (standard normal distribution)。其概率密度函数记为 \( \phi(x) \),分布函数记为 \( \Phi(x) \)。
\[ \phi(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}}, \quad \Phi(x) = \int_{-\infty}^x \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} dt \]
正态分布的标准化: 若 \( X \sim N(\mu, \sigma^2) \),则 \( Z = \frac{X - \mu}{\sigma} \sim N(0, 1) \)。
▮▮▮▮通过标准化,可以将一般的正态分布转化为标准正态分布,方便计算概率。
中心极限定理 (Central Limit Theorem, CLT): 大量相互独立的、同分布的随机变量之和的分布,在一定条件下,近似于正态分布。中心极限定理是正态分布应用广泛的重要理论基础。
应用案例:
⚝ 统计推断: 许多统计方法,如参数估计、假设检验、回归分析等,都基于正态分布的假设。
⚝ 误差分析: 测量误差、实验误差等通常近似服从正态分布。
⚝ 金融建模: 股票价格波动、收益率等有时用正态分布或对数正态分布建模。
2.3.4 伽玛分布与卡方分布 (Gamma and Chi-Square Distribution)
定义 2.3.4 (伽玛分布) 若连续型随机变量 \( X \) 的概率密度函数为
\[ f_X(x) = \begin{cases} \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}, & x > 0 \\ 0, & x \leq 0 \end{cases} \]
其中 \( \alpha > 0 \) 为形状参数 (shape parameter),\( \beta > 0 \) 为尺度参数 (rate parameter),\( \Gamma(\alpha) = \int_0^\infty t^{\alpha-1} e^{-t} dt \) 是伽玛函数 (Gamma function)。称 \( X \) 服从伽玛分布 (gamma distribution),记为 \( X \sim Gamma(\alpha, \beta) \) 或 \( X \sim \Gamma(\alpha, \beta) \)。
伽玛分布是一族分布,通过调整形状参数 \( \alpha \) 和尺度参数 \( \beta \),可以得到不同形状的分布。
性质:
⚝ 概率密度函数 (PDF): 如定义所示。
⚝ 期望 (Expectation): \( E(X) = \frac{\alpha}{\beta} \)
⚝ 方差 (Variance): \( Var(X) = \frac{\alpha}{\beta^2} \)
⚝ 可加性 (Additivity): 若 \( X_1, X_2, \dots, X_n \) 相互独立,且 \( X_i \sim Gamma(\alpha_i, \beta) \),则 \( \sum_{i=1}^n X_i \sim Gamma(\sum_{i=1}^n \alpha_i, \beta) \)。
指数分布与伽玛分布的关系: 当 \( \alpha = 1 \) 时,\( Gamma(1, \lambda) \) 就是 \( Exponential(\lambda) \)。
定义 2.3.5 (卡方分布) 若随机变量 \( X \) 服从自由度为 \( n \) 的卡方分布 (chi-square distribution),记为 \( X \sim \chi^2(n) \),其概率密度函数为
\[ f_X(x) = \begin{cases} \frac{1}{2^{n/2} \Gamma(n/2)} x^{n/2-1} e^{-x/2}, & x > 0 \\ 0, & x \leq 0 \end{cases} \]
卡方分布是伽玛分布的一个特例,即 \( \chi^2(n) = Gamma(\frac{n}{2}, \frac{1}{2}) \)。其中 \( n \) 为正整数,称为自由度 (degrees of freedom)。
卡方分布的构造: 若 \( Z_1, Z_2, \dots, Z_n \) 相互独立,且都服从标准正态分布 \( N(0, 1) \),则 \( X = \sum_{i=1}^n Z_i^2 \sim \chi^2(n) \)。
卡方分布的性质:
⚝ 概率密度函数 (PDF): 如定义所示,形状由自由度 \( n \) 决定。
⚝ 期望 (Expectation): \( E(X) = n \)
⚝ 方差 (Variance): \( Var(X) = 2n \)
⚝ 可加性 (Additivity): 若 \( X_1, X_2 \) 相互独立,且 \( X_1 \sim \chi^2(n_1), X_2 \sim \chi^2(n_2) \),则 \( X_1 + X_2 \sim \chi^2(n_1 + n_2) \)。
应用案例:
⚝ 统计推断: 卡方分布在假设检验、置信区间估计中广泛应用,例如,单样本方差的假设检验、拟合优度检验等。
⚝ 质量控制: 用于检验产品质量的波动性。
2.3.5 Beta 分布与 t 分布和 F 分布 (Beta, t, and F Distribution)
Beta 分布 (Beta Distribution):
Beta 分布的概率密度函数为
\[ f_X(x) = \begin{cases} \frac{1}{B(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1}, & 0 \leq x \leq 1 \\ 0, & \text{其他} \end{cases} \]
其中 \( \alpha > 0, \beta > 0 \),\( B(\alpha, \beta) = \frac{\Gamma(\alpha) \Gamma(\beta)}{\Gamma(\alpha+\beta)} \) 是 Beta 函数 (Beta function)。记为 \( X \sim Beta(\alpha, \beta) \)。
Beta 分布的取值范围在 \( [0, 1] \) 区间,常用于描述比例、概率等随机变量的分布。例如,产品的合格率、人群的支持率等。
t 分布 (t-distribution):
设 \( Z \sim N(0, 1), Y \sim \chi^2(n) \),且 \( Z \) 与 \( Y \) 独立,则随机变量 \( T = \frac{Z}{\sqrt{Y/n}} \) 服从自由度为 \( n \) 的 t 分布,记为 \( T \sim t(n) \)。
t 分布的形状类似于正态分布,但尾部更厚重,自由度 \( n \) 越大,t 分布越接近标准正态分布。t 分布在小样本均值检验、置信区间估计中应用广泛。
F 分布 (F-distribution):
设 \( U \sim \chi^2(m), V \sim \chi^2(n) \),且 \( U \) 与 \( V \) 独立,则随机变量 \( F = \frac{U/m}{V/n} \) 服从自由度为 \( (m, n) \) 的 F 分布,记为 \( F \sim F(m, n) \)。
F 分布主要用于方差分析、回归分析中的 F 检验,以及两个样本方差比的假设检验。
应用场景:
⚝ Beta 分布: 用于描述概率、比例等取值在 \( [0, 1] \) 区间的随机变量,例如贝叶斯统计中的先验分布。
⚝ t 分布: 用于小样本均值推断,例如,当总体方差未知时,用 t 检验代替 z 检验。
⚝ F 分布: 用于比较两个或多个总体的方差是否相等,例如,方差分析。
3. 随机变量的数字特征 (Numerical Characteristics of Random Variables)
Summary
本章介绍随机变量的期望 (expectation)、方差 (variance)、协方差 (covariance)、相关系数 (correlation coefficient) 等数字特征,用于描述随机变量的中心位置和离散程度,为统计推断提供基础工具。
3.1 期望 (Expectation)
Summary
定义随机变量的期望,讨论期望的性质和计算方法。
3.1.1 离散型随机变量的期望 (Expectation of Discrete Random Variable)
Summary
给出离散型随机变量期望的定义和计算公式,并通过例题进行说明。
对于离散型随机变量 \(X\),设其所有可能取值为 \(x_1, x_2, \ldots\),对应的概率为 \(P(X=x_i) = p_i\),\(i=1, 2, \ldots\)。如果级数 \(\sum_{i=1}^{\infty} x_i p_i\) 绝对收敛,则称级数 \(\sum_{i=1}^{\infty} x_i p_i\) 为随机变量 \(X\) 的数学期望 (mathematical expectation) 或期望 (expectation),简称均值 (mean),记为 \(E(X)\) 或 \(\mu\),即:
\[ E(X) = \sum_{i=1}^{\infty} x_i p_i = \sum_{i} x_i P(X=x_i) \]
期望 \(E(X)\) 刻画了随机变量 \(X\) 取值的平均水平。在实际问题中,期望值可以理解为大量重复试验下,随机变量取值的平均结果。
例 3.1 掷一枚均匀的骰子,设随机变量 \(X\) 表示掷出的点数,求 \(X\) 的期望 \(E(X)\)。
解: 骰子的点数可能取值为 1, 2, 3, 4, 5, 6,且每个点数出现的概率均为 \(\frac{1}{6}\)。因此,随机变量 \(X\) 的期望为:
\[ E(X) = \sum_{i=1}^{6} i \cdot P(X=i) = 1 \cdot \frac{1}{6} + 2 \cdot \frac{1}{6} + 3 \cdot \frac{1}{6} + 4 \cdot \frac{1}{6} + 5 \cdot \frac{1}{6} + 6 \cdot \frac{1}{6} = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = 3.5 \]
这表明,在大量重复掷骰子的试验中,平均每次掷出的点数接近 3.5。
例 3.2 考虑伯努利分布 (Bernoulli distribution),设随机变量 \(X \sim B(1, p)\),即 \(X\) 服从参数为 \(p\) 的 0-1 分布,\(P(X=1) = p\),\(P(X=0) = 1-p\)。求 \(E(X)\)。
解: 根据期望的定义:
\[ E(X) = 0 \cdot P(X=0) + 1 \cdot P(X=1) = 0 \cdot (1-p) + 1 \cdot p = p \]
因此,伯努利分布的期望为 \(p\)。
3.1.2 连续型随机变量的期望 (Expectation of Continuous Random Variable)
Summary
给出连续型随机变量期望的定义和计算公式,并通过例题进行说明。
对于连续型随机变量 \(X\),设其概率密度函数 (probability density function, PDF) 为 \(f(x)\)。如果积分 \(\int_{-\infty}^{\infty} x f(x) dx\) 绝对收敛,则称积分 \(\int_{-\infty}^{\infty} x f(x) dx\) 为随机变量 \(X\) 的数学期望 (mathematical expectation) 或期望 (expectation),简称均值 (mean),记为 \(E(X)\) 或 \(\mu\),即:
\[ E(X) = \int_{-\infty}^{\infty} x f(x) dx \]
期望 \(E(X)\) 同样刻画了连续型随机变量 \(X\) 取值的平均水平。
例 3.3 考虑均匀分布 (uniform distribution) \(X \sim U(a, b)\),其概率密度函数为:
\[ f(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b \\ 0, & \text{其他} \end{cases} \]
求 \(E(X)\)。
解: 根据期望的定义:
\[ E(X) = \int_{-\infty}^{\infty} x f(x) dx = \int_{a}^{b} x \cdot \frac{1}{b-a} dx = \frac{1}{b-a} \int_{a}^{b} x dx = \frac{1}{b-a} \left[ \frac{x^2}{2} \right]_{a}^{b} = \frac{1}{b-a} \cdot \frac{b^2 - a^2}{2} = \frac{b+a}{2} \]
均匀分布 \(U(a, b)\) 的期望为区间中点 \(\frac{a+b}{2}\),这符合均匀分布的直观理解。
例 3.4 考虑指数分布 (exponential distribution) \(X \sim Exp(\lambda)\),其概率密度函数为:
\[ f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \ge 0 \\ 0, & x < 0 \end{cases} \]
其中 \(\lambda > 0\) 为参数。求 \(E(X)\)。
解: 根据期望的定义:
\[ E(X) = \int_{-\infty}^{\infty} x f(x) dx = \int_{0}^{\infty} x \lambda e^{-\lambda x} dx \]
使用分部积分法,令 \(u = x\),\(dv = \lambda e^{-\lambda x} dx\),则 \(du = dx\),\(v = -e^{-\lambda x}\)。
\[ E(X) = \left[ -x e^{-\lambda x} \right]_{0}^{\infty} - \int_{0}^{\infty} -e^{-\lambda x} dx = \lim_{x \to \infty} (-x e^{-\lambda x}) - (0) + \int_{0}^{\infty} e^{-\lambda x} dx \]
由于 \(\lim_{x \to \infty} x e^{-\lambda x} = 0\) (可以使用洛必达法则验证),且 \(\int_{0}^{\infty} e^{-\lambda x} dx = \left[ -\frac{1}{\lambda} e^{-\lambda x} \right]_{0}^{\infty} = 0 - (-\frac{1}{\lambda}) = \frac{1}{\lambda}\)。
因此,指数分布 \(Exp(\lambda)\) 的期望为 \(E(X) = \frac{1}{\lambda}\)。
3.1.3 期望的性质 (Properties of Expectation)
Summary
介绍期望的线性性质等重要性质。
期望具有许多重要的性质,这些性质在概率统计的理论推导和实际应用中都非常有用。下面介绍期望的几个基本性质。
① 线性性质 (Linearity):设 \(X\) 和 \(Y\) 是随机变量,\(a\) 和 \(b\) 是常数,则
\[ E(aX + bY) = aE(X) + bE(Y) \]
更一般地,设 \(X_1, X_2, \ldots, X_n\) 是一组随机变量,\(c_1, c_2, \ldots, c_n\) 是一组常数,则
\[ E\left( \sum_{i=1}^{n} c_i X_i \right) = \sum_{i=1}^{n} c_i E(X_i) \]
特别地,当 \(b=0\) 时,\(E(aX) = aE(X)\);当 \(a=0\) 时,\(E(bY) = bE(Y) = b\) (如果 \(Y=1\) 是常数)。
② 常数的期望:若 \(C\) 为常数,则 \(E(C) = C\)。
③ 非负随机变量的期望非负:若 \(P(X \ge 0) = 1\),且 \(E(X)\) 存在,则 \(E(X) \ge 0\)。
④ 单调性:若 \(P(X \ge Y) = 1\),且 \(E(X)\) 和 \(E(Y)\) 存在,则 \(E(X) \ge E(Y)\)。
⑤ 乘积的期望 (仅当独立时):若随机变量 \(X\) 和 \(Y\) 相互独立,且 \(E(X)\) 和 \(E(Y)\) 都存在,则
\[ E(XY) = E(X) E(Y) \]
需要强调的是,此性质只在 \(X\) 和 \(Y\) 相互独立时成立。对于不独立的随机变量,\(E(XY) \ne E(X) E(Y)\) 一般不成立。
例 3.5 设随机变量 \(X\) 服从均值为 \(\mu\),方差为 \(\sigma^2\) 的分布,令 \(Y = aX + b\),其中 \(a, b\) 为常数,求 \(E(Y)\)。
解: 利用期望的线性性质:
\[ E(Y) = E(aX + b) = aE(X) + E(b) = a\mu + b \]
因此,\(Y = aX + b\) 的期望为 \(a\mu + b\)。
3.2 方差与标准差 (Variance and Standard Deviation)
Summary
定义方差和标准差,讨论它们的性质和计算方法,以及切比雪夫不等式。
3.2.1 方差的定义与计算 (Definition and Calculation of Variance)
Summary
给出方差的定义和计算公式,包括常用计算公式。
方差 (variance) 是衡量随机变量取值相对于其期望值 \(E(X)\) 的离散程度的一个重要数字特征。对于随机变量 \(X\),其方差定义为:
\[ Var(X) = E\left[ (X - E(X))^2 \right] \]
记 \(\mu = E(X)\),则方差也可以写作 \(Var(X) = E\left[ (X - \mu)^2 \right]\)。方差描述了随机变量 \(X\) 的取值在其期望值周围的分散程度。方差越大,表示随机变量的取值越分散;方差越小,表示随机变量的取值越集中在其期望值附近。
离散型随机变量的方差:若离散型随机变量 \(X\) 的分布列为 \(P(X=x_i) = p_i\),则其方差为:
\[ Var(X) = \sum_{i} (x_i - E(X))^2 p_i \]
连续型随机变量的方差:若连续型随机变量 \(X\) 的概率密度函数为 \(f(x)\),则其方差为:
\[ Var(X) = \int_{-\infty}^{\infty} (x - E(X))^2 f(x) dx \]
在实际计算方差时,常用以下计算公式,它通常更方便计算:
\[ Var(X) = E(X^2) - [E(X)]^2 \]
证明如下:
\[ Var(X) = E\left[ (X - E(X))^2 \right] = E\left[ X^2 - 2XE(X) + (E(X))^2 \right] \]
利用期望的线性性质:
\[ Var(X) = E(X^2) - E[2XE(X)] + E[(E(X))^2] = E(X^2) - 2E(X)E(X) + (E(X))^2 = E(X^2) - [E(X)]^2 \]
因此,计算方差通常可以先分别计算 \(E(X)\) 和 \(E(X^2)\),再利用上述公式求得方差。
例 3.6 求伯努利分布 \(X \sim B(1, p)\) 的方差 \(Var(X)\)。
解: 我们已经知道 \(E(X) = p\)。现在计算 \(E(X^2)\)。由于 \(X\) 只能取 0 和 1,所以 \(X^2\) 也只能取 0 和 1,且 \(X^2 = X\)。因此,\(E(X^2) = E(X) = p\)。
根据方差的计算公式:
\[ Var(X) = E(X^2) - [E(X)]^2 = p - p^2 = p(1-p) \]
所以,伯努利分布 \(B(1, p)\) 的方差为 \(p(1-p)\)。
例 3.7 求均匀分布 \(X \sim U(a, b)\) 的方差 \(Var(X)\)。
解: 我们已经知道 \(E(X) = \frac{a+b}{2}\)。现在计算 \(E(X^2)\)。
\[ E(X^2) = \int_{a}^{b} x^2 \cdot \frac{1}{b-a} dx = \frac{1}{b-a} \int_{a}^{b} x^2 dx = \frac{1}{b-a} \left[ \frac{x^3}{3} \right]_{a}^{b} = \frac{1}{b-a} \cdot \frac{b^3 - a^3}{3} = \frac{b^2 + ab + a^2}{3} \]
根据方差的计算公式:
\[ Var(X) = E(X^2) - [E(X)]^2 = \frac{b^2 + ab + a^2}{3} - \left( \frac{a+b}{2} \right)^2 = \frac{b^2 + ab + a^2}{3} - \frac{a^2 + 2ab + b^2}{4} \]
通分并化简:
\[ Var(X) = \frac{4(b^2 + ab + a^2) - 3(a^2 + 2ab + b^2)}{12} = \frac{4b^2 + 4ab + 4a^2 - 3a^2 - 6ab - 3b^2}{12} = \frac{a^2 - 2ab + b^2}{12} = \frac{(b-a)^2}{12} \]
因此,均匀分布 \(U(a, b)\) 的方差为 \(\frac{(b-a)^2}{12}\)。
例 3.8 求指数分布 \(X \sim Exp(\lambda)\) 的方差 \(Var(X)\)。
解: 我们已经知道 \(E(X) = \frac{1}{\lambda}\)。现在计算 \(E(X^2)\)。
\[ E(X^2) = \int_{0}^{\infty} x^2 \lambda e^{-\lambda x} dx \]
使用分部积分法,令 \(u = x^2\),\(dv = \lambda e^{-\lambda x} dx\),则 \(du = 2x dx\),\(v = -e^{-\lambda x}\)。
\[ E(X^2) = \left[ -x^2 e^{-\lambda x} \right]_{0}^{\infty} - \int_{0}^{\infty} -e^{-\lambda x} \cdot 2x dx = 0 + 2 \int_{0}^{\infty} x e^{-\lambda x} dx = 2 \int_{0}^{\infty} x e^{-\lambda x} dx \]
注意到 \(\int_{0}^{\infty} x e^{-\lambda x} dx = \frac{1}{\lambda} E(X) = \frac{1}{\lambda} \cdot \frac{1}{\lambda} = \frac{1}{\lambda^2}\)。因此,\(E(X^2) = 2 \cdot \frac{1}{\lambda^2} = \frac{2}{\lambda^2}\)。
根据方差的计算公式:
\[ Var(X) = E(X^2) - [E(X)]^2 = \frac{2}{\lambda^2} - \left( \frac{1}{\lambda} \right)^2 = \frac{2}{\lambda^2} - \frac{1}{\lambda^2} = \frac{1}{\lambda^2} \]
所以,指数分布 \(Exp(\lambda)\) 的方差为 \(\frac{1}{\lambda^2}\)。
3.2.2 标准差 (Standard Deviation)
Summary
介绍标准差的概念及其与方差的关系。
标准差 (standard deviation) 是方差的算术平方根,记为 \(SD(X)\) 或 \(\sigma\),即:
\[ SD(X) = \sqrt{Var(X)} = \sigma \]
标准差也反映了随机变量取值的离散程度,与随机变量 \(X\) 的单位相同,因此在实际应用中,标准差比方差更常用,因为其单位与随机变量本身单位一致,更易于解释。
例 3.9 求伯努利分布 \(X \sim B(1, p)\) 的标准差。
解: 伯努利分布的方差为 \(Var(X) = p(1-p)\),因此其标准差为:
\[ SD(X) = \sqrt{p(1-p)} \]
例 3.10 求均匀分布 \(X \sim U(a, b)\) 的标准差。
解: 均匀分布的方差为 \(Var(X) = \frac{(b-a)^2}{12}\),因此其标准差为:
\[ SD(X) = \sqrt{\frac{(b-a)^2}{12}} = \frac{b-a}{\sqrt{12}} = \frac{b-a}{2\sqrt{3}} = \frac{\sqrt{3}(b-a)}{6} \]
例 3.11 求指数分布 \(X \sim Exp(\lambda)\) 的标准差。
解: 指数分布的方差为 \(Var(X) = \frac{1}{\lambda^2}\),因此其标准差为:
\[ SD(X) = \sqrt{\frac{1}{\lambda^2}} = \frac{1}{\lambda} \]
对于指数分布,其期望和标准差相等。
3.2.3 方差的性质 (Properties of Variance)
Summary
讨论方差的重要性质。
方差也具有一些重要的性质,这些性质在概率统计分析中非常有用。
① 非负性:对于任何随机变量 \(X\),\(Var(X) \ge 0\)。且 \(Var(X) = 0\) 当且仅当 \(P(X = c) = 1\) (其中 \(c\) 为常数),即 \(X\) 以概率 1 取常数值。
② 常数的方差:若 \(C\) 为常数,则 \(Var(C) = 0\)。
③ 线性变换的方差:设 \(X\) 是随机变量,\(a\) 和 \(b\) 是常数,则
\[ Var(aX + b) = a^2 Var(X) \]
证明如下:
\[ Var(aX + b) = E\left[ ( (aX + b) - E(aX + b) )^2 \right] = E\left[ ( (aX + b) - (aE(X) + b) )^2 \right] = E\left[ (aX - aE(X))^2 \right] \]
\[ = E\left[ a^2 (X - E(X))^2 \right] = a^2 E\left[ (X - E(X))^2 \right] = a^2 Var(X) \]
特别地,当 \(a = -1\) 时,\(Var(-X + b) = Var(-X) = (-1)^2 Var(X) = Var(X)\)。当 \(b = 0\) 时,\(Var(aX) = a^2 Var(X)\)。
④ 两个独立随机变量和的方差:若随机变量 \(X\) 和 \(Y\) 相互独立,则
\[ Var(X + Y) = Var(X) + Var(Y) \]
更一般地,若 \(X_1, X_2, \ldots, X_n\) 是一组相互独立的随机变量,则
\[ Var\left( \sum_{i=1}^{n} X_i \right) = \sum_{i=1}^{n} Var(X_i) \]
需要强调的是,此性质只在 \(X\) 和 \(Y\) 相互独立时成立。对于不独立的随机变量,\(Var(X + Y) \ne Var(X) + Var(Y)\) 一般不成立。对于不独立的随机变量,有更一般的公式:
\[ Var(X + Y) = Var(X) + Var(Y) + 2Cov(X, Y) \]
其中 \(Cov(X, Y)\) 是 \(X\) 和 \(Y\) 的协方差 (covariance),将在下一节介绍。
例 3.12 设随机变量 \(X\) 服从均值为 \(\mu\),方差为 \(\sigma^2\) 的分布,令 \(Y = aX + b\),其中 \(a, b\) 为常数,求 \(Var(Y)\)。
解: 利用方差的线性变换性质:
\[ Var(Y) = Var(aX + b) = a^2 Var(X) = a^2 \sigma^2 \]
因此,\(Y = aX + b\) 的方差为 \(a^2 \sigma^2\)。
3.2.4 切比雪夫不等式 (Chebyshev's Inequality)
Summary
介绍切比雪夫不等式及其在概率估计中的应用。
切比雪夫不等式 (Chebyshev's Inequality) 提供了一个用随机变量的期望和方差来估计概率的通用方法,它对随机变量的分布没有任何要求,只需知道期望和方差即可。切比雪夫不等式描述了随机变量的取值偏离其期望的程度的概率上限。
切比雪夫不等式:设随机变量 \(X\) 的期望为 \(E(X) = \mu\),方差为 \(Var(X) = \sigma^2\)。对于任意正数 \(\epsilon > 0\),以下不等式成立:
\[ P(|X - \mu| \ge \epsilon) \le \frac{Var(X)}{\epsilon^2} = \frac{\sigma^2}{\epsilon^2} \]
或者等价地,
\[ P(|X - \mu| < \epsilon) \ge 1 - \frac{Var(X)}{\epsilon^2} = 1 - \frac{\sigma^2}{\epsilon^2} \]
切比雪夫不等式说明,随机变量 \(X\) 的取值偏离其期望值 \(\mu\) 超过 \(\epsilon\) 的概率不会超过 \(\frac{\sigma^2}{\epsilon^2}\)。当 \(\epsilon\) 增大或 \(\sigma^2\) 减小时,概率上限会减小,这符合直观理解。
切比雪夫不等式在理论上非常重要,因为它提供了一个普适的概率界限估计方法,但在实际应用中,由于其界限通常较为宽松,因此在对概率进行精确估计时,通常需要更精细的方法,例如当随机变量的分布已知时,可以直接计算概率值,得到更精确的结果。
例 3.13 设随机变量 \(X\) 的期望 \(E(X) = 10\),方差 \(Var(X) = 4\)。利用切比雪夫不等式估计 \(P(6 < X < 14)\) 的下界。
解: 我们要求 \(P(6 < X < 14) = P(|X - 10| < 4)\)。这里 \(\mu = 10\),\(\epsilon = 4\),\(\sigma^2 = 4\)。根据切比雪夫不等式:
\[ P(|X - 10| < 4) \ge 1 - \frac{Var(X)}{4^2} = 1 - \frac{4}{16} = 1 - \frac{1}{4} = \frac{3}{4} = 0.75 \]
因此,\(P(6 < X < 14)\) 的下界为 0.75。这意味着随机变量 \(X\) 取值在区间 \((6, 14)\) 内的概率至少为 0.75。
3.3 协方差与相关系数 (Covariance and Correlation Coefficient)
Summary
介绍协方差和相关系数,用于描述两个随机变量之间的线性相关程度。
3.3.1 协方差 (Covariance)
Summary
定义协方差,讨论其性质和计算方法。
协方差 (covariance) 是衡量两个随机变量 \(X\) 和 \(Y\) 联合变化程度的一个数字特征。协方差描述了两个随机变量之间线性相关性的方向。
协方差的定义:随机变量 \(X\) 和 \(Y\) 的协方差定义为:
\[ Cov(X, Y) = E\left[ (X - E(X))(Y - E(Y)) \right] \]
记 \(\mu_X = E(X)\),\(\mu_Y = E(Y)\),则协方差也可以写作 \(Cov(X, Y) = E\left[ (X - \mu_X)(Y - \mu_Y) \right]\)。
协方差的计算公式:类似于方差的计算公式,协方差也有一个更方便计算的公式:
\[ Cov(X, Y) = E(XY) - E(X)E(Y) \]
证明如下:
\[ Cov(X, Y) = E\left[ (X - E(X))(Y - E(Y)) \right] = E\left[ XY - XE(Y) - YE(X) + E(X)E(Y) \right] \]
利用期望的线性性质:
\[ Cov(X, Y) = E(XY) - E[XE(Y)] - E[YE(X)] + E[E(X)E(Y)] = E(XY) - E(X)E(Y) - E(Y)E(X) + E(X)E(Y) = E(XY) - E(X)E(Y) \]
因此,计算协方差通常可以先分别计算 \(E(X)\),\(E(Y)\),\(E(XY)\),再利用上述公式求得协方差。
协方差的性质:
① 对称性:\(Cov(X, Y) = Cov(Y, X)\)。
② 对常数的协方差:\(Cov(X, c) = 0\),其中 \(c\) 为常数。
③ 线性性质:设 \(a, b, c, d\) 为常数,\(X, Y, Z, W\) 为随机变量,则
▮▮▮▮⚝ \(Cov(aX + b, cY + d) = ac Cov(X, Y)\)
▮▮▮▮⚝ \(Cov(X + Z, Y) = Cov(X, Y) + Cov(Z, Y)\)
▮▮▮▮⚝ \(Cov(X, Y + W) = Cov(X, Y) + Cov(X, W)\)
④ 方差是协方差的特殊情况:\(Cov(X, X) = Var(X)\)。
⑤ 若 \(X\) 和 \(Y\) 相互独立,则 \(Cov(X, Y) = 0\)。反之不成立,即 \(Cov(X, Y) = 0\) 不能推出 \(X\) 和 \(Y\) 相互独立。当 \(Cov(X, Y) = 0\) 时,称 \(X\) 和 \(Y\) 不相关 (uncorrelated)。
协方差的符号意义:
⚝ 若 \(Cov(X, Y) > 0\),表示 \(X\) 增大时,\(Y\) 倾向于也增大,反之亦然,称 \(X\) 和 \(Y\) 正相关 (positively correlated)。
⚝ 若 \(Cov(X, Y) < 0\),表示 \(X\) 增大时,\(Y\) 倾向于减小,反之亦然,称 \(X\) 和 \(Y\) 负相关 (negatively correlated)。
⚝ 若 \(Cov(X, Y) = 0\),表示 \(X\) 和 \(Y\) 不存在线性相关关系,称 \(X\) 和 \(Y\) 不相关 (uncorrelated)。
例 3.14 设二维离散型随机变量 \((X, Y)\) 的联合分布列如下:
\(X \backslash Y\) | 1 | 2 | 3 |
---|---|---|---|
1 | 1/12 | 1/6 | 1/12 |
2 | 1/6 | 1/4 | 1/6 |
求 \(Cov(X, Y)\)。
解: 首先计算边缘分布和期望。
\(P(X=1) = \frac{1}{12} + \frac{1}{6} + \frac{1}{12} = \frac{4}{12} = \frac{1}{3}\),\(P(X=2) = \frac{1}{6} + \frac{1}{4} + \frac{1}{6} = \frac{2+3+2}{12} = \frac{7}{12}\)。
\(E(X) = 1 \cdot \frac{1}{3} + 2 \cdot \frac{7}{12} = \frac{4+14}{12} = \frac{18}{12} = \frac{3}{2} = 1.5\)。
\(P(Y=1) = \frac{1}{12} + \frac{1}{6} = \frac{3}{12} = \frac{1}{4}\),\(P(Y=2) = \frac{1}{6} + \frac{1}{4} = \frac{2+3}{12} = \frac{5}{12}\),\(P(Y=3) = \frac{1}{12} + \frac{1}{6} = \frac{3}{12} = \frac{1}{4}\)。
\(E(Y) = 1 \cdot \frac{1}{4} + 2 \cdot \frac{5}{12} + 3 \cdot \frac{1}{4} = \frac{3+10+9}{12} = \frac{22}{12} = \frac{11}{6} \approx 1.833\)。
\(E(XY) = \sum_{i} \sum_{j} x_i y_j P(X=x_i, Y=y_j) = 1 \cdot 1 \cdot \frac{1}{12} + 1 \cdot 2 \cdot \frac{1}{6} + 1 \cdot 3 \cdot \frac{1}{12} + 2 \cdot 1 \cdot \frac{1}{6} + 2 \cdot 2 \cdot \frac{1}{4} + 2 \cdot 3 \cdot \frac{1}{6}\)
\(E(XY) = \frac{1}{12} + \frac{2}{6} + \frac{3}{12} + \frac{2}{6} + \frac{4}{4} + \frac{6}{6} = \frac{1+4+3+4+12+12}{12} = \frac{36}{12} = 3\)。
\(Cov(X, Y) = E(XY) - E(X)E(Y) = 3 - \frac{3}{2} \cdot \frac{11}{6} = 3 - \frac{33}{12} = \frac{36 - 33}{12} = \frac{3}{12} = \frac{1}{4} = 0.25\)。
由于 \(Cov(X, Y) = 0.25 > 0\),所以 \(X\) 和 \(Y\) 正相关。
3.3.2 相关系数 (Correlation Coefficient)
Summary
定义相关系数,解释其含义和取值范围,并分析相关系数与独立性的关系。
相关系数 (correlation coefficient) 是将协方差标准化后的量,用来更精确地描述两个随机变量之间线性相关程度的强弱和方向。
相关系数的定义:随机变量 \(X\) 和 \(Y\) 的相关系数 \(\rho_{XY}\) 定义为:
\[ \rho_{XY} = Corr(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}} = \frac{Cov(X, Y)}{SD(X)SD(Y)} \]
其中 \(SD(X) = \sqrt{Var(X)}\),\(SD(Y) = \sqrt{Var(Y)}\) 分别是 \(X\) 和 \(Y\) 的标准差。
相关系数的性质和意义:
① 取值范围:\(-1 \le \rho_{XY} \le 1\)。
② 相关系数的含义:
▮▮▮▮⚝ \(\rho_{XY} > 0\),表示 \(X\) 和 \(Y\) 正线性相关。当 \(\rho_{XY}\) 接近 1 时,正线性相关性越强;当 \(\rho_{XY}\) 接近 0 时,线性相关性越弱。
▮▮▮▮⚝ \(\rho_{XY} < 0\),表示 \(X\) 和 \(Y\) 负线性相关。当 \(\rho_{XY}\) 接近 -1 时,负线性相关性越强;当 \(\rho_{XY}\) 接近 0 时,线性相关性越弱。
▮▮▮▮⚝ \(\rho_{XY} = 0\),表示 \(X\) 和 \(Y\) 不线性相关,即 \(X\) 和 \(Y\) 之间不存在线性关系,或者线性关系非常弱。此时称 \(X\) 和 \(Y\) 不相关 (uncorrelated)。
▮▮▮▮⚝ \(\rho_{XY} = 1\),表示 \(X\) 和 \(Y\) 完全正线性相关,即存在线性关系 \(Y = aX + b\),其中 \(a > 0\)。
▮▮▮▮⚝ \(\rho_{XY} = -1\),表示 \(X\) 和 \(Y\) 完全负线性相关,即存在线性关系 \(Y = aX + b\),其中 \(a < 0\)。
③ 相关系数只度量线性相关性:即使 \(|\rho_{XY}|\) 很小或为 0,也不能断定 \(X\) 和 \(Y\) 之间不存在任何关系,可能存在非线性关系。
④ 若 \(X\) 和 \(Y\) 相互独立,则 \(\rho_{XY} = 0\)。反之不成立,即 \(\rho_{XY} = 0\) 不能推出 \(X\) 和 \(Y\) 相互独立。
例 3.15 计算例 3.14 中随机变量 \(X\) 和 \(Y\) 的相关系数 \(\rho_{XY}\)。
解: 我们已经计算了 \(Cov(X, Y) = 0.25\)。还需要计算 \(Var(X)\) 和 \(Var(Y)\)。
\(E(X) = 1.5\),\(E(X^2) = 1^2 \cdot \frac{1}{3} + 2^2 \cdot \frac{7}{12} = \frac{1}{3} + \frac{28}{12} = \frac{4+28}{12} = \frac{32}{12} = \frac{8}{3}\)。
\(Var(X) = E(X^2) - [E(X)]^2 = \frac{8}{3} - \left( \frac{3}{2} \right)^2 = \frac{8}{3} - \frac{9}{4} = \frac{32 - 27}{12} = \frac{5}{12}\)。
\(E(Y) = \frac{11}{6}\),\(E(Y^2) = 1^2 \cdot \frac{1}{4} + 2^2 \cdot \frac{5}{12} + 3^2 \cdot \frac{1}{4} = \frac{1}{4} + \frac{20}{12} + \frac{9}{4} = \frac{3+20+27}{12} = \frac{50}{12} = \frac{25}{6}\)。
\(Var(Y) = E(Y^2) - [E(Y)]^2 = \frac{25}{6} - \left( \frac{11}{6} \right)^2 = \frac{25}{6} - \frac{121}{36} = \frac{150 - 121}{36} = \frac{29}{36}\)。
\[ \rho_{XY} = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}} = \frac{0.25}{\sqrt{\frac{5}{12} \cdot \frac{29}{36}}} = \frac{0.25}{\sqrt{\frac{145}{432}}} \approx \frac{0.25}{\sqrt{0.3356}} \approx \frac{0.25}{0.5793} \approx 0.4316 \]
相关系数 \(\rho_{XY} \approx 0.4316\),为正数,表示 \(X\) 和 \(Y\) 之间存在中等强度的正线性相关关系。
3.4 矩与母函数 (Moments and Generating Functions)
Summary
简要介绍矩的概念和母函数,为高级主题的学习做准备。
3.4.1 矩 (Moments)
Summary
介绍原点矩和中心矩的概念。
矩 (moment) 是描述随机变量分布形状和特征的重要数字特征。矩分为原点矩 (raw moment) 和 中心矩 (central moment)。
① 原点矩 (Raw Moment):随机变量 \(X\) 的 \(k\) 阶原点矩定义为:
\[ E(X^k) \]
记为 \(\mu_k' = E(X^k)\),其中 \(k = 1, 2, 3, \ldots\)。
⚝ 1 阶原点矩 \(\mu_1' = E(X)\) 就是期望。
⚝ 2 阶原点矩 \(\mu_2' = E(X^2)\) 用于计算方差 \(Var(X) = E(X^2) - [E(X)]^2 = \mu_2' - (\mu_1')^2\)。
② 中心矩 (Central Moment):随机变量 \(X\) 的 \(k\) 阶中心矩定义为:
\[ E\left[ (X - E(X))^k \right] \]
记为 \(\mu_k = E\left[ (X - E(X))^k \right]\),其中 \(k = 1, 2, 3, \ldots\)。
⚝ 1 阶中心矩 \(\mu_1 = E[X - E(X)] = E(X) - E(X) = 0\)。
⚝ 2 阶中心矩 \(\mu_2 = E\left[ (X - E(X))^2 \right] = Var(X)\) 就是方差。
⚝ 3 阶中心矩 \(\mu_3 = E\left[ (X - E(X))^3 \right]\) 描述分布的偏度 (skewness),衡量分布的对称性。
⚝ 4 阶中心矩 \(\mu_4 = E\left[ (X - E(X))^4 \right]\) 描述分布的峰度 (kurtosis),衡量分布的尖峰程度。
矩可以用来刻画随机变量分布的各种特征,例如中心位置、离散程度、对称性、尖峰程度等。通过研究各阶矩,可以更全面地了解随机变量的分布特性。
3.4.2 母函数 (Generating Functions)
Summary
简要介绍概率母函数和矩母函数。
母函数 (generating function) 是一种用函数形式来表示随机变量分布或矩的方法。常用的母函数有概率母函数 (probability generating function, PGF) 和 矩母函数 (moment generating function, MGF)。
① 概率母函数 (Probability Generating Function, PGF):主要用于非负整数值的离散型随机变量。设离散型随机变量 \(X\) 的分布列为 \(P(X=k) = p_k\),\(k = 0, 1, 2, \ldots\),其概率母函数 \(G_X(z)\) 定义为:
\[ G_X(z) = E(z^X) = \sum_{k=0}^{\infty} p_k z^k \]
其中 \(z\) 是复数变量,通常 \(|z| \le 1\)。概率母函数具有以下性质:
⚝ \(G_X(1) = \sum_{k=0}^{\infty} p_k = 1\)。
⚝ \(G_X'(1) = E(X)\)。
⚝ \(G_X''(1) + G_X'(1) - [G_X'(1)]^2 = Var(X)\)。
⚝ 分布列可以由概率母函数唯一确定:\(p_k = \frac{G_X^{(k)}(0)}{k!}\)。
② 矩母函数 (Moment Generating Function, MGF):适用于任意随机变量。设随机变量 \(X\) 的概率分布为 \(F_X(x)\),其矩母函数 \(M_X(t)\) 定义为:
\[ M_X(t) = E(e^{tX}) = \begin{cases} \sum_{i} e^{tx_i} P(X=x_i), & \text{离散型} \\ \int_{-\infty}^{\infty} e^{tx} f(x) dx, & \text{连续型} \end{cases} \]
其中 \(t\) 是实数变量,在包含 0 的某个区间内定义。矩母函数具有以下性质:
⚝ \(M_X(0) = E(e^{0 \cdot X}) = E(1) = 1\)。
⚝ \(k\) 阶原点矩可以通过矩母函数求导得到:\(E(X^k) = M_X^{(k)}(0)\)。
⚝ 若两个随机变量的矩母函数相同,则它们的分布相同 (在一定条件下)。
⚝ 线性变换的矩母函数:若 \(Y = aX + b\),则 \(M_Y(t) = e^{bt} M_X(at)\)。
⚝ 独立随机变量和的矩母函数:若 \(X_1, X_2, \ldots, X_n\) 相互独立,\(S_n = \sum_{i=1}^{n} X_i\),则 \(M_{S_n}(t) = \prod_{i=1}^{n} M_{X_i}(t)\)。
母函数提供了一种简洁而强大的工具,用于研究随机变量的分布和矩,在概率论和统计学的理论研究中起着重要作用。
4. 多维随机变量及其分布 (Multidimensional Random Variables and Distributions)
本章将概率论的概念扩展到多维随机变量,讨论当研究对象从单一随机变量扩展到多个随机变量时,如何描述和分析它们的概率特性。我们将深入探讨联合分布、边缘分布、条件分布以及多维随机变量的独立性等核心概念,为后续学习随机向量的数字特征和多维正态分布奠定坚实的基础。理解多维随机变量及其分布是进行复杂系统建模、统计推断和数据分析的关键。
4.1 联合分布 (Joint Distribution)
在实际问题中,我们常常需要同时考虑多个随机变量。例如,在气象研究中,我们可能需要同时关注温度和湿度;在金融分析中,我们可能需要同时考察股票价格和交易量。为了描述多个随机变量的概率规律,我们需要引入联合分布 (Joint Distribution) 的概念。联合分布能够完整地描述多个随机变量同时取值的概率信息。本节将介绍二维及多维随机变量的联合分布函数、联合概率质量函数和联合概率密度函数。
4.1.1 联合分布函数 (Joint Distribution Function)
联合分布函数 (Joint Distribution Function) 是描述多维随机变量概率特性的最基本工具。它可以应用于离散型、连续型以及混合型随机变量。
① 定义 (Definition)
对于 \( n \) 维随机变量 \( (X_1, X_2, \ldots, X_n) \),其联合分布函数 \( F(x_1, x_2, \ldots, x_n) \) 定义为:
\[ F(x_1, x_2, \ldots, x_n) = P(X_1 \le x_1, X_2 \le x_2, \ldots, X_n \le x_n) \]
其中,\( x_1, x_2, \ldots, x_n \) 为任意实数。特别地,对于二维随机变量 \( (X, Y) \),其联合分布函数为:
\[ F(x, y) = P(X \le x, Y \le y) \]
联合分布函数 \( F(x_1, x_2, \ldots, x_n) \) 表示随机向量 \( (X_1, X_2, \ldots, X_n) \) 同时落在区域 \( (-\infty, x_1] \times (-\infty, x_2] \times \cdots \times (-\infty, x_n] \) 的概率。
② 性质 (Properties)
联合分布函数 \( F(x_1, x_2, \ldots, x_n) \) 具有以下基本性质:
▮▮▮▮ⓐ 非负性 (Non-negativity):对于任意 \( x_1, x_2, \ldots, x_n \in \mathbb{R} \),\( 0 \le F(x_1, x_2, \ldots, x_n) \le 1 \)。
▮▮▮▮ⓑ 单调不减性 (Monotonically Non-decreasing):对每个分量 \( x_i \) 而言,\( F(x_1, \ldots, x_i, \ldots, x_n) \) 关于 \( x_i \) 是单调不减的。即,若 \( x_i < x'_i \),则
\[ F(x_1, \ldots, x_i, \ldots, x_n) \le F(x_1, \ldots, x'_i, \ldots, x_n) \]
▮▮▮▮ⓒ 右连续性 (Right-Continuity):对每个分量 \( x_i \) 而言,\( F(x_1, \ldots, x_i, \ldots, x_n) \) 关于 \( x_i \) 是右连续的。即,
\[ \lim_{h \to 0^+} F(x_1, \ldots, x_i+h, \ldots, x_n) = F(x_1, \ldots, x_i, \ldots, x_n) \]
▮▮▮▮ⓓ 极限性质 (Limit Properties):
▮▮▮▮⚝ 当任一 \( x_i \to -\infty \) 时,\( F(x_1, x_2, \ldots, x_n) \to 0 \)。
▮▮▮▮⚝ 当所有 \( x_i \to +\infty \) 时,\( F(x_1, x_2, \ldots, x_n) \to 1 \)。
对于二维联合分布函数 \( F(x, y) \),还有以下性质:
\[ P(x_1 < X \le x_2, y_1 < Y \le y_2) = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1) + F(x_1, y_1) \]
这个公式可以用来计算随机变量 \( (X, Y) \) 落在矩形区域 \( (x_1, x_2] \times (y_1, y_2] \) 的概率。
③ 示例 (Example)
假设二维随机变量 \( (X, Y) \) 的联合分布函数为:
\[ F(x, y) = \begin{cases} 1 - e^{-x} - e^{-y} + e^{-(x+y)}, & x \ge 0, y \ge 0 \\ 0, & x < 0 \text{ 或 } y < 0 \end{cases} \]
这是一个二维指数分布的联合分布函数。我们可以验证它是否满足联合分布函数的性质。例如,当 \( x \ge 0, y \ge 0 \) 时,\( 0 \le F(x, y) \le 1 \),且随着 \( x \) 或 \( y \) 的增大,\( F(x, y) \) 单调不减。当 \( x \to \infty, y \to \infty \) 时,\( F(x, y) \to 1 \)。当 \( x \to -\infty \) 或 \( y \to -\infty \) 时,\( F(x, y) \to 0 \)。
4.1.2 联合概率质量函数 (Joint Probability Mass Function)
对于离散型随机向量 (Discrete Random Vector),我们使用 联合概率质量函数 (Joint Probability Mass Function, Joint PMF) 来描述其概率分布。
① 定义 (Definition)
如果随机向量 \( (X_1, X_2, \ldots, X_n) \) 中的每个分量都是离散型随机变量,则称 \( (X_1, X_2, \ldots, X_n) \) 为离散型随机向量。其联合概率质量函数 \( p(x_1, x_2, \ldots, x_n) \) 定义为:
\[ p(x_1, x_2, \ldots, x_n) = P(X_1 = x_1, X_2 = x_2, \ldots, X_n = x_n) \]
其中,\( x_1, x_2, \ldots, x_n \) 取遍随机变量 \( X_1, X_2, \ldots, X_n \) 可能取的所有值。对于二维离散型随机变量 \( (X, Y) \),其联合概率质量函数为:
\[ p(x, y) = P(X = x, Y = y) \]
联合概率质量函数 \( p(x_1, x_2, \ldots, x_n) \) 表示随机向量 \( (X_1, X_2, \ldots, X_n) \) 取特定值 \( (x_1, x_2, \ldots, x_n) \) 的概率。
② 性质 (Properties)
联合概率质量函数 \( p(x_1, x_2, \ldots, x_n) \) 满足以下性质:
▮▮▮▮ⓐ 非负性 (Non-negativity):对于任意 \( x_1, x_2, \ldots, x_n \),\( p(x_1, x_2, \ldots, x_n) \ge 0 \)。
▮▮▮▮ⓑ 规范性 (Normalization):所有可能的概率之和为 1:
\[ \sum_{x_1} \sum_{x_2} \cdots \sum_{x_n} p(x_1, x_2, \ldots, x_n) = 1 \]
其中,求和是对所有可能的取值进行的。
▮▮▮▮ⓒ 概率计算 (Probability Calculation):对于任意事件 \( A \),事件 \( A \) 的概率可以通过对联合概率质量函数求和得到:
\[ P((X_1, X_2, \ldots, X_n) \in A) = \sum_{(x_1, x_2, \ldots, x_n) \in A} p(x_1, x_2, \ldots, x_n) \]
③ 示例 (Example)
考虑一个简单的例子:同时抛掷两枚均匀硬币。设随机变量 \( X \) 表示第一枚硬币的结果(正面为 1,反面为 0),随机变量 \( Y \) 表示第二枚硬币的结果(正面为 1,反面为 0)。则 \( (X, Y) \) 是一个二维离散型随机变量,其可能的取值为 \( (0, 0), (0, 1), (1, 0), (1, 1) \)。由于硬币是均匀的且抛掷是独立的,因此每个结果的概率均为 \( \frac{1}{4} \)。其联合概率质量函数为:
\[ p(x, y) = P(X = x, Y = y) = \begin{cases} \frac{1}{4}, & (x, y) \in \{(0, 0), (0, 1), (1, 0), (1, 1)\} \\ 0, & \text{其他} \end{cases} \]
我们可以验证规范性:\( \sum_{x=0}^1 \sum_{y=0}^1 p(x, y) = 4 \times \frac{1}{4} = 1 \)。
4.1.3 联合概率密度函数 (Joint Probability Density Function)
对于连续型随机向量 (Continuous Random Vector),我们使用 联合概率密度函数 (Joint Probability Density Function, Joint PDF) 来描述其概率分布。
① 定义 (Definition)
如果存在一个非负函数 \( f(x_1, x_2, \ldots, x_n) \),使得对于任意 \( n \) 维区域 \( A \),随机向量 \( (X_1, X_2, \ldots, X_n) \) 落在区域 \( A \) 的概率可以表示为:
\[ P((X_1, X_2, \ldots, X_n) \in A) = \int \cdots \int_A f(x_1, x_2, \ldots, x_n) dx_1 dx_2 \cdots dx_n \]
则称 \( (X_1, X_2, \ldots, X_n) \) 为连续型随机向量,函数 \( f(x_1, x_2, \ldots, x_n) \) 称为 \( (X_1, X_2, \ldots, X_n) \) 的联合概率密度函数。对于二维连续型随机变量 \( (X, Y) \),其联合概率密度函数为 \( f(x, y) \),且对于任意二维区域 \( A \),有:
\[ P((X, Y) \in A) = \iint_A f(x, y) dx dy \]
联合概率密度函数 \( f(x_1, x_2, \ldots, x_n) \) 描述了随机向量 \( (X_1, X_2, \ldots, X_n) \) 在空间中各点附近的概率密度分布。
② 性质 (Properties)
联合概率密度函数 \( f(x_1, x_2, \ldots, x_n) \) 满足以下性质:
▮▮▮▮ⓐ 非负性 (Non-negativity):对于任意 \( x_1, x_2, \ldots, x_n \),\( f(x_1, x_2, \ldots, x_n) \ge 0 \)。
▮▮▮▮ⓑ 规范性 (Normalization):在整个样本空间上的积分等于 1:
\[ \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f(x_1, x_2, \ldots, x_n) dx_1 dx_2 \cdots dx_n = 1 \]
▮▮▮▮ⓒ 概率计算 (Probability Calculation):对于任意区域 \( A \),事件 \( (X_1, X_2, \ldots, X_n) \in A \) 的概率可以通过对联合概率密度函数在区域 \( A \) 上积分得到:
\[ P((X_1, X_2, \ldots, X_n) \in A) = \int \cdots \int_A f(x_1, x_2, \ldots, x_n) dx_1 dx_2 \cdots dx_n \]
▮▮▮▮ⓓ 联合分布函数与联合概率密度函数的关系 (Relationship with Joint Distribution Function):
\[ F(x_1, x_2, \ldots, x_n) = \int_{-\infty}^{x_1} \int_{-\infty}^{x_2} \cdots \int_{-\infty}^{x_n} f(t_1, t_2, \ldots, t_n) dt_1 dt_2 \cdots dt_n \]
反之,在 \( f(x_1, x_2, \ldots, x_n) \) 连续的点上,有:
\[ f(x_1, x_2, \ldots, x_n) = \frac{\partial^n F(x_1, x_2, \ldots, x_n)}{\partial x_1 \partial x_2 \cdots \partial x_n} \]
③ 示例 (Example)
考虑二维均匀分布。设随机向量 \( (X, Y) \) 在矩形区域 \( D = \{(x, y) \mid a \le x \le b, c \le y \le d \} \) 上服从均匀分布。则其联合概率密度函数为:
\[ f(x, y) = \begin{cases} \frac{1}{(b-a)(d-c)}, & (x, y) \in D \\ 0, & \text{其他} \end{cases} \]
我们可以验证规范性:
\[ \iint_{\mathbb{R}^2} f(x, y) dx dy = \iint_D \frac{1}{(b-a)(d-c)} dx dy = \frac{\text{Area}(D)}{(b-a)(d-c)} = \frac{(b-a)(d-c)}{(b-a)(d-c)} = 1 \]
4.2 边缘分布与条件分布 (Marginal and Conditional Distributions)
从联合分布出发,我们可以得到关于单个或部分随机变量的分布信息,这就是边缘分布 (Marginal Distribution) 的概念。此外,当已知部分随机变量的取值时,我们可以考察其他随机变量的分布,这就引出了条件分布 (Conditional Distribution) 的概念。边缘分布和条件分布是理解多维随机变量之间相互关系的重要工具。
4.2.1 边缘分布 (Marginal Distribution)
边缘分布 (Marginal Distribution) 描述了多维随机变量中单个或部分变量的概率分布,而忽略了其他变量的影响。
① 定义 (Definition)
给定 \( n \) 维随机向量 \( (X_1, X_2, \ldots, X_n) \) 的联合分布。要得到其中某个分量 \( X_i \) 的分布,我们需要边缘化 (Marginalize) 其他变量。
▮▮▮▮ⓐ 边缘分布函数 (Marginal Distribution Function):随机变量 \( X_i \) 的边缘分布函数 \( F_{X_i}(x_i) \) 可以通过联合分布函数 \( F(x_1, x_2, \ldots, x_n) \) 计算得到:
\[ F_{X_i}(x_i) = \lim_{\substack{x_j \to \infty \\ j \ne i}} F(x_1, \ldots, x_n) = F(\infty, \ldots, \infty, x_i, \infty, \ldots, \infty) \]
对于二维随机变量 \( (X, Y) \),\( X \) 和 \( Y \) 的边缘分布函数分别为:
\[ F_X(x) = F(x, \infty) = P(X \le x, Y < \infty) = P(X \le x) \]
\[ F_Y(y) = F(\infty, y) = P(X < \infty, Y \le y) = P(Y \le y) \]
▮▮▮▮ⓑ 边缘概率质量函数 (Marginal Probability Mass Function):对于离散型随机向量 \( (X_1, X_2, \ldots, X_n) \),随机变量 \( X_i \) 的边缘概率质量函数 \( p_{X_i}(x_i) \) 可以通过对联合概率质量函数 \( p(x_1, x_2, \ldots, x_n) \) 关于其他变量求和得到:
\[ p_{X_i}(x_i) = \sum_{\substack{x_j \\ j \ne i}} p(x_1, \ldots, x_n) \]
对于二维离散型随机变量 \( (X, Y) \),\( X \) 和 \( Y \) 的边缘概率质量函数分别为:
\[ p_X(x) = \sum_{y} p(x, y) = \sum_{y} P(X = x, Y = y) = P(X = x) \]
\[ p_Y(y) = \sum_{x} p(x, y) = \sum_{x} P(X = x, Y = y) = P(Y = y) \]
▮▮▮▮ⓒ 边缘概率密度函数 (Marginal Probability Density Function):对于连续型随机向量 \( (X_1, X_2, \ldots, X_n) \),随机变量 \( X_i \) 的边缘概率密度函数 \( f_{X_i}(x_i) \) 可以通过对联合概率密度函数 \( f(x_1, x_2, \ldots, x_n) \) 关于其他变量积分得到:
\[ f_{X_i}(x_i) = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} f(x_1, \ldots, x_n) \prod_{j \ne i} dx_j \]
对于二维连续型随机变量 \( (X, Y) \),\( X \) 和 \( Y \) 的边缘概率密度函数分别为:
\[ f_X(x) = \int_{-\infty}^{\infty} f(x, y) dy \]
\[ f_Y(y) = \int_{-\infty}^{\infty} f(x, y) dx \]
② 示例 (Example)
继续使用 4.1.2 中的硬币例子。联合概率质量函数为:
\[ p(x, y) = \begin{cases} \frac{1}{4}, & (x, y) \in \{(0, 0), (0, 1), (1, 0), (1, 1)\} \\ 0, & \text{其他} \end{cases} \]
\( X \) 的边缘概率质量函数为:
\[ p_X(x) = \sum_{y=0}^1 p(x, y) = \begin{cases} p(0, 0) + p(0, 1) = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}, & x = 0 \\ p(1, 0) + p(1, 1) = \frac{1}{4} + \frac{1}{4} = \frac{1}{2}, & x = 1 \\ 0, & \text{其他} \end{cases} \]
同理,\( Y \) 的边缘概率质量函数为:
\[ p_Y(y) = \sum_{x=0}^1 p(x, y) = \begin{cases} \frac{1}{2}, & y = 0 \\ \frac{1}{2}, & y = 1 \\ 0, & \text{其他} \end{cases} \]
可以看到,\( X \) 和 \( Y \) 的边缘分布都是伯努利分布 (Bernoulli Distribution),参数为 \( p = \frac{1}{2} \),符合均匀硬币的直观理解。
再看 4.1.3 中的二维均匀分布例子。联合概率密度函数为:
\[ f(x, y) = \begin{cases} \frac{1}{(b-a)(d-c)}, & a \le x \le b, c \le y \le d \\ 0, & \text{其他} \end{cases} \]
\( X \) 的边缘概率密度函数为:
\[ f_X(x) = \int_{-\infty}^{\infty} f(x, y) dy = \begin{cases} \int_{c}^{d} \frac{1}{(b-a)(d-c)} dy = \frac{d-c}{(b-a)(d-c)} = \frac{1}{b-a}, & a \le x \le b \\ 0, & \text{其他} \end{cases} \]
\( Y \) 的边缘概率密度函数为:
\[ f_Y(y) = \int_{-\infty}^{\infty} f(x, y) dx = \begin{cases} \int_{a}^{b} \frac{1}{(b-a)(d-c)} dx = \frac{b-a}{(b-a)(d-c)} = \frac{1}{d-c}, & c \le y \le d \\ 0, & \text{其他} \end{cases} \]
因此,\( X \sim U(a, b) \) 和 \( Y \sim U(c, d) \)。
4.2.2 条件分布 (Conditional Distribution)
条件分布 (Conditional Distribution) 描述了在已知某些随机变量取特定值或落在特定区域的条件下,另一些随机变量的概率分布。
① 定义 (Definition)
▮▮▮▮ⓐ 条件概率质量函数 (Conditional Probability Mass Function):对于离散型随机变量 \( (X, Y) \),在给定 \( Y = y \) 的条件下,\( X \) 的条件概率质量函数定义为:
\[ p_{X|Y}(x|y) = P(X = x | Y = y) = \frac{P(X = x, Y = y)}{P(Y = y)} = \frac{p(x, y)}{p_Y(y)} \]
只要 \( p_Y(y) > 0 \)。同理,在给定 \( X = x \) 的条件下,\( Y \) 的条件概率质量函数为:
\[ p_{Y|X}(y|x) = P(Y = y | X = x) = \frac{P(X = x, Y = y)}{P(X = x)} = \frac{p(x, y)}{p_X(x)} \]
只要 \( p_X(x) > 0 \)。
▮▮▮▮ⓑ 条件概率密度函数 (Conditional Probability Density Function):对于连续型随机变量 \( (X, Y) \),在给定 \( Y = y \) 的条件下,\( X \) 的条件概率密度函数定义为:
\[ f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} \]
只要 \( f_Y(y) > 0 \)。同理,在给定 \( X = x \) 的条件下,\( Y \) 的条件概率密度函数为:
\[ f_{Y|X}(y|x) = \frac{f(x, y)}{f_X(x)} \]
只要 \( f_X(x) > 0 \)。
② 性质 (Properties)
条件概率质量函数 \( p_{X|Y}(x|y) \) 和条件概率密度函数 \( f_{X|Y}(x|y) \) 本身也分别是概率质量函数和概率密度函数,因此它们满足非负性和规范性:
▮▮▮▮ⓐ 非负性 (Non-negativity):\( p_{X|Y}(x|y) \ge 0 \) 和 \( f_{X|Y}(x|y) \ge 0 \)。
▮▮▮▮ⓑ 规范性 (Normalization):
\[ \sum_{x} p_{X|Y}(x|y) = 1 \]
\[ \int_{-\infty}^{\infty} f_{X|Y}(x|y) dx = 1 \]
③ 示例 (Example)
继续使用硬币例子。在已知 \( Y = 0 \) (第二枚硬币是反面) 的条件下,\( X \) 的条件概率质量函数为:
\[ p_{X|Y}(x|0) = \frac{p(x, 0)}{p_Y(0)} = \begin{cases} \frac{p(0, 0)}{p_Y(0)} = \frac{1/4}{1/2} = \frac{1}{2}, & x = 0 \\ \frac{p(1, 0)}{p_Y(0)} = \frac{1/4}{1/2} = \frac{1}{2}, & x = 1 \\ 0, & \text{其他} \end{cases} \]
这表明,即使已知第二枚硬币是反面,第一枚硬币为正面或反面的概率仍然均为 \( \frac{1}{2} \),这符合硬币抛掷的独立性直觉。
再看二维均匀分布例子。在给定 \( Y = y \) 的条件下,\( X \) 的条件概率密度函数为(假设 \( c \le y \le d \)):
\[ f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)} = \begin{cases} \frac{1/((b-a)(d-c))}{1/(d-c)} = \frac{1}{b-a}, & a \le x \le b \\ 0, & \text{其他} \end{cases} \]
这表明,对于给定的 \( y \in [c, d] \),\( X \) 在区间 \( [a, b] \) 上仍然服从均匀分布,且与 \( y \) 的具体取值无关。
4.3 随机变量的独立性 (Independence of Random Variables)
独立性 (Independence) 是概率论中一个非常重要的概念,它描述了多个随机变量之间互不影响的性质。理解随机变量的独立性对于简化概率计算和模型构建至关重要。
4.3.1 随机变量独立的定义 (Definition of Independence)
随机变量独立 (Independent Random Variables) 的直观含义是,一个随机变量的取值不影响其他随机变量的概率分布。
① 定义 (Definition)
▮▮▮▮ⓐ 基于联合分布函数的定义 (Definition based on Joint Distribution Function):\( n \) 个随机变量 \( X_1, X_2, \ldots, X_n \) 是相互独立的,如果它们的联合分布函数等于各自边缘分布函数的乘积,即对于任意 \( x_1, x_2, \ldots, x_n \),有:
\[ F(x_1, x_2, \ldots, x_n) = F_{X_1}(x_1) F_{X_2}(x_2) \cdots F_{X_n}(x_n) \]
对于二维随机变量 \( (X, Y) \),\( X \) 和 \( Y \) 独立的条件是:
\[ F(x, y) = F_X(x) F_Y(y) \]
▮▮▮▮ⓑ 基于联合概率质量函数/密度函数的定义 (Definition based on Joint PMF/PDF):
⚝ 对于离散型随机变量 \( X_1, X_2, \ldots, X_n \),它们是相互独立的,如果它们的联合概率质量函数等于各自边缘概率质量函数的乘积,即对于任意 \( x_1, x_2, \ldots, x_n \),有:
\[ p(x_1, x_2, \ldots, x_n) = p_{X_1}(x_1) p_{X_2}(x_2) \cdots p_{X_n}(x_n) \]
对于二维离散型随机变量 \( (X, Y) \),\( X \) 和 \( Y \) 独立的条件是:
\[ p(x, y) = p_X(x) p_Y(y) \]
⚝ 对于连续型随机变量 \( X_1, X_2, \ldots, X_n \),它们是相互独立的,如果它们的联合概率密度函数等于各自边缘概率密度函数的乘积,即对于任意 \( x_1, x_2, \ldots, x_n \),有:
\[ f(x_1, x_2, \ldots, x_n) = f_{X_1}(x_1) f_{X_2}(x_2) \cdots f_{X_n}(x_n) \]
对于二维连续型随机变量 \( (X, Y) \),\( X \) 和 \( Y \) 独立的条件是:
\[ f(x, y) = f_X(x) f_Y(y) \]
② 直观理解 (Intuitive Understanding)
如果 \( X \) 和 \( Y \) 独立,那么关于 \( Y \) 的任何信息都不会改变关于 \( X \) 的概率分布。反之亦然。例如,在硬币抛掷的例子中,第一枚硬币的结果不会影响第二枚硬币的结果,因此它们是独立的。在二维均匀分布的例子中,\( X \) 和 \( Y \) 也是独立的,因为它们的联合 PDF 是边缘 PDF 的乘积。
4.3.2 独立性的判别 (Criteria for Independence)
在实际应用中,我们常常需要判断给定的随机变量是否独立。以下是一些常用的判别方法。
① 利用定义判别 (Using Definition)
最直接的方法是验证联合分布函数、联合概率质量函数或联合概率密度函数是否等于对应边缘分布函数的乘积。
② 条件分布判别 (Using Conditional Distribution)
对于二维随机变量 \( (X, Y) \),\( X \) 和 \( Y \) 独立的充要条件是条件分布等于边缘分布,即:
\[ F_{X|Y}(x|y) = F_X(x) \quad \text{或} \quad F_{Y|X}(y|x) = F_Y(y) \]
对于离散型随机变量,等价于:
\[ p_{X|Y}(x|y) = p_X(x) \quad \text{或} \quad p_{Y|X}(y|x) = p_Y(y) \]
对于连续型随机变量,等价于:
\[ f_{X|Y}(x|y) = f_X(x) \quad \text{或} \quad f_{Y|X}(y|x) = f_Y(y) \]
这意味着,在已知 \( Y \) 的取值后,\( X \) 的分布仍然和不知道 \( Y \) 取值时一样,反之亦然。
③ 示例 (Example)
在硬币例子中,我们已经计算了 \( p_X(x) = \frac{1}{2}, p_Y(y) = \frac{1}{2}, p(x, y) = \frac{1}{4} \) 对于 \( (x, y) \in \{(0, 0), (0, 1), (1, 0), (1, 1)\} \)。容易验证,对于所有可能的 \( (x, y) \),都有 \( p(x, y) = p_X(x) p_Y(y) \)。例如,\( p(0, 0) = \frac{1}{4} = \frac{1}{2} \times \frac{1}{2} = p_X(0) p_Y(0) \)。因此,\( X \) 和 \( Y \) 是独立的。
在二维均匀分布例子中,我们有 \( f_X(x) = \frac{1}{b-a} \) (当 \( a \le x \le b \)),\( f_Y(y) = \frac{1}{d-c} \) (当 \( c \le y \le d \)),以及 \( f(x, y) = \frac{1}{(b-a)(d-c)} \) (当 \( a \le x \le b, c \le y \le d \))。容易验证,在联合分布的支撑集上,\( f(x, y) = f_X(x) f_Y(y) \)。因此,\( X \) 和 \( Y \) 也是独立的。
4.4 随机向量的数字特征 (Numerical Characteristics of Random Vectors)
类似于一维随机变量,我们也可以用一些数字特征来描述随机向量的统计特性。本节将介绍期望向量 (Expected Vector)、协方差矩阵 (Covariance Matrix) 和 相关矩阵 (Correlation Matrix) 等重要概念。
4.4.1 随机向量的期望向量 (Expected Vector of Random Vector)
期望向量 (Expected Vector) 是随机向量均值概念的推广,它描述了随机向量的中心位置。
① 定义 (Definition)
对于 \( n \) 维随机向量 \( \mathbf{X} = (X_1, X_2, \ldots, X_n)^T \),其期望向量 \( \mathbb{E}[\mathbf{X}] \) 定义为一个 \( n \) 维列向量,其第 \( i \) 个分量是随机变量 \( X_i \) 的期望 \( \mathbb{E}[X_i] \),即:
\[ \mathbb{E}[\mathbf{X}] = \begin{pmatrix} \mathbb{E}[X_1] \\ \mathbb{E}[X_2] \\ \vdots \\ \mathbb{E}[X_n] \end{pmatrix} \]
其中,假设每个 \( \mathbb{E}[X_i] \) 都存在。
② 计算 (Calculation)
期望向量的计算可以直接通过计算每个分量的期望得到。
⚝ 离散型随机向量 (Discrete Random Vector):
\[ \mathbb{E}[X_i] = \sum_{x_1} \sum_{x_2} \cdots \sum_{x_n} x_i p(x_1, x_2, \ldots, x_n) \]
⚝ 连续型随机向量 (Continuous Random Vector):
\[ \mathbb{E}[X_i] = \int_{-\infty}^{\infty} \cdots \int_{-\infty}^{\infty} x_i f(x_1, x_2, \ldots, x_n) dx_1 dx_2 \cdots dx_n \]
③ 性质 (Properties)
期望向量具有与一维随机变量期望类似的线性性质。设 \( \mathbf{X} \) 和 \( \mathbf{Y} \) 是 \( n \) 维随机向量,\( \mathbf{a} \) 是常数向量,\( c \) 是常数,\( A \) 是常数矩阵,则:
▮▮▮▮ⓐ \( \mathbb{E}[\mathbf{X} + \mathbf{Y}] = \mathbb{E}[\mathbf{X}] + \mathbb{E}[\mathbf{Y}] \)
▮▮▮▮ⓑ \( \mathbb{E}[c\mathbf{X}] = c\mathbb{E}[\mathbf{X}] \)
▮▮▮▮ⓒ \( \mathbb{E}[A\mathbf{X} + \mathbf{a}] = A\mathbb{E}[\mathbf{X}] + \mathbf{a} \)
④ 示例 (Example)
考虑二维随机向量 \( (X, Y) \),其联合概率质量函数如 4.1.2 例子所示。我们已经计算了 \( X \) 和 \( Y \) 的边缘分布都是伯努利分布 \( B(1, 0.5) \)。因此,\( \mathbb{E}[X] = 0.5, \mathbb{E}[Y] = 0.5 \)。期望向量为:
\[ \mathbb{E}\begin{bmatrix} X \\ Y \end{bmatrix} = \begin{bmatrix} \mathbb{E}[X] \\ \mathbb{E}[Y] \end{bmatrix} = \begin{bmatrix} 0.5 \\ 0.5 \end{bmatrix} \]
4.4.2 协方差矩阵与相关矩阵 (Covariance Matrix and Correlation Matrix)
协方差矩阵 (Covariance Matrix) 和 相关矩阵 (Correlation Matrix) 描述了随机向量各分量之间的线性相关程度和离散程度。
① 协方差矩阵 (Covariance Matrix)
▮▮▮▮ⓐ 定义 (Definition):对于 \( n \) 维随机向量 \( \mathbf{X} = (X_1, X_2, \ldots, X_n)^T \),其协方差矩阵 \( \text{Cov}(\mathbf{X}) \) 定义为一个 \( n \times n \) 矩阵,其第 \( (i, j) \) 个元素是 \( X_i \) 和 \( X_j \) 的协方差 \( \text{Cov}(X_i, X_j) \),即:
\[ \text{Cov}(\mathbf{X})_{ij} = \text{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mathbb{E}[X_i])(X_j - \mathbb{E}[X_j])] \]
因此,协方差矩阵可以表示为:
\[ \text{Cov}(\mathbf{X}) = \begin{pmatrix} \text{Cov}(X_1, X_1) & \text{Cov}(X_1, X_2) & \cdots & \text{Cov}(X_1, X_n) \\ \text{Cov}(X_2, X_1) & \text{Cov}(X_2, X_2) & \cdots & \text{Cov}(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \text{Cov}(X_n, X_1) & \text{Cov}(X_n, X_2) & \cdots & \text{Cov}(X_n, X_n) \end{pmatrix} \]
注意到 \( \text{Cov}(X_i, X_i) = \text{Var}(X_i) \),因此协方差矩阵的对角线元素是各分量的方差。
▮▮▮▮ⓑ 性质 (Properties):
⚝ 对称性 (Symmetry):\( \text{Cov}(\mathbf{X}) \) 是对称矩阵,即 \( \text{Cov}(\mathbf{X})^T = \text{Cov}(\mathbf{X}) \),因为 \( \text{Cov}(X_i, X_j) = \text{Cov}(X_j, X_i) \)。
⚝ 半正定性 (Positive Semi-definiteness):对于任意常数向量 \( \mathbf{a} \in \mathbb{R}^n \),有 \( \mathbf{a}^T \text{Cov}(\mathbf{X}) \mathbf{a} = \text{Var}(\mathbf{a}^T \mathbf{X}) \ge 0 \)。
▮▮▮▮ⓒ 计算公式 (Calculation Formula):
\[ \text{Cov}(X_i, X_j) = \mathbb{E}[X_i X_j] - \mathbb{E}[X_i] \mathbb{E}[X_j] \]
因此,协方差矩阵也可以表示为:
\[ \text{Cov}(\mathbf{X}) = \mathbb{E}[\mathbf{X}\mathbf{X}^T] - \mathbb{E}[\mathbf{X}]\mathbb{E}[\mathbf{X}]^T \]
② 相关矩阵 (Correlation Matrix)
▮▮▮▮ⓐ 定义 (Definition):对于 \( n \) 维随机向量 \( \mathbf{X} = (X_1, X_2, \ldots, X_n)^T \),其相关矩阵 \( \text{Corr}(\mathbf{X}) \) 定义为一个 \( n \times n \) 矩阵,其第 \( (i, j) \) 个元素是 \( X_i \) 和 \( X_j \) 的相关系数 \( \rho(X_i, X_j) \),即:
\[ \text{Corr}(\mathbf{X})_{ij} = \rho(X_i, X_j) = \frac{\text{Cov}(X_i, X_j)}{\sqrt{\text{Var}(X_i) \text{Var}(X_j)}} \]
因此,相关矩阵可以表示为:
\[ \text{Corr}(\mathbf{X}) = \begin{pmatrix} \rho(X_1, X_1) & \rho(X_1, X_2) & \cdots & \rho(X_1, X_n) \\ \rho(X_2, X_1) & \rho(X_2, X_2) & \cdots & \rho(X_2, X_n) \\ \vdots & \vdots & \ddots & \vdots \\ \rho(X_n, X_1) & \rho(X_n, X_2) & \cdots & \rho(X_n, X_n) \end{pmatrix} \]
注意到 \( \rho(X_i, X_i) = 1 \),因此相关矩阵的对角线元素均为 1。
▮▮▮▮ⓑ 性质 (Properties):
⚝ 对称性 (Symmetry):\( \text{Corr}(\mathbf{X}) \) 是对称矩阵,即 \( \text{Corr}(\mathbf{X})^T = \text{Corr}(\mathbf{X}) \)。
⚝ 元素取值范围 (Range of Elements):相关矩阵的元素取值范围为 \( [-1, 1] \)。
⚝ 与协方差矩阵的关系 (Relationship with Covariance Matrix):相关矩阵可以通过协方差矩阵进行标准化得到。设 \( D \) 是一个对角矩阵,其对角线元素为 \( \sqrt{\text{Var}(X_1)}, \sqrt{\text{Var}(X_2)}, \ldots, \sqrt{\text{Var}(X_n)} \),则:
\[ \text{Corr}(\mathbf{X}) = D^{-1} \text{Cov}(\mathbf{X}) D^{-1} \]
③ 示例 (Example)
继续使用硬币例子。我们已知 \( \mathbb{E}[X] = \mathbb{E}[Y] = 0.5 \),\( \text{Var}(X) = \text{Var}(Y) = 0.5 \times (1-0.5) = 0.25 \)。由于 \( X \) 和 \( Y \) 独立,因此 \( \text{Cov}(X, Y) = 0 \)。协方差矩阵为:
\[ \text{Cov}\begin{bmatrix} X \\ Y \end{bmatrix} = \begin{pmatrix} \text{Var}(X) & \text{Cov}(X, Y) \\ \text{Cov}(Y, X) & \text{Var}(Y) \end{pmatrix} = \begin{pmatrix} 0.25 & 0 \\ 0 & 0.25 \end{pmatrix} \]
相关矩阵为:
\[ \text{Corr}\begin{bmatrix} X \\ Y \end{bmatrix} = \begin{pmatrix} \rho(X, X) & \rho(X, Y) \\ \rho(Y, X) & \rho(Y, Y) \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \]
相关系数为 0,反映了 \( X \) 和 \( Y \) 之间线性无关。
4.5 多维正态分布 (Multivariate Normal Distribution)
多维正态分布 (Multivariate Normal Distribution) 是正态分布在高维空间的推广,是概率统计中最重要的多维连续型分布之一。它在统计推断、金融建模、机器学习等领域有着广泛的应用。
4.5.1 多维正态分布的定义 (Definition of Multivariate Normal Distribution)
多维正态分布有多种等价的定义方式。
① 基于概率密度函数的定义 (Definition based on PDF)
\( n \) 维随机向量 \( \mathbf{X} = (X_1, X_2, \ldots, X_n)^T \) 服从 \( n \) 维正态分布,如果其联合概率密度函数具有以下形式:
\[ f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^T \Sigma^{-1} (\mathbf{x} - \boldsymbol{\mu})\right) \]
其中,\( \mathbf{x} = (x_1, x_2, \ldots, x_n)^T \),\( \boldsymbol{\mu} = (\mu_1, \mu_2, \ldots, \mu_n)^T \) 是 \( n \) 维均值向量 (Mean Vector),\( \Sigma \) 是 \( n \times n \) 协方差矩阵 (Covariance Matrix),且 \( \Sigma \) 是对称正定矩阵,\( |\Sigma| \) 表示 \( \Sigma \) 的行列式,\( \Sigma^{-1} \) 表示 \( \Sigma \) 的逆矩阵。我们记为 \( \mathbf{X} \sim N_n(\boldsymbol{\mu}, \Sigma) \)。
② 基于线性组合的定义 (Definition based on Linear Combination)
\( n \) 维随机向量 \( \mathbf{X} \) 服从 \( n \) 维正态分布,如果对于任意常数向量 \( \mathbf{a} \in \mathbb{R}^n \),线性组合 \( \mathbf{a}^T \mathbf{X} \) 都服从一维正态分布。
③ 基于特征函数的定义 (Definition based on Characteristic Function)
\( n \) 维随机向量 \( \mathbf{X} \) 服从 \( n \) 维正态分布,如果其特征函数 \( \phi_{\mathbf{X}}(\mathbf{t}) = \mathbb{E}[e^{i\mathbf{t}^T\mathbf{X}}] \) 具有以下形式:
\[ \phi_{\mathbf{X}}(\mathbf{t}) = \exp\left(i\boldsymbol{\mu}^T \mathbf{t} - \frac{1}{2} \mathbf{t}^T \Sigma \mathbf{t}\right) \]
其中,\( \mathbf{t} = (t_1, t_2, \ldots, t_n)^T \)。
4.5.2 多维正态分布的性质 (Properties of Multivariate Normal Distribution)
多维正态分布具有许多优良的性质,这使得它在理论研究和实际应用中都非常重要。
① 边缘分布仍然是正态分布 (Marginal Distributions are Normal)
如果 \( \mathbf{X} = (X_1, X_2, \ldots, X_n)^T \sim N_n(\boldsymbol{\mu}, \Sigma) \),则 \( \mathbf{X} \) 的任意子向量仍然服从正态分布。特别地,每个分量 \( X_i \) 都服从一维正态分布 \( N(\mu_i, \Sigma_{ii}) \),其中 \( \mu_i \) 是 \( \boldsymbol{\mu} \) 的第 \( i \) 个分量,\( \Sigma_{ii} \) 是 \( \Sigma \) 的第 \( (i, i) \) 个元素(即 \( X_i \) 的方差)。
② 条件分布仍然是正态分布 (Conditional Distributions are Normal)
对于 \( \mathbf{X} = \begin{pmatrix} \mathbf{X}_1 \\ \mathbf{X}_2 \end{pmatrix} \sim N_{n_1+n_2}\left(\begin{pmatrix} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{pmatrix}, \begin{pmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{pmatrix}\right) \),在给定 \( \mathbf{X}_2 = \mathbf{x}_2 \) 的条件下,\( \mathbf{X}_1 \) 的条件分布仍然是正态分布,且其均值向量和协方差矩阵可以显式地计算出来。
③ 线性变换保持正态性 (Linear Transformations Preserve Normality)
如果 \( \mathbf{X} \sim N_n(\boldsymbol{\mu}, \Sigma) \),且 \( A \) 是 \( m \times n \) 的常数矩阵,\( \mathbf{b} \) 是 \( m \) 维常数向量,则线性变换后的随机向量 \( \mathbf{Y} = A\mathbf{X} + \mathbf{b} \) 仍然服从正态分布 \( N_m(A\boldsymbol{\mu} + \mathbf{b}, A\Sigma A^T) \)。
④ 不相关性与独立性等价 (Uncorrelatedness Implies Independence)
对于多维正态分布,如果两个分量是不相关的(即协方差为 0),则它们是相互独立的。这个性质是正态分布特有的,对于其他分布一般不成立。
⑤ 二次型与卡方分布 (Quadratic Forms and Chi-Square Distribution)
如果 \( \mathbf{X} \sim N_n(\boldsymbol{0}, \Sigma) \),且 \( \Sigma \) 正定,则二次型 \( \mathbf{X}^T \Sigma^{-1} \mathbf{X} \) 服从卡方分布 \( \chi^2(n) \),自由度为 \( n \)。
多维正态分布在统计学和工程领域中应用广泛,例如在多元回归分析 (Multivariate Regression Analysis)、判别分析 (Discriminant Analysis)、因子分析 (Factor Analysis) 等统计方法中都扮演着重要角色。理解其定义和性质,对于深入学习和应用概率统计至关重要。
5. 大数定律与中心极限定理 (Laws of Large Numbers and Central Limit Theorem)
本章将深入探讨概率论中两个 фундаментальных (fundamental) 极限定理:大数定律 (Laws of Large Numbers) 与 中心极限定理 (Central Limit Theorem)。这两个定理不仅在理论上 занимают центральное место (occupy a central place),而且在 практических приложениях (practical applications) 中也发挥着至关重要的作用。大数定律阐述了在大量重复试验中,随机事件的频率趋于其理论概率的规律性,揭示了 случайных явлений (random phenomena) 的统计稳定性。而中心极限定理则指出,在一定条件下,大量独立同分布的随机变量之和的分布逼近正态分布,为统计推断提供了强有力的理论 основание (foundation)。理解并掌握这两个定理,是深入理解概率统计与随机过程,并将其应用于实际问题的关键。
5.1 大数定律 (Laws of Large Numbers)
大数定律 (Laws of Large Numbers) 是概率论中描述随机事件平均结果稳定性的 фундаментальных (fundamental) 定理。它指出,当试验次数 достаточно велика (sufficiently large) 时,随机事件的频率将稳定在某个常数附近,这个常数正是事件的理论概率。大数定律从数学上严格 обосновывает (justifies) 了频率的稳定性,为我们用频率估计概率提供了理论依据。本节将介绍几种常见的大数定律,包括 切比雪夫大数定律 (Chebyshev's Law of Large Numbers), 伯努利大数定律 (Bernoulli's Law of Large Numbers), 以及 辛钦大数定律 (Khinchin's Law of Large Numbers),并探讨它们在实际问题中的应用。
5.1.1 切比雪夫大数定律 (Chebyshev's Law of Large Numbers)
切比雪夫大数定律 (Chebyshev's Law of Large Numbers) 是大数定律中最 классических (classical) 形式之一。它给出了在一定条件下,样本均值依概率收敛于总体期望的结论。
定理 5.1 (切比雪夫大数定律):设 \(X_1, X_2, \ldots, X_n, \ldots\) 是一列相互独立的随机变量,且它们具有有限的方差,即 \(Var(X_i) = \sigma_i^2 < \infty\)。记 \(E(X_i) = \mu_i\),并设前 \(n\) 个随机变量的方差之和有界,即存在常数 \(C > 0\),使得
\[ \sum_{i=1}^{n} \sigma_i^2 \le C n^2 \]
或更强的条件,均匀有界方差,即存在常数 \(M > 0\),使得 \(\sigma_i^2 \le M\) 对所有 \(i\) 成立。
令样本均值为 \(\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i\),则对于任意 \(\epsilon > 0\),有
\[ \lim_{n \to \infty} P(|\bar{X}_n - \frac{1}{n} \sum_{i=1}^{n} \mu_i| < \epsilon) = 1 \]
特别地,如果 \(X_1, X_2, \ldots, X_n, \ldots\) 是一列独立同分布 (independent and identically distributed, i.i.d.) 的随机变量,且具有相同的期望 \(E(X_i) = \mu\) 和方差 \(Var(X_i) = \sigma^2 < \infty\),则 \(\frac{1}{n} \sum_{i=1}^{n} \mu_i = \frac{1}{n} \cdot n\mu = \mu\)。此时,切比雪夫大数定律简化为:
\[ \lim_{n \to \infty} P(|\bar{X}_n - \mu| < \epsilon) = 1 \]
这表明,当 \(n\) 足够大时,样本均值 \(\bar{X}_n\) 依概率 очень близко (very close) 于总体期望 \(\mu\)。
意义:
① 理论意义: 切比雪夫大数定律从理论上揭示了样本均值依概率收敛于总体期望的规律,为我们使用样本均值估计总体期望提供了理论依据。即使随机变量的分布未知,只要满足方差有限和独立性条件,大数定律仍然成立。
② 实际意义: 在实际应用中,当我们进行大量重复试验时,可以通过计算样本均值来 приближенно (approximately) 估计总体的期望值。例如,在质量检测中,通过抽取大量样本并计算样本的平均质量,可以估计产品的总体平均质量。
证明思路 (简要): 切比雪夫大数定律的证明主要利用 切比雪夫不等式 (Chebyshev's Inequality)。对于 i.i.d. 的情况,样本均值 \(\bar{X}_n\) 的期望为 \(E(\bar{X}_n) = \mu\),方差为 \(Var(\bar{X}_n) = \frac{\sigma^2}{n}\)。利用切比雪夫不等式,对于任意 \(\epsilon > 0\),有
\[ P(|\bar{X}_n - \mu| \ge \epsilon) \le \frac{Var(\bar{X}_n)}{\epsilon^2} = \frac{\sigma^2}{n \epsilon^2} \]
当 \(n \to \infty\) 时,\(\frac{\sigma^2}{n \epsilon^2} \to 0\),因此 \(P(|\bar{X}_n - \mu| \ge \epsilon) \to 0\),从而 \(P(|\bar{X}_n - \mu| < \epsilon) \to 1\)。
5.1.2 伯努利大数定律 (Bernoulli's Law of Large Numbers)
伯努利大数定律 (Bernoulli's Law of Large Numbers) 是切比雪夫大数定律的一个 важный (important) 特例,也是历史上最早被证明的大数定律之一。它专门针对 伯努利试验 (Bernoulli trial) 序列,揭示了事件发生的频率依概率收敛于其概率的规律。
定理 5.2 (伯努利大数定律):设在 \(n\) 重伯努利试验中,事件 \(A\) 发生的次数为 \(n_A\),事件 \(A\) 在每次试验中发生的概率为 \(p\)。则对于任意 \(\epsilon > 0\),有
\[ \lim_{n \to \infty} P(|\frac{n_A}{n} - p| < \epsilon) = 1 \]
其中,\(\frac{n_A}{n}\) 称为事件 \(A\) 发生的 频率 (frequency)。
理解: 伯努利大数定律表明,当试验次数 \(n\) 足够大时,事件 \(A\) 发生的频率 \(\frac{n_A}{n}\) 将依概率非常接近事件 \(A\) 的概率 \(p\)。 这就是我们常说的 “频率逼近概率” 的直观体现。
与切比雪夫大数定律的关系: 伯努利大数定律可以看作是切比雪夫大数定律在伯努利试验序列中的应用。在伯努利试验中,每次试验的结果可以用一个 伯努利随机变量 (Bernoulli random variable) \(X_i\) 表示,其中
\[ X_i = \begin{cases} 1, & \text{若第 } i \text{ 次试验事件 } A \text{ 发生} \\ 0, & \text{若第 } i \text{ 次试验事件 } A \text{ 不发生} \end{cases} \]
则 \(E(X_i) = 1 \cdot p + 0 \cdot (1-p) = p\),\(Var(X_i) = E(X_i^2) - [E(X_i)]^2 = p - p^2 = p(1-p)\)。事件 \(A\) 发生的次数 \(n_A = \sum_{i=1}^{n} X_i\),频率 \(\frac{n_A}{n} = \frac{1}{n} \sum_{i=1}^{n} X_i = \bar{X}_n\)。由于 \(X_1, X_2, \ldots, X_n\) 是独立同分布的,且方差有限,因此满足切比雪夫大数定律的条件,从而伯努利大数定律是切比雪夫大数定律的直接推论。
应用: 伯努利大数定律在很多领域都有重要的应用,例如:
① 民意调查: 通过大量的随机抽样调查,可以利用样本中支持某一观点的比例来估计总体中支持该观点的比例。
② 产品合格率估计: 通过抽取大量产品进行检验,可以利用样本的合格率来估计产品的总体合格率。
③ 赌博: 从理论上解释了为什么长期赌博 "久赌必输",因为每次赌博的期望收益通常是负的,随着赌博次数的增加,平均收益会趋近于这个负期望。
5.1.3 辛钦大数定律 (Khinchin's Law of Large Numbers)
辛钦大数定律 (Khinchin's Law of Large Numbers) 是大数定律的另一个重要形式,它进一步放宽了对方差有限的要求,只需要随机变量具有相同的期望即可。
定理 5.3 (辛钦大数定律):设 \(X_1, X_2, \ldots, X_n, \ldots\) 是一列 独立同分布 (i.i.d.) 的随机变量,且具有相同的有限期望 \(E(X_i) = \mu\)。令样本均值为 \(\bar{X}_n = \frac{1}{n} \sum_{i=1}^{n} X_i\),则对于任意 \(\epsilon > 0\),有
\[ \lim_{n \to \infty} P(|\bar{X}_n - \mu| < \epsilon) = 1 \]
即样本均值 \(\bar{X}_n\) 依概率收敛于总体期望 \(\mu\)。
关键区别: 与切比雪夫大数定律相比,辛钦大数定律不再要求随机变量具有有限的方差,只需要期望存在且有限即可。这使得辛钦大数定律的应用范围更广。
例子: 考虑 柯西分布 (Cauchy distribution)。柯西分布的概率密度函数为 \(f(x) = \frac{1}{\pi(1+x^2)}\)。柯西分布的期望不存在(积分发散),方差自然也不存在。虽然柯西分布不满足切比雪夫大数定律的条件(方差不存在),但如果考虑 i.i.d. 的柯西分布随机变量序列,辛钦大数定律仍然不适用,因为其期望不存在。然而,如果我们考虑期望存在的 i.i.d. 随机变量序列,即使方差不存在,辛钦大数定律仍然成立。
意义: 辛钦大数定律进一步 подтверждает (confirms) 了频率的稳定性,并扩展了大数定律的适用范围。在实际问题中,很多情况下我们只能保证随机变量的期望存在,而难以验证方差是否有限。此时,辛钦大数定律就显得尤为重要。
5.1.4 大数定律的应用 (Applications of Laws of Large Numbers)
大数定律在统计学、工程学、经济学等众多领域都有广泛的应用。其核心思想是:通过大量重复试验或观测,可以用样本的平均结果来 приближенно (approximately) 推断总体的期望特征。
① 统计推断: 大数定律是 频率学派 (frequentist school) 统计推断的理论基础。在频率学派的框架下,概率被解释为事件发生的长期频率。大数定律保证了当样本量足够大时,样本统计量(如样本均值、样本比例)依概率收敛于相应的总体参数。这为我们使用样本数据进行统计推断提供了理论依据。例如,在估计总体均值时,我们可以使用样本均值作为估计量,大数定律保证了当样本量增大时,样本均值会越来越接近总体均值。
② 蒙特卡洛方法 (Monte Carlo methods): 蒙特卡洛方法 是一种通过大量随机模拟来解决问题的计算方法。大数定律是蒙特卡洛方法 эффективной работы (effective work) 的理论基础。例如,要计算一个复杂积分,可以使用蒙特卡洛积分方法。通过生成大量的随机点,并计算被积函数在这些点上的平均值,根据大数定律,这个平均值会依概率收敛于积分的真实值。蒙特卡洛方法在物理学、金融工程、计算机科学等领域有广泛的应用。
③ 风险管理与保险精算: 在 风险管理 (risk management) 和 保险精算 (actuarial science) 中,大数定律被用来分析和预测风险事件的发生频率和损失规模。例如,保险公司需要根据历史数据估计未来一段时间内索赔事件发生的概率和平均索赔金额。大数定律保证了当保单数量足够大时,保险公司可以 более точно (more accurately) 地预测未来的赔付风险,从而合理地制定保险费率和准备金。
④ 排队论与通信系统: 在 排队论 (queueing theory) 和 通信系统 (communication systems) 中,大数定律被用来分析系统的长期平均性能指标,如平均等待时间、平均队列长度、平均吞吐量等。例如,在分析一个呼叫中心的服务质量时,可以利用大数定律来估计长期平均呼叫等待时间。
总而言之,大数定律揭示了随机现象在大量重复试验下的统计规律性,为我们从 случайности (randomness) 中寻找 искомые закономерности (desired patterns) 提供了重要的理论工具。
5.2 中心极限定理 (Central Limit Theorem)
中心极限定理 (Central Limit Theorem, CLT) 是概率论中另一个 фундаментальный (fundamental) 极限定理,与大数定律并称为概率论的基石。中心极限定理指出,在一定条件下,大量独立同分布的随机变量之和的分布 приближается (approximates) 于正态分布。这个定理揭示了正态分布在概率统计中的中心地位,也是统计推断中极为重要的理论基础。
5.2.1 独立同分布情况下的中心极限定理 (CLT for i.i.d. Random Variables)
定理 5.4 (独立同分布中心极限定理,Lindeberg-Lévy CLT):设 \(X_1, X_2, \ldots, X_n, \ldots\) 是一列 独立同分布 (i.i.d.) 的随机变量,具有相同的期望 \(E(X_i) = \mu\) 和方差 \(Var(X_i) = \sigma^2 > 0\)。记前 \(n\) 个随机变量之和为 \(S_n = \sum_{i=1}^{n} X_i\),样本均值为 \(\bar{X}_n = \frac{S_n}{n}\)。则当 \(n \to \infty\) 时,标准化的随机变量 \(\frac{S_n - E(S_n)}{\sqrt{Var(S_n)}}\) 或 \(\frac{\bar{X}_n - E(\bar{X}_n)}{\sqrt{Var(\bar{X}_n)}}\) 的分布 依分布收敛 (converges in distribution) 于标准正态分布 \(N(0, 1)\)。
更具体地,对于任意实数 \(x\),有
\[ \lim_{n \to \infty} P(\frac{S_n - n\mu}{\sqrt{n}\sigma} \le x) = \Phi(x) \]
或
\[ \lim_{n \to \infty} P(\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \le x) = \Phi(x) \]
其中,\(\Phi(x) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{x} e^{-t^2/2} dt\) 是标准正态分布的分布函数。
理解:
① 分布逼近: 中心极限定理 не 是说 \(S_n\) 或 \(\bar{X}_n\) 的分布本身变成了正态分布,而是说当 \(n\) 足够大时,它们的 标准化形式 的分布与标准正态分布非常接近。
② 条件: 中心极限定理成立的关键条件是 独立同分布 和 有限方差。即使 исходные (original) 随机变量 \(X_i\) 的分布可以是任意的(只要方差有限),它们的和(或均值)的分布在 \(n\) 很大时都会趋近于正态分布。
③ 标准化: 需要对 \(S_n\) 或 \(\bar{X}_n\) 进行标准化处理(减去期望,除以标准差),才能使其分布收敛到标准正态分布。
证明思路 (简要): 中心极限定理的严格证明需要用到 特征函数 (characteristic function) 的概念。证明思路大致如下:
① 证明 i.i.d. 随机变量和的特征函数等于单个随机变量特征函数的 \(n\) 次方。
② 证明标准化的随机变量和的特征函数,当 \(n \to \infty\) 时,收敛于标准正态分布的特征函数 \(e^{-t^2/2}\)。
③ 利用 连续性定理 (Continuity Theorem),从特征函数的收敛性推导出分布函数的收敛性。
5.2.2 一般情况下的中心极限定理 (CLT for General Case)
除了独立同分布的情况,中心极限定理还有更一般的形式,例如 Lindeberg-Feller 中心极限定理 (Lindeberg-Feller Central Limit Theorem) 和 Lyapunov 中心极限定理 (Lyapunov Central Limit Theorem)。这些定理放宽了独立同分布的条件,允许随机变量序列具有不同的分布,但仍然要求它们是独立的,并且满足一些额外的条件(如 Lindeberg 条件 (Lindeberg condition) 或 Lyapunov 条件 (Lyapunov condition))。
Lindeberg-Feller 中心极限定理 (简述): 对于独立但不一定同分布的随机变量序列 \(X_1, X_2, \ldots, X_n\),如果满足 Lindeberg 条件,则它们的和的标准化形式依分布收敛于标准正态分布。Lindeberg 条件是一个 относительно сложное (relatively complex) 的条件,大致意思是说,每个 \(X_i\) 的方差相对总方差来说 должны быть не слишком大 (should not be too large)。
Lyapunov 中心极限定理 (简述): Lyapunov 中心极限定理提供了一个 более легко验证 (easier to verify) 的条件。如果独立随机变量序列 \(X_1, X_2, \ldots, X_n\) 满足 Lyapunov 条件,即存在 \(\delta > 0\),使得
\[ \lim_{n \to \infty} \frac{\sum_{i=1}^{n} E(|X_i - \mu_i|^{2+\delta})}{(\sum_{i=1}^{n} \sigma_i^2)^{1+\delta/2}} = 0 \]
其中 \(\mu_i = E(X_i)\),\(\sigma_i^2 = Var(X_i)\),则它们的和的标准化形式依分布收敛于标准正态分布。 Lyapunov 条件本质上是要求随机变量的 三阶中心矩 (third central moment)(或更高阶矩)相对于方差增长速度 не 能太快 (cannot be too fast)。
在实际应用中,Lindeberg-Feller 和 Lyapunov 中心极限定理的应用相对较少,因为验证 Lindeberg 条件或 Lyapunov 条件通常比较麻烦。但在理论研究中,它们提供了更 широкое понимание (broader understanding) 中心极限定理的本质和适用范围。
5.2.3 中心极限定理的应用 (Applications of Central Limit Theorem)
中心极限定理是统计学中 最为重要的 (most important) 定理之一,其应用遍及统计推断、假设检验、参数估计、近似计算等各个领域。
① 统计推断: 中心极限定理是 构建置信区间 (confidence interval) 和 假设检验 (hypothesis testing) 的理论基础。在很多情况下,即使总体分布 неизвестна (unknown),只要样本量 достаточно 大 (sufficiently large),我们就可以利用中心极限定理,将样本均值的抽样分布 近似 (approximately) 看作正态分布,从而构建基于正态分布的统计推断方法,如 t 检验、z 检验等。这极大地 расширяет (expands) 了统计推断方法的适用范围。
② 近似计算: 当需要计算 多个独立随机变量之和的概率 时,如果直接计算非常困难,可以利用中心极限定理,用正态分布来近似计算。例如,在 误差分析 (error analysis) 中,总误差通常可以看作是多个独立误差源的叠加,此时可以使用中心极限定理来近似计算总误差的分布。
③ 质量控制 (quality control): 在工业生产的 质量控制 过程中,常常需要对产品的某些指标进行抽样检验。中心极限定理可以用来分析样本均值的分布,从而制定合理的抽样方案和控制限,保证产品质量的稳定性。
④ 金融工程 (financial engineering): 在 金融模型 (financial models) 中,很多随机过程(如股票价格、利率变动)可以看作是大量微小随机因素的累积效应。中心极限定理为使用 布朗运动 (Brownian motion) 和 扩散过程 (diffusion processes) 等连续时间随机过程来建模金融现象提供了理论支持。
⑤ 排队论与通信系统: 在 排队论 和 通信系统 的性能分析中,中心极限定理可以用来近似分析系统性能指标的分布,例如,在分析一个大型排队系统的平均等待时间时,可以使用中心极限定理来近似计算等待时间的分布。
总而言之,中心极限定理揭示了正态分布的 普遍性 (universality),说明了大量独立随机因素累积作用的结果往往呈现出正态分布的特征。这使得正态分布成为统计学中 最为重要 (most important) 和 应用最为广泛 (most widely used) 的分布之一。
6. 数理统计基础 (Foundations of Mathematical Statistics)
本章从统计学的基本概念出发,介绍统计学的基本思想、数据类型、描述性统计方法和抽样理论,为后续的统计推断打下基础。
6.1 统计学的基本概念 (Basic Concepts of Statistics)
本节介绍统计学的定义、研究对象、基本思想和应用领域。
6.1.1 统计学的定义与研究对象 (Definition and Object of Statistics)
统计学 (Statistics) 是一门收集、处理、分析、解释数据,并从数据中提取信息、做出推断和预测的科学和艺术。更具体地说,统计学是研究随机现象的数量规律性的学科。
① 定义:统计学是关于数据 (data) 的科学。它包括:
▮▮▮▮ⓑ 设计:如何有效地收集数据。例如,实验设计、抽样调查设计等。
▮▮▮▮ⓒ 描述:如何总结和可视化数据,以便更好地理解数据的主要特征。例如,描述性统计、图表展示等。
▮▮▮▮ⓓ 推断:如何利用样本数据对总体进行推断和预测。例如,参数估计、假设检验、回归分析等。
② 研究对象:统计学的研究对象是随机现象。随机现象具有以下特点:
▮▮▮▮ⓑ 偶然性 (randomness):在个别试验中,结果呈现不确定性。
▮▮▮▮ⓒ 规律性 (regularity):在大量重复试验中,结果呈现出统计规律性。
例如,抛掷硬币的结果是随机的,但大量抛掷后,正面朝上的频率会稳定在 0.5 附近,这就是统计规律性。统计学正是要揭示和应用这种规律性。
③ 主要内容: 统计学主要包含描述统计 (descriptive statistics) 和推断统计 (inferential statistics) 两大部分。
▮▮▮▮ⓑ 描述统计:研究如何概括和描述数据,包括数据的收集、整理、展示和分析。目的是描述数据集的特征,而不是进行推断。
▮▮▮▮ⓒ 推断统计:研究如何利用样本数据对总体特征进行推断,包括参数估计、假设检验、预测等。目的是利用样本信息推断总体特征。
6.1.2 统计学的基本思想 (Basic Ideas of Statistics)
统计学的基本思想是用样本推断总体。在实际问题中,我们往往无法获取研究对象全体(总体 (population))的数据,而只能通过抽样 (sampling) 的方式获取部分研究对象(样本 (sample))的数据。统计学通过分析样本数据,来推断总体的特征。
① 总体 (Population) 与个体 (Individual):
▮▮▮▮ⓑ 总体:是研究对象的全体,它可以是人、事物或观测值的集合。总体通常由个体 (individual) 组成。
▮▮▮▮ⓒ 个体:是总体中的每一个基本单元。
例如,要研究某大学所有学生的平均身高,则该大学所有学生构成总体,每个学生就是一个个体。
② 样本 (Sample):是从总体中抽取的一部分个体组成的集合。样本是总体的一个子集。
▮▮▮▮ⓑ 样本容量 (sample size):样本中所包含的个体数目。
例如,从该大学随机抽取 100 名学生,这 100 名学生构成一个样本,样本容量为 100。
③ 随机抽样 (Random Sampling):为了保证样本的代表性,抽样过程需要满足随机性原则,即总体中每个个体都有相同的机会被抽取到样本中。常见的随机抽样方法包括:
▮▮▮▮ⓑ 简单随机抽样 (simple random sampling):从总体中随机、等概率地抽取个体,保证每个个体被抽取的概率相等,每组样本被抽取的概率也相等。
▮▮▮▮ⓒ 分层抽样 (stratified sampling):先将总体划分为若干个层 (strata),然后在每层内进行简单随机抽样。适用于总体由明显差异的组群组成的情况,可以提高样本的代表性。
▮▮▮▮ⓓ 整群抽样 (cluster sampling):将总体划分为若干个群 (clusters),然后随机抽取若干个群,对抽取的群内的所有个体进行调查。适用于总体分布范围广、抽样单位分散的情况,可以节省抽样成本。
▮▮▮▮ⓔ 系统抽样 (systematic sampling):先将总体中的个体编号排序,然后按照一定的间隔抽取个体。例如,每隔 10 个个体抽取 1 个。适用于总体个体排列有序的情况。
④ 参数 (Parameter) 与统计量 (Statistic):
▮▮▮▮ⓑ 参数:是描述总体特征的数值,通常是未知的,需要通过样本数据进行估计。例如,总体均值 \( \mu \)、总体方差 \( \sigma^2 \)、总体比例 \( p \) 等。
▮▮▮▮ⓒ 统计量:是描述样本特征的数值,是样本数据的函数,可以计算得到,用于估计总体参数。例如,样本均值 \( \bar{X} \)、样本方差 \( S^2 \)、样本比例 \( \hat{p} \) 等。
统计推断的核心思想就是利用统计量的数值来推断未知的参数。
6.1.3 数据类型 (Types of Data)
根据数据的性质和测量尺度,可以将数据分为不同的类型。常见的数据类型包括:
① 分类数据 (Categorical Data) (或定性数据 (Qualitative Data)):描述事物类别或属性的数据,取值为类别名称,只能进行分类,不能进行数值运算。
▮▮▮▮ⓑ 名义数据 (Nominal Data):类别之间没有顺序关系。例如,性别(男、女)、血型(A、B、AB、O)、颜色(红、黄、蓝)等。
▮▮▮▮ⓒ 有序数据 (Ordinal Data):类别之间有顺序关系,但数值本身没有实际意义,只能比较大小或等级。例如,等级(优、良、中、差)、学历(小学、中学、大学)、态度(非常满意、满意、一般、不满意、非常不满意)等。
② 数值数据 (Numerical Data) (或定量数据 (Quantitative Data)):描述事物数量特征的数据,取值为数值,可以进行数值运算。
▮▮▮▮ⓑ 离散数据 (Discrete Data):取值是可数的,通常为整数。例如,人数、产品件数、事故次数等。
▮▮▮▮ⓒ 连续数据 (Continuous Data):取值是不可数的,可以在某个区间内取任意值 (理论上)。例如,身高、体重、温度、时间等。
各种数据类型具有不同的特点,在统计分析中需要采用不同的方法。例如,对于分类数据,通常使用频数、频率、列联表等进行分析;对于数值数据,可以使用均值、方差、相关系数、回归模型等进行分析。
6.2 描述性统计 (Descriptive Statistics)
本节介绍常用的描述性统计方法,包括图表展示、集中趋势和离散程度的度量。描述性统计旨在概括和描述数据集的主要特征,为进一步的推断统计分析奠定基础。
6.2.1 数据的图表展示 (Graphical Representation of Data)
图表是描述性统计的重要工具,能够直观、有效地展示数据的分布特征和结构。常用的统计图表包括:
① 直方图 (Histogram):用于展示数值数据的分布情况。
▮▮▮▮ⓑ 制作方法:将数据分成若干组,以组距为宽度,以频数或频率为高度绘制矩形。
▮▮▮▮ⓒ 适用数据:连续型或离散型数值数据。
▮▮▮▮ⓓ 作用:展示数据的分布形状,如对称、偏斜、单峰、多峰等。
② 条形图 (Bar Chart):用于展示分类数据的频数或频率。
▮▮▮▮ⓑ 制作方法:用宽度相同的条形的高度表示各类别的频数或频率,条形之间相互分离。
▮▮▮▮ⓒ 适用数据:分类数据(名义数据、有序数据)。
▮▮▮▮ⓓ 作用:比较各类别之间的频数或频率大小。
③ 饼图 (Pie Chart):用于展示分类数据各类别占总体的比例 (百分比)。
▮▮▮▮ⓑ 制作方法:将一个圆饼按各类别数据的比例分割成扇形,扇形面积大小代表该类别的比例。
▮▮▮▮ⓒ 适用数据:分类数据(名义数据、有序数据),通常类别数不宜过多。
▮▮▮▮ⓓ 作用:展示各类别在总体中所占的比例结构。
④ 箱线图 (Box Plot) (或箱形图):用于展示数值数据的分布、中位数、四分位数、异常值等信息。
▮▮▮▮ⓑ 制作方法:
▮▮▮▮▮▮▮▮❸ 计算数据的中位数 \( M \)、下四分位数 \( Q_1 \) (第 25 百分位数)、上四分位数 \( Q_3 \) (第 75 百分位数)。
▮▮▮▮▮▮▮▮❹ 计算四分位距 \( IQR = Q_3 - Q_1 \)。
▮▮▮▮▮▮▮▮❺ 确定上限 \( U = Q_3 + 1.5IQR \) 和 下限 \( L = Q_1 - 1.5IQR \)。
▮▮▮▮▮▮▮▮❻ 绘制箱子,箱子的上下边界分别为 \( Q_1 \) 和 \( Q_3 \),箱子内中线为 \( M \)。
▮▮▮▮▮▮▮▮❼ 从箱子两端向数据最大值和最小值(但不超过上限 \( U \) 和下限 \( L \))引出触须 (须线)。
▮▮▮▮▮▮▮▮❽ 将异常值 (outliers) (超出上限 \( U \) 和下限 \( L \) 的数据点) 单独标出。
▮▮▮▮ⓘ 适用数据:数值数据。
▮▮▮▮ⓙ 作用:展示数据的中心位置、离散程度、分布形状、对称性、异常值等信息,便于比较多组数据的分布特征。
⑤ 散点图 (Scatter Plot):用于展示两个数值变量之间的关系。
▮▮▮▮ⓑ 制作方法:以两个变量分别作为横轴和纵轴,将每个观测值在坐标系中描绘成一个点。
▮▮▮▮ⓒ 适用数据:两个数值变量。
▮▮▮▮ⓓ 作用:观察两个变量之间是否存在相关关系,以及关系的类型(线性、非线性、正相关、负相关等)。
6.2.2 集中趋势的度量 (Measures of Central Tendency)
集中趋势 (central tendency) 反映数据向中心值集中的程度,或者说是数据分布的中心位置。常用的集中趋势的度量指标包括:
① 均值 (Mean) (或平均数 (Average)):所有数据的算术平均值,记为 \( \bar{x} \) 或 \( \mu \)。
▮▮▮▮ⓑ 计算公式:对于 \( n \) 个数据 \( x_1, x_2, \dots, x_n \),均值 \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \)。
▮▮▮▮ⓒ 特点:
▮▮▮▮▮▮▮▮❹ 易受极端值影响 (敏感性):均值容易受到极端值的影响,当数据中存在异常值时,均值可能会偏离数据的中心位置。
▮▮▮▮▮▮▮▮❺ 适用性:适用于对称分布的数据,特别是正态分布数据。
② 中位数 (Median) (或中值):将数据排序后,位于中间位置的数值。记为 \( M \) 或 \( Med \)。
▮▮▮▮ⓑ 计算方法:
▮▮▮▮▮▮▮▮❸ 将数据从小到大排序。
▮▮▮▮▮▮▮▮❹ 若数据个数 \( n \) 为奇数,中位数为中间位置的数值,即第 \( \frac{n+1}{2} \) 个数。
▮▮▮▮▮▮▮▮❺ 若数据个数 \( n \) 为偶数,中位数为中间两个数的平均值,即第 \( \frac{n}{2} \) 个数和第 \( \frac{n}{2} + 1 \) 个数的平均值。
▮▮▮▮ⓕ 特点:
▮▮▮▮▮▮▮▮❼ 不易受极端值影响 (稳健性):中位数不受极端值的影响,能够更好地反映偏斜分布数据的中心位置。
▮▮▮▮▮▮▮▮❽ 适用性:适用于各种分布的数据,特别是偏斜分布数据和存在异常值的数据。
③ 众数 (Mode):数据中出现次数最多的数值。记为 \( Mo \)。
▮▮▮▮ⓑ 特点:
▮▮▮▮▮▮▮▮❸ 不受极端值影响。
▮▮▮▮▮▮▮▮❹ 可能不存在或不唯一:数据集的众数可能不存在(所有数据出现次数都一样),也可能不唯一(存在多个出现次数最多的数值)。
▮▮▮▮▮▮▮▮❺ 适用性:适用于各种类型的数据,包括数值数据和分类数据。对于分类数据,众数是最有意义的集中趋势度量。
④ 分位数 (Quantile):将数据排序后,位于特定位置的数值。常用的分位数包括:
▮▮▮▮ⓑ 四分位数 (Quartile):将数据四等分,分为下四分位数 \( Q_1 \) (第 25 百分位数)、中位数 \( Q_2 \) (第 50 百分位数)、上四分位数 \( Q_3 \) (第 75 百分位数)。
▮▮▮▮ⓒ 百分位数 (Percentile):将数据一百等分,第 \( p \) 百分位数 \( P_p \) 表示有 \( p\% \) 的数据小于或等于该值。
不同的集中趋势度量指标适用于不同的数据类型和分布特征。在实际应用中,需要根据数据的特点选择合适的集中趋势度量指标。例如,对于对称分布的数据,均值、中位数、众数通常较为接近,均值是最常用的指标;对于偏斜分布的数据或存在异常值的数据,中位数或众数可能更具有代表性。
6.2.3 离散程度的度量 (Measures of Dispersion)
离散程度 (dispersion) 反映数据偏离中心值的程度,或者说是数据分布的分散程度。常用的离散程度的度量指标包括:
① 极差 (Range):数据中最大值与最小值之差,记为 \( R \)。
▮▮▮▮ⓑ 计算公式:\( R = \max(x_i) - \min(x_i) \)。
▮▮▮▮ⓒ 特点:
▮▮▮▮▮▮▮▮❹ 计算简单。
▮▮▮▮▮▮▮▮❺ 易受极端值影响 (非常敏感):极差只考虑了最大值和最小值,忽略了中间数据的分布情况,容易受到极端值的影响,不能全面反映数据的离散程度。
▮▮▮▮▮▮▮▮❻ 适用性:简单描述数据范围,不适合精确度量离散程度。
② 四分位距 (Interquartile Range, IQR):上四分位数 \( Q_3 \) 与下四分位数 \( Q_1 \) 之差,记为 \( IQR \)。
▮▮▮▮ⓑ 计算公式:\( IQR = Q_3 - Q_1 \)。
▮▮▮▮ⓒ 特点:
▮▮▮▮▮▮▮▮❹ 稳健性:四分位距不受极端值的影响,能够更好地反映中间 50% 数据的离散程度。
▮▮▮▮▮▮▮▮❺ 适用性:适用于偏斜分布数据和存在异常值的数据,常用于箱线图中表示数据的离散程度。
③ 方差 (Variance):各数据与其均值偏差平方的平均数,记为 \( \sigma^2 \) (总体方差) 或 \( s^2 \) (样本方差)。
▮▮▮▮ⓑ 总体方差 \( \sigma^2 \) 的计算公式:对于总体 \( X \) 的所有 \( N \) 个个体 \( x_1, x_2, \dots, x_N \),总体均值为 \( \mu = \frac{1}{N} \sum_{i=1}^{N} x_i \),总体方差为 \( \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 \)。
▮▮▮▮ⓒ 样本方差 \( s^2 \) 的计算公式:对于样本 \( x_1, x_2, \dots, x_n \),样本均值为 \( \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i \),样本方差的无偏估计为 \( s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 \)。分母使用 \( n-1 \) 是为了保证样本方差 \( s^2 \) 是总体方差 \( \sigma^2 \) 的无偏估计。
▮▮▮▮ⓓ 特点:
▮▮▮▮▮▮▮▮❺ 全面反映数据离散程度:方差考虑了所有数据与均值的偏差,能够全面反映数据的离散程度。
▮▮▮▮▮▮▮▮❻ 单位与数据单位不一致:方差的单位是数据单位的平方,不便于直接解释。
▮▮▮▮▮▮▮▮❼ 易受极端值影响。
④ 标准差 (Standard Deviation):方差的平方根,记为 \( \sigma \) (总体标准差) 或 \( s \) (样本标准差)。
▮▮▮▮ⓑ 总体标准差 \( \sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2} \)。
▮▮▮▮ⓒ 样本标准差 \( s = \sqrt{s^2} = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2} \)。
▮▮▮▮ⓓ 特点:
▮▮▮▮▮▮▮▮❺ 单位与数据单位一致:标准差的单位与数据单位相同,便于解释。
▮▮▮▮▮▮▮▮❻ 与方差具有相同的性质:标准差与方差一样,能够全面反映数据的离散程度,但同样易受极端值影响。
⑤ 变异系数 (Coefficient of Variation, CV):标准差与均值之比,通常用百分比表示,记为 \( CV \)。
▮▮▮▮ⓑ 计算公式:\( CV = \frac{s}{\bar{x}} \times 100\% \) (样本变异系数)。
▮▮▮▮ⓒ 特点:
▮▮▮▮▮▮▮▮❹ 无量纲:变异系数是无量纲的,不受数据单位的影响,可以用于比较不同单位或均值差异较大的数据集的离散程度。
▮▮▮▮▮▮▮▮❺ 相对离散程度:变异系数反映的是相对于均值的离散程度。
▮▮▮▮▮▮▮▮❻ 适用性:适用于均值不为零的数值数据,特别是当需要比较不同数据集的离散程度时。
不同的离散程度度量指标从不同角度反映数据的分散程度,各有优缺点,适用于不同的分析目的和数据特点。在实际应用中,需要综合考虑数据的分布特征和分析目的,选择合适的离散程度度量指标。例如,对于正态分布数据,方差和标准差是最常用的离散程度度量;对于偏斜分布数据或存在异常值的数据,四分位距可能更稳健;当需要比较不同数据集的相对离散程度时,变异系数是一个有用的指标。
6.3 抽样理论基础 (Fundamentals of Sampling Theory)
本节介绍抽样调查的基本概念、抽样方法和抽样分布,为统计推断提供理论基础。抽样理论是统计推断的基石,它阐述了如何通过样本数据推断总体特征的原理和方法。
6.3.1 总体与样本 (Population and Sample)
在统计学中,总体 (population) 是研究对象的全体,样本 (sample) 是从总体中抽取的一部分个体。
① 总体 (Population):
▮▮▮▮ⓑ 定义:是研究的所有个体的集合。总体可以是有限的,也可以是无限的。
▮▮▮▮▮▮▮▮❸ 有限总体 (finite population):包含有限个个体的总体。例如,某大学所有学生的集合。
▮▮▮▮▮▮▮▮❹ 无限总体 (infinite population):包含无限个个体的总体。例如,所有可能生产出来的产品集合(理论上是无限的)。
▮▮▮▮ⓔ 参数 (parameter):描述总体特征的数值,例如总体均值 \( \mu \)、总体方差 \( \sigma^2 \)。参数通常是未知的,需要通过样本数据进行估计。
② 样本 (Sample):
▮▮▮▮ⓑ 定义:是从总体中随机抽取的一部分个体组成的集合。样本是总体的一个子集。
▮▮▮▮ⓒ 样本容量 (sample size):样本中所包含的个体数目,记为 \( n \)。
▮▮▮▮ⓓ 统计量 (statistic):描述样本特征的数值,例如样本均值 \( \bar{X} \)、样本方差 \( S^2 \)。统计量是样本数据的函数,可以计算得到,用于估计总体参数。
③ 总体与样本的关系:
▮▮▮▮ⓑ 样本来自总体:样本是从总体中抽取的一部分,样本数据蕴含着总体的信息。
▮▮▮▮ⓒ 用样本推断总体:统计推断的目标是通过分析样本数据,来推断总体的特征(参数)。
▮▮▮▮ⓓ 抽样误差 (sampling error):由于样本只是总体的一部分,样本统计量与总体参数之间存在差异,这种差异称为抽样误差。抽样误差是不可避免的,但可以通过合理的抽样方法和增加样本容量来减小。
6.3.2 简单随机抽样 (Simple Random Sampling)
简单随机抽样 (simple random sampling) 是最基本的抽样方法,保证总体中每个个体都有相同的机会被抽取到样本中,保证样本的代表性。
① 简单随机抽样的定义:从总体为 \( N \) 的总体中不放回地抽取 \( n \) 个个体,如果每次抽取时,总体中每个个体被抽取的概率都相等,则称这种抽样方式为简单随机抽样。抽取的样本称为简单随机样本。
② 简单随机抽样的特点:
▮▮▮▮ⓑ 等概率性:总体中每个个体被抽取的概率相等,都为 \( \frac{n}{N} \)。
▮▮▮▮ⓒ 独立性:每次抽样是独立的,个体之间相互独立。
▮▮▮▮ⓓ 无偏性:简单随机样本能够较好地代表总体,样本统计量能够较好地估计总体参数。
③ 简单随机抽样的方法:
▮▮▮▮ⓑ 抽签法 (lottery method):
▮▮▮▮▮▮▮▮❸ 将总体中每个个体编号。
▮▮▮▮▮▮▮▮❹ 将号码写在纸片上,放入箱中,充分搅拌。
▮▮▮▮▮▮▮▮❺ 每次从中随机抽取一个号码,直到抽取 \( n \) 个号码为止。
▮▮▮▮ⓕ 随机数表法 (random number table method):
▮▮▮▮▮▮▮▮❼ 将总体中每个个体编号。
▮▮▮▮▮▮▮▮❽ 查阅随机数表,随机确定起始行和列。
▮▮▮▮▮▮▮▮❾ 从起始位置开始,按一定规则(例如按行、按列)选取号码,直到选取 \( n \) 个不重复的号码为止。
▮▮▮▮ⓙ 计算机随机抽样 (computer random sampling):利用计算机软件生成随机数,进行随机抽样。现代统计分析中,计算机随机抽样是最常用的方法。
6.3.3 抽样分布的概念 (Concept of Sampling Distribution)
抽样分布 (sampling distribution) 是统计推断的重要理论基础。由于样本是随机抽取的,样本统计量也是随机变量,它具有一定的概率分布,这种分布就称为抽样分布。
① 统计量的随机性:由于样本是随机抽取的,每次抽样得到的样本都可能不同,因此由样本计算得到的统计量(如样本均值 \( \bar{X} \)、样本方差 \( S^2 \))也是随机变量,其取值具有随机性。
② 抽样分布的定义:由样本统计量构成的随机变量的概率分布,称为抽样分布。抽样分布描述了统计量在多次重复抽样下的取值规律。
③ 抽样分布的意义:
▮▮▮▮ⓑ 统计推断的基础:抽样分布是进行统计推断的基础。通过了解统计量的抽样分布,我们可以评估样本统计量对总体参数的估计精度,进行参数估计和假设检验。
▮▮▮▮ⓒ 连接样本与总体:抽样分布建立了样本统计量与总体参数之间的桥梁,使得我们可以利用样本信息推断总体特征。
④ 获取抽样分布的方法:
▮▮▮▮ⓑ 理论推导:在一些情况下,可以根据总体的分布和抽样方法,理论推导出统计量的抽样分布。例如,正态总体样本均值的抽样分布、卡方分布、t 分布、F 分布等。
▮▮▮▮ⓒ 模拟方法 (simulation):当理论推导抽样分布困难时,可以通过计算机模拟的方法,进行大量重复抽样,计算每次抽样的统计量,然后根据这些统计量的频率分布,近似得到抽样分布。例如,Bootstrap 方法、 Monte Carlo 方法等。
6.3.4 常用统计量的抽样分布 (Sampling Distributions of Common Statistics)
在统计推断中,常用的统计量包括样本均值 \( \bar{X} \)、样本方差 \( S^2 \) 等。本节介绍这些常用统计量的抽样分布。
① 样本均值 \( \bar{X} \) 的抽样分布:
▮▮▮▮ⓑ 总体为正态分布 \( N(\mu, \sigma^2) \) 时:若总体服从正态分布,则样本均值 \( \bar{X} \) 也服从正态分布,且 \( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)。
\[ \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right) \]
▮▮▮▮ⓑ 中心极限定理 (Central Limit Theorem, CLT):当样本容量 \( n \) 足够大时 (通常 \( n \ge 30 \)),无论总体分布如何,样本均值 \( \bar{X} \) 的抽样分布近似服从正态分布,且 \( \bar{X} \approx N(\mu, \frac{\sigma^2}{n}) \)。
\[ \bar{X} \approx N\left(\mu, \frac{\sigma^2}{n}\right), \quad (n \ge 30) \]
中心极限定理是统计学中最重要的定理之一,它保证了在大样本情况下,我们可以用正态分布近似样本均值的抽样分布,为大样本统计推断提供了理论基础。
② 样本方差 \( S^2 \) 的抽样分布:
▮▮▮▮ⓑ 总体为正态分布 \( N(\mu, \sigma^2) \) 时:若总体服从正态分布,则 \( \frac{(n-1)S^2}{\sigma^2} \) 服从自由度为 \( n-1 \) 的 卡方分布 \( \chi^2(n-1) \)。
\[ \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \]
卡方分布是一族非负、偏斜的分布,其形状由自由度 (degrees of freedom, df) 决定。自由度可以理解为独立信息的数量。对于样本方差 \( S^2 \),自由度为 \( n-1 \),因为计算 \( S^2 \) 时,需要用到样本均值 \( \bar{X} \),这损失了一个自由度。
③ 样本均值 \( \bar{X} \) 的标准化:
▮▮▮▮ⓑ 总体方差 \( \sigma^2 \) 已知时:将样本均值 \( \bar{X} \) 标准化,得到统计量 \( Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \),则 \( Z \) 服从标准正态分布 \( N(0, 1) \)。
\[ Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1) \]
▮▮▮▮ⓑ 总体方差 \( \sigma^2 \) 未知时:用样本标准差 \( S \) 替代总体标准差 \( \sigma \),得到统计量 \( T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \),则 \( T \) 服从自由度为 \( n-1 \) 的 t 分布 \( t(n-1) \)。
\[ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) \]
t 分布是一族对称、单峰的分布,形状类似于标准正态分布,但尾部更厚,峰值更低。t 分布的形状也由自由度决定,当自由度趋于无穷大时,t 分布趋近于标准正态分布。t 分布常用于小样本、总体方差未知时的均值推断。
④ 两个样本方差比的抽样分布:
▮▮▮▮ⓑ 两个独立正态总体:设两个独立样本分别来自正态总体 \( N(\mu_1, \sigma_1^2) \) 和 \( N(\mu_2, \sigma_2^2) \),样本容量分别为 \( n_1 \) 和 \( n_2 \),样本方差分别为 \( S_1^2 \) 和 \( S_2^2 \)。则两个样本方差之比 \( F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \) 服从分子自由度为 \( n_1-1 \),分母自由度为 \( n_2-1 \) 的 F 分布 \( F(n_1-1, n_2-1) \)。
\[ F = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(n_1-1, n_2-1) \]
特别地,当 \( \sigma_1^2 = \sigma_2^2 \) 时,\( F = \frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1) \)。F 分布是一族非负、偏斜的分布,由分子和分母的自由度共同决定。F 分布常用于方差分析和两个总体方差比的假设检验。
总结: 常用统计量的抽样分布是统计推断的重要工具。正态分布、卡方分布、t 分布、F 分布是统计学中最基本、最重要的抽样分布,它们在参数估计、假设检验、方差分析、回归分析等统计推断方法中都有广泛的应用。理解和掌握这些抽样分布的性质和应用,是进行统计推断的基础。
7. 参数估计 (Parameter Estimation)
本章介绍统计推断的重要内容——参数估计,包括点估计 (point estimation) 和区间估计 (interval estimation),以及常用的估计方法,如矩估计法 (method of moments) 和最大似然估计法 (maximum likelihood estimation)。
7.1 点估计 (Point Estimation)
本节介绍点估计的概念、常用的点估计量和评价标准。
7.1.1 点估计的概念 (Concept of Point Estimation)
点估计是利用样本数据,对未知总体参数给出一个估计值的方法。这个估计值是一个具体的数值,就像在数轴上确定的一个点,因此称为点估计。点估计的目标是找到一个估计量 (estimator),用这个估计量应用于具体的样本,得到估计值 (estimate),使得这个估计值尽可能地接近未知的总体参数真值。
例如,我们想要估计一个班级学生的平均身高(总体均值 \( \mu \))。我们随机抽取一部分学生作为一个样本,测量他们的身高,然后计算样本的平均身高(样本均值 \( \bar{X} \))。这个样本均值 \( \bar{X} \) 就是总体均值 \( \mu \) 的一个点估计值。
更正式地,设总体分布的参数为 \( \theta \),我们希望通过样本 \( X_1, X_2, ..., X_n \) 来估计 \( \theta \)。点估计量是一个样本的函数 \( \hat{\theta} = \hat{\theta}(X_1, X_2, ..., X_n) \),用于估计未知参数 \( \theta \)。对于给定的样本观测值 \( x_1, x_2, ..., x_n \),我们得到点估计值 \( \hat{\theta}(x_1, x_2, ..., x_n) \)。
点估计的关键在于如何构造合适的估计量 \( \hat{\theta} \)。理想的估计量应该能够尽可能准确地反映总体参数的真实情况。然而,由于样本的随机性,点估计值与参数真值之间通常会存在一定的误差。因此,我们需要评价估计量好坏的标准,以便选择最优的点估计量。
7.1.2 常用的点估计量 (Common Point Estimators)
在实际应用中,有一些常用的点估计量,它们在不同的情况下表现良好。下面介绍几种常见的点估计量:
① 样本均值 (Sample Mean): 对于总体均值 \( \mu \) 的估计,最常用的点估计量是样本均值 \( \bar{X} \)。
\[ \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
样本均值具有良好的性质,例如,当总体方差存在时,根据大数定律,样本均值依概率收敛于总体均值。
② 样本方差 (Sample Variance): 对于总体方差 \( \sigma^2 \) 的估计,常用的点估计量是样本方差 \( S^2 \)。
\[ S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
注意这里的分母是 \( n-1 \) 而不是 \( n \)。使用 \( n-1 \) 是为了使样本方差 \( S^2 \) 成为总体方差 \( \sigma^2 \) 的无偏估计量,这一点将在后续的评价标准中详细介绍。在某些情况下,也会使用有偏样本方差 (biased sample variance) \( \hat{\sigma}^2 \) 作为估计量,其定义为:
\[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
虽然 \( \hat{\sigma}^2 \) 是有偏的,但在某些评价标准下,它可能比 \( S^2 \) 更好。
③ 样本比例 (Sample Proportion): 当总体是二项分布或伯努利分布时,我们可能关心总体中某一类事件发生的比例 \( p \)。例如,产品合格率,用户点击率等。对于总体比例 \( p \) 的估计,常用的点估计量是样本比例 \( \hat{p} \)。
\[ \hat{p} = \frac{\text{样本中事件发生的次数}}{\text{样本容量}} = \frac{\sum_{i=1}^{n} X_i}{n} \]
其中,\( X_i \) 是第 \( i \) 个样本是否发生该事件的指示变量,若发生则 \( X_i = 1 \),否则 \( X_i = 0 \)。
④ 样本中位数 (Sample Median): 对于总体中位数 (population median) 的估计,可以使用样本中位数。样本中位数是将样本值排序后,位于中间位置的值。当数据分布偏斜或者存在异常值时,样本中位数通常比样本均值更稳健。
⑤ 最大值和最小值 (Maximum and Minimum):在某些特定情况下,样本的最大值或最小值也可以作为某些参数的点估计量。例如,在均匀分布 \( U(0, \theta) \) 中,样本最大值可以用来估计 \( \theta \)。
选择合适的点估计量需要根据具体的参数和总体分布的特点来考虑。为了评价和选择点估计量,我们需要引入一些评价标准。
7.1.3 估计量的评价标准 (Criteria for Evaluating Estimators)
为了评价点估计量 \( \hat{\theta} \) 的好坏,我们需要一些评价标准。理想的估计量应该具有以下优良性质:
① 无偏性 (Unbiasedness):
一个估计量 \( \hat{\theta} \) 被称为是参数 \( \theta \) 的无偏估计量,如果其期望等于参数的真值,即:
\[ E(\hat{\theta}) = \theta \]
对于无偏估计量,多次抽样得到的估计值的平均值等于参数真值。这意味着无偏估计量在平均意义下是准确的,没有系统性的偏差。
例如,样本均值 \( \bar{X} \) 是总体均值 \( \mu \) 的无偏估计量,因为 \( E(\bar{X}) = \mu \)。样本方差 \( S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2 \) 是总体方差 \( \sigma^2 \) 的无偏估计量,即 \( E(S^2) = \sigma^2 \)。而有偏样本方差 \( \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \) 是总体方差 \( \sigma^2 \) 的有偏估计量,通常会低估总体方差。
② 有效性 (Efficiency):
在所有无偏估计量中,我们希望选择方差最小的估计量。方差越小,估计值越集中在参数真值附近,估计的精度越高。设 \( \hat{\theta}_1 \) 和 \( \hat{\theta}_2 \) 都是 \( \theta \) 的无偏估计量,如果 \( Var(\hat{\theta}_1) \leq Var(\hat{\theta}_2) \),则称 \( \hat{\theta}_1 \) 比 \( \hat{\theta}_2 \) 更有效 (more efficient)。
相对有效性 (relative efficiency) 可以用来比较两个无偏估计量的效率。对于两个无偏估计量 \( \hat{\theta}_1 \) 和 \( \hat{\theta}_2 \),\( \hat{\theta}_1 \) 相对于 \( \hat{\theta}_2 \) 的相对效率定义为:
\[ e = \frac{Var(\hat{\theta}_2)}{Var(\hat{\theta}_1)} \]
如果 \( e > 1 \),则 \( \hat{\theta}_1 \) 比 \( \hat{\theta}_2 \) 更有效。
③ 相合性 (Consistency):
相合性描述的是当样本容量 \( n \) 趋于无穷大时,估计量 \( \hat{\theta}_n \) 是否依概率收敛于参数真值 \( \theta \)。如果对于任意 \( \epsilon > 0 \),有:
\[ \lim_{n \to \infty} P(|\hat{\theta}_n - \theta| < \epsilon) = 1 \]
则称 \( \hat{\theta}_n \) 是 \( \theta \) 的相合估计量 (consistent estimator)。相合性保证了随着样本量的增大,估计值会越来越接近参数真值。
例如,样本均值 \( \bar{X}_n \) 是总体均值 \( \mu \) 的相合估计量(在一定条件下,如总体方差存在)。样本方差 \( S_n^2 \) 也是总体方差 \( \sigma^2 \) 的相合估计量(在一定条件下,如总体四阶中心矩存在)。
④ 均方误差 (Mean Squared Error, MSE):
均方误差综合考虑了估计量的偏差和方差,是衡量估计量好坏的一个常用指标。对于估计量 \( \hat{\theta} \),其均方误差定义为:
\[ MSE(\hat{\theta}) = E[(\hat{\theta} - \theta)^2] \]
均方误差可以分解为方差和偏差平方之和:
\[ MSE(\hat{\theta}) = Var(\hat{\theta}) + [Bias(\hat{\theta})]^2 \]
其中,\( Bias(\hat{\theta}) = E(\hat{\theta}) - \theta \) 是估计量的偏差。对于无偏估计量,偏差为零,均方误差等于方差。
在选择估计量时,我们通常希望选择均方误差较小的估计量。在实际应用中,无偏性、有效性和相合性都是重要的评价标准,但有时为了获得更小的均方误差,可以牺牲无偏性,选择稍微有偏但方差更小的估计量。
7.2 区间估计 (Interval Estimation)
本节介绍区间估计的概念、置信区间的构造方法和常用参数的置信区间。
7.2.1 区间估计的概念与置信水平 (Concept of Interval Estimation and Confidence Level)
与点估计不同,区间估计 (interval estimation) 是给出一个包含未知参数的区间,并指出该区间包含参数真值的可信程度 (confidence level)。这个区间称为置信区间 (confidence interval),而可信程度用置信水平 (confidence level) 来度量,通常用 \( 1-\alpha \) 表示,其中 \( \alpha \) 是一个较小的概率值,如 0.05 或 0.01。
例如,我们估计班级学生平均身高,点估计给出一个具体的数值,如 170cm。而区间估计则给出一个范围,如 (168cm, 172cm),并说明我们有 95% 的把握认为,班级学生平均身高落在 (168cm, 172cm) 这个区间内。这里的 95% 就是置信水平。
更正式地,对于未知参数 \( \theta \),区间估计的目标是找到两个统计量 \( L(X_1, ..., X_n) \) 和 \( U(X_1, ..., X_n) \),使得区间 \( [L, U] \) 以一定的概率 \( 1-\alpha \) 包含参数真值 \( \theta \)。即:
\[ P(L \leq \theta \leq U) = 1-\alpha \]
区间 \( [L, U] \) 称为参数 \( \theta \) 的置信水平为 \( 1-\alpha \) 的置信区间,\( L \) 称为置信下限 (lower confidence limit),\( U \) 称为置信上限 (upper confidence limit),\( 1-\alpha \) 称为置信水平 (confidence level) 或置信系数 (confidence coefficient),\( \alpha \) 称为显著性水平 (significance level)。
置信水平 \( 1-\alpha \) 的含义是:如果我们重复进行多次抽样,每次抽样都构造一个置信水平为 \( 1-\alpha \) 的置信区间,那么在这些置信区间中,约有 \( 100(1-\alpha)\% \) 的区间会包含参数的真值。需要注意的是,对于一次具体的抽样,我们得到的置信区间是固定的,参数真值 \( \theta \) 要么在这个区间内,要么不在,我们不能说参数真值落入该区间的概率是 \( 1-\alpha \)。正确的理解是,置信水平是对构造置信区间的方法的长期表现的度量。
置信区间的长度 \( U - L \) 反映了估计的精度。在置信水平固定的情况下,我们希望置信区间的长度尽可能短,以提高估计的精度。
7.2.2 枢轴量法 (Pivotal Quantity Method)
枢轴量法 (pivotal quantity method) 是构造置信区间的一种常用方法。枢轴量 (pivotal quantity) 是一个关于样本和未知参数的函数 \( G(X_1, ..., X_n; \theta) \),它具有以下两个性质:
① \( G(X_1, ..., X_n; \theta) \) 的分布是完全已知的,不依赖于任何未知参数。
② \( G(X_1, ..., X_n; \theta) \) 关于 \( \theta \) 是单调的(单调递增或单调递减)。
构造置信区间的枢轴量法的步骤如下:
① 寻找一个枢轴量 \( G(X_1, ..., X_n; \theta) \)。
② 对于给定的置信水平 \( 1-\alpha \),确定常数 \( a \) 和 \( b \),使得:
\[ P(a \leq G(X_1, ..., X_n; \theta) \leq b) = 1-\alpha \]
通常,为了得到尽可能短的置信区间,\( a \) 和 \( b \) 的选择需要考虑分布的特性。例如,对于对称分布,常取等尾概率,即选择 \( a \) 和 \( b \) 使得 \( P(G < a) = P(G > b) = \alpha/2 \)。
③ 将不等式 \( a \leq G(X_1, ..., X_n; \theta) \leq b \) 反解出 \( \theta \) 的范围,得到形如 \( L(X_1, ..., X_n) \leq \theta \leq U(X_1, ..., X_n) \) 的不等式。则 \( [L(X_1, ..., X_n), U(X_1, ..., X_n)] \) 就是参数 \( \theta \) 的置信水平为 \( 1-\alpha \) 的置信区间。
下面通过例子说明如何使用枢轴量法构造置信区间。
7.2.3 正态总体均值和方差的区间估计 (Interval Estimation for Mean and Variance of Normal Population)
假设 \( X_1, ..., X_n \) 是来自正态总体 \( N(\mu, \sigma^2) \) 的简单随机样本。
① 总体方差 \( \sigma^2 \) 已知时,总体均值 \( \mu \) 的置信区间。
当 \( \sigma^2 \) 已知时,样本均值 \( \bar{X} \sim N(\mu, \frac{\sigma^2}{n}) \)。我们可以构造枢轴量:
\[ Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1) \]
\( Z \) 的分布是标准正态分布,不依赖于未知参数 \( \mu \) 和 \( \sigma^2 \)。对于给定的置信水平 \( 1-\alpha \),查标准正态分布表,找到 \( z_{\alpha/2} \) 使得 \( P(|Z| > z_{\alpha/2}) = \alpha \),即 \( P(-z_{\alpha/2} \leq Z \leq z_{\alpha/2}) = 1-\alpha \)。
将 \( Z \) 的表达式代入,得到:
\[ P\left(-z_{\alpha/2} \leq \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \leq z_{\alpha/2}\right) = 1-\alpha \]
反解出 \( \mu \) 的范围:
\[ P\left(\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right) = 1-\alpha \]
因此,总体均值 \( \mu \) 的置信水平为 \( 1-\alpha \) 的置信区间为:
\[ \left[\bar{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}}\right] \]
② 总体方差 \( \sigma^2 \) 未知时,总体均值 \( \mu \) 的置信区间。
当 \( \sigma^2 \) 未知时,我们用样本标准差 \( S \) 代替 \( \sigma \),并使用 \( t \) 分布。枢轴量为:
\[ T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1) \]
\( T \) 服从自由度为 \( n-1 \) 的 \( t \) 分布,不依赖于未知参数。对于给定的置信水平 \( 1-\alpha \),查 \( t \) 分布表,找到 \( t_{\alpha/2}(n-1) \) 使得 \( P(|T| > t_{\alpha/2}(n-1)) = \alpha \),即 \( P(-t_{\alpha/2}(n-1) \leq T \leq t_{\alpha/2}(n-1)) = 1-\alpha \)。
类似地,反解出 \( \mu \) 的范围,得到总体均值 \( \mu \) 的置信水平为 \( 1-\alpha \) 的置信区间为:
\[ \left[\bar{X} - t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}, \bar{X} + t_{\alpha/2}(n-1) \frac{S}{\sqrt{n}}\right] \]
③ 总体均值 \( \mu \) 未知时,总体方差 \( \sigma^2 \) 的置信区间。
枢轴量为:
\[ \chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1) \]
\( \chi^2 \) 服从自由度为 \( n-1 \) 的卡方分布,不依赖于未知参数。对于给定的置信水平 \( 1-\alpha \),查卡方分布表,找到 \( \chi^2_{1-\alpha/2}(n-1) \) 和 \( \chi^2_{\alpha/2}(n-1) \) 使得 \( P(\chi^2 < \chi^2_{1-\alpha/2}(n-1)) = \alpha/2 \) 和 \( P(\chi^2 > \chi^2_{\alpha/2}(n-1)) = \alpha/2 \),从而 \( P(\chi^2_{1-\alpha/2}(n-1) \leq \chi^2 \leq \chi^2_{\alpha/2}(n-1)) = 1-\alpha \)。
将 \( \chi^2 \) 的表达式代入,得到:
\[ P\left(\chi^2_{1-\alpha/2}(n-1) \leq \frac{(n-1)S^2}{\sigma^2} \leq \chi^2_{\alpha/2}(n-1)\right) = 1-\alpha \]
反解出 \( \sigma^2 \) 的范围,得到总体方差 \( \sigma^2 \) 的置信水平为 \( 1-\alpha \) 的置信区间为:
\[ \left[\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right] \]
7.2.4 大样本情况下参数的区间估计 (Interval Estimation for Parameters in Large Samples)
当样本容量 \( n \) 较大时,根据中心极限定理 (Central Limit Theorem),许多统计量的分布可以近似为正态分布。这为大样本情况下参数的区间估计提供了便利。
① 总体均值 \( \mu \) 的大样本置信区间。
无论总体分布如何,当样本容量 \( n \) 较大时,样本均值 \( \bar{X} \) 近似服从正态分布 \( N(\mu, \frac{\sigma^2}{n}) \)。当总体方差 \( \sigma^2 \) 未知时,可以用样本方差 \( S^2 \) 近似代替。因此,枢轴量可以近似为:
\[ Z = \frac{\bar{X} - \mu}{S/\sqrt{n}} \approx N(0, 1) \]
与总体方差已知时类似,总体均值 \( \mu \) 的近似置信水平为 \( 1-\alpha \) 的大样本置信区间为:
\[ \left[\bar{X} - z_{\alpha/2} \frac{S}{\sqrt{n}}, \bar{X} + z_{\alpha/2} \frac{S}{\sqrt{n}}\right] \]
这个区间在样本容量 \( n \) 较大时近似有效,即使总体不是正态分布。
② 总体比例 \( p \) 的大样本置信区间。
当样本容量 \( n \) 较大时,样本比例 \( \hat{p} \) 近似服从正态分布 \( N(p, \frac{p(1-p)}{n}) \)。当 \( p \) 未知时,可以用样本比例 \( \hat{p} \) 近似代替 \( p \)。因此,枢轴量可以近似为:
\[ Z = \frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})/n}} \approx N(0, 1) \]
总体比例 \( p \) 的近似置信水平为 \( 1-\alpha \) 的大样本置信区间为:
\[ \left[\hat{p} - z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p} + z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right] \]
这个区间在 \( np \geq 10 \) 且 \( n(1-p) \geq 10 \) 时近似有效。
大样本置信区间的构造依赖于中心极限定理,其优点是不需要对总体分布做严格的假设,适用范围广泛。但在样本容量较小时,近似效果可能不佳,此时应优先使用基于精确分布的方法(如正态总体均值和方差的置信区间)。
7.3 参数估计的方法 (Methods of Parameter Estimation)
本节介绍矩估计法和最大似然估计法,并通过实例讲解其应用。
7.3.1 矩估计法 (Method of Moments)
矩估计法 (method of moments) 是一种基于总体矩 (population moments) 和样本矩 (sample moments) 相等的思想来估计参数的方法。矩估计法的基本思想是:用样本矩估计总体矩,然后用总体矩的表达式反解出参数的估计值。
总体 \( k \) 阶原点矩定义为 \( E(X^k) \),样本 \( k \) 阶原点矩定义为 \( \frac{1}{n} \sum_{i=1}^{n} X_i^k \)。矩估计法的步骤如下:
① 假设总体分布包含 \( p \) 个未知参数 \( \theta_1, \theta_2, ..., \theta_p \)。
② 计算总体的前 \( p \) 阶原点矩 \( \mu_k = E(X^k) \),\( k = 1, 2, ..., p \)。这些总体矩是参数 \( \theta_1, \theta_2, ..., \theta_p \) 的函数。
③ 计算样本的前 \( p \) 阶原点矩 \( a_k = \frac{1}{n} \sum_{i=1}^{n} X_i^k \),\( k = 1, 2, ..., p \)。
④ 建立方程组,令总体矩等于相应的样本矩:
\[ \begin{cases} \mu_1(\theta_1, ..., \theta_p) = a_1 \\ \mu_2(\theta_1, ..., \theta_p) = a_2 \\ ... \\ \mu_p(\theta_1, ..., \theta_p) = a_p \end{cases} \]
⑤ 解这个方程组,得到参数 \( \theta_1, ..., \theta_p \) 的矩估计值 \( \hat{\theta}_1, ..., \hat{\theta}_p \)。
例 7.1 设总体服从均匀分布 \( U(0, \theta) \),其中 \( \theta > 0 \) 是未知参数。求 \( \theta \) 的矩估计。
解:总体 \( X \sim U(0, \theta) \) 的一阶原点矩(均值)为:
\[ \mu_1 = E(X) = \frac{0 + \theta}{2} = \frac{\theta}{2} \]
样本一阶原点矩(样本均值)为:
\[ a_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
令总体一阶原点矩等于样本一阶原点矩:
\[ \frac{\theta}{2} = \bar{X} \]
解得 \( \theta \) 的矩估计量为:
\[ \hat{\theta} = 2\bar{X} \]
因此,\( \theta \) 的矩估计值为 \( 2\bar{x} \),其中 \( \bar{x} \) 是样本均值。
例 7.2 设总体服从正态分布 \( N(\mu, \sigma^2) \),其中 \( \mu \) 和 \( \sigma^2 \) 都是未知参数。求 \( \mu \) 和 \( \sigma^2 \) 的矩估计。
解:总体 \( X \sim N(\mu, \sigma^2) \) 的一阶和二阶原点矩分别为:
\[ \mu_1 = E(X) = \mu \]
\[ \mu_2 = E(X^2) = Var(X) + [E(X)]^2 = \sigma^2 + \mu^2 \]
样本一阶和二阶原点矩分别为:
\[ a_1 = \bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i \]
\[ a_2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 \]
建立方程组:
\[ \begin{cases} \mu = \bar{X} \\ \sigma^2 + \mu^2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 \end{cases} \]
解得 \( \mu \) 和 \( \sigma^2 \) 的矩估计量为:
\[ \hat{\mu} = \bar{X} \]
\[ \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 - \hat{\mu}^2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2 - \bar{X}^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2 \]
因此,\( \mu \) 的矩估计量为样本均值 \( \bar{X} \),\( \sigma^2 \) 的矩估计量为有偏样本方差 \( \hat{\sigma}^2 \)。
矩估计法的优点是方法简单易行,不需要对总体分布做过多的假设。在很多情况下,矩估计量具有良好的性质,如相合性。但矩估计量不一定是唯一的,也不一定是最优的(如有效性)。
7.3.2 最大似然估计法 (Maximum Likelihood Estimation)
最大似然估计法 (maximum likelihood estimation, MLE) 是一种基于似然函数 (likelihood function) 最大化的方法来估计参数的方法。最大似然估计法的基本思想是:选择参数值,使得在给定这些参数值下,观测到当前样本的概率(对于离散型分布)或概率密度(对于连续型分布)最大。
设总体分布的概率质量函数 (probability mass function, PMF) 或概率密度函数 (probability density function, PDF) 为 \( f(x; \theta) \),其中 \( \theta \) 为未知参数。对于给定的样本观测值 \( x_1, x_2, ..., x_n \),似然函数 \( L(\theta) \) 定义为:
\[ L(\theta) = L(\theta; x_1, ..., x_n) = \prod_{i=1}^{n} f(x_i; \theta) \]
对于离散型分布,\( f(x_i; \theta) \) 是观测到 \( x_i \) 的概率;对于连续型分布,\( f(x_i; \theta) \) 是在 \( x_i \) 处的概率密度值。似然函数 \( L(\theta) \) 反映了在参数 \( \theta \) 下,观测到样本 \( x_1, ..., x_n \) 的可能性大小。最大似然估计法的目标是找到参数 \( \theta \) 的值,使得似然函数 \( L(\theta) \) 达到最大值。这个使似然函数达到最大值的 \( \theta \) 值称为 最大似然估计值 (maximum likelihood estimate),记为 \( \hat{\theta}_{MLE} \)。相应的估计量称为 最大似然估计量 (maximum likelihood estimator)。
为了求最大似然估计值,通常最大化对数似然函数 \( \ln L(\theta) \),因为对数函数是单调递增的,最大化 \( L(\theta) \) 等价于最大化 \( \ln L(\theta) \),且对数函数可以把乘积变为求和,简化计算。对数似然函数 (log-likelihood function) 为:
\[ \ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta) \]
最大化对数似然函数通常通过求导数并令导数等于零来求解。求解步骤如下:
① 写出似然函数 \( L(\theta) = \prod_{i=1}^{n} f(x_i; \theta) \)。
② 取对数似然函数 \( \ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta) \)。
③ 对 \( \ln L(\theta) \) 关于 \( \theta \) 求导数,并令导数等于零,得到似然方程 (likelihood equation):
\[ \frac{d}{d\theta} \ln L(\theta) = 0 \]
④ 解似然方程,得到候选的最大似然估计值。
⑤ 验证候选估计值是否为最大值点,可以通过求二阶导数,并验证二阶导数在候选估计值处是否小于零(对于单参数情况)。或者直接比较似然函数值。
例 7.3 设 \( X_1, ..., X_n \) 是来自伯努利分布 \( B(1, p) \) 的简单随机样本,其中 \( p \) 是未知参数,\( 0 < p < 1 \)。求 \( p \) 的最大似然估计。
解:伯努利分布的 PMF 为 \( f(x; p) = p^x (1-p)^{1-x} \), \( x = 0, 1 \)。似然函数为:
\[ L(p) = \prod_{i=1}^{n} f(x_i; p) = \prod_{i=1}^{n} p^{x_i} (1-p)^{1-x_i} = p^{\sum_{i=1}^{n} x_i} (1-p)^{n - \sum_{i=1}^{n} x_i} \]
对数似然函数为:
\[ \ln L(p) = \left(\sum_{i=1}^{n} x_i\right) \ln p + \left(n - \sum_{i=1}^{n} x_i\right) \ln (1-p) \]
对 \( \ln L(p) \) 关于 \( p \) 求导数,并令导数等于零:
\[ \frac{d}{dp} \ln L(p) = \frac{\sum_{i=1}^{n} x_i}{p} - \frac{n - \sum_{i=1}^{n} x_i}{1-p} = 0 \]
解得:
\[ \hat{p}_{MLE} = \frac{\sum_{i=1}^{n} x_i}{n} = \bar{x} \]
样本比例 \( \hat{p} = \bar{X} \) 是伯努利分布参数 \( p \) 的最大似然估计量。
例 7.4 设 \( X_1, ..., X_n \) 是来自正态分布 \( N(\mu, \sigma^2) \) 的简单随机样本,其中 \( \mu \) 和 \( \sigma^2 \) 都是未知参数。求 \( \mu \) 和 \( \sigma^2 \) 的最大似然估计。
解:正态分布的 PDF 为 \( f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) \)。似然函数为:
\[ L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i; \mu, \sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) = (2\pi\sigma^2)^{-n/2} \exp\left(-\frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i-\mu)^2\right) \]
对数似然函数为:
\[ \ln L(\mu, \sigma^2) = -\frac{n}{2} \ln(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i-\mu)^2 = -\frac{n}{2} \ln(2\pi) - \frac{n}{2} \ln(\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i-\mu)^2 \]
分别对 \( \mu \) 和 \( \sigma^2 \) 求偏导数,并令偏导数等于零:
\[ \frac{\partial \ln L}{\partial \mu} = -\frac{1}{2\sigma^2} \sum_{i=1}^{n} 2(x_i-\mu)(-1) = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i-\mu) = 0 \]
\[ \frac{\partial \ln L}{\partial \sigma^2} = -\frac{n}{2} \frac{1}{\sigma^2} - \left(-\frac{1}{2(\sigma^2)^2}\right) \sum_{i=1}^{n} (x_i-\mu)^2 = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2} \sum_{i=1}^{n} (x_i-\mu)^2 = 0 \]
解得:
\[ \hat{\mu}_{MLE} = \frac{1}{n} \sum_{i=1}^{n} x_i = \bar{x} \]
\[ \hat{\sigma}^2_{MLE} = \frac{1}{n} \sum_{i=1}^{n} (x_i-\hat{\mu}_{MLE})^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i-\bar{x})^2 \]
因此,\( \mu \) 的最大似然估计量是样本均值 \( \bar{X} \),\( \sigma^2 \) 的最大似然估计量是有偏样本方差 \( \hat{\sigma}^2 \)。
最大似然估计法具有许多优良性质:
① 不变性 (Invariance): 如果 \( \hat{\theta}_{MLE} \) 是 \( \theta \) 的最大似然估计量,\( g(\cdot) \) 是一个函数,则 \( g(\hat{\theta}_{MLE}) \) 是 \( g(\theta) \) 的最大似然估计量。
② 相合性 (Consistency): 在一定条件下,最大似然估计量是相合估计量。
③ 渐近正态性 (Asymptotic Normality): 在一定条件下,最大似然估计量近似服从正态分布,且具有渐近最小方差。
④ 有效性 (Efficiency): 在一定条件下,最大似然估计量是渐近有效的,即在所有相合估计量中,其方差达到理论上的下界(Cramer-Rao 下界)。
最大似然估计法是统计推断中最重要和最常用的参数估计方法之一。但最大似然估计法也可能存在计算复杂、对模型假设敏感等缺点。在实际应用中,需要根据具体问题选择合适的估计方法。
8. 假设检验 (Hypothesis Testing)
本章介绍统计推断的另一个重要内容——假设检验,包括假设检验的基本思想、步骤、类型,以及常用假设检验方法。
8.1 假设检验的基本概念 (Basic Concepts of Hypothesis Testing)
介绍假设检验的定义、基本思想、原假设与备择假设、两类错误等基本概念。
8.1.1 假设检验的定义与基本思想 (Definition and Basic Idea of Hypothesis Testing)
明确假设检验的定义和基本逻辑。
假设检验 (Hypothesis Testing) 是数理统计学中判断总体参数是否等于某个预定值,或者判断关于总体的若干假设是否成立的统计方法。其基本思想是基于样本信息,对总体提出的某种假设做出判断。如同法庭审判,我们先假设被告无罪(原假设),然后收集证据(样本数据),根据证据的强弱来判断是否推翻原假设,如果证据足够强,则拒绝原假设,接受备择假设;如果证据不够强,则不能拒绝原假设,但也不能接受原假设,只能说没有充分的证据拒绝原假设。
假设检验的核心在于反证法的思想。我们先假设某个命题成立(原假设 \(H_0\)), 然后看样本数据是否与这个假设相矛盾。如果矛盾到一定程度,我们就认为原假设不成立,从而接受与原假设对立的命题(备择假设 \(H_1\))。
假设检验的基本步骤通常包括:
① 提出原假设 (Null Hypothesis) \(H_0\) 和备择假设 (Alternative Hypothesis) \(H_1\)。
② 选择适当的检验统计量 (Test Statistic)。检验统计量是根据样本数据计算出来的一个量,其分布在原假设 \(H_0\) 成立时是已知的。
③ 确定拒绝域 (Rejection Region)。根据选定的显著性水平 \( \alpha \),确定拒绝原假设 \(H_0\) 的区域。
④ 计算检验统计量的观测值,并判断是否落入拒绝域。
⑤ 做出决策:如果检验统计量的观测值落入拒绝域,则拒绝原假设 \(H_0\),接受备择假设 \(H_1\);否则,不拒绝原假设 \(H_0\)。
⑥ 结论解释:根据检验结果,结合实际问题给出统计结论和实际意义。
8.1.2 原假设与备择假设 (Null and Alternative Hypotheses)
介绍原假设和备择假设的设定原则和方法。
在假设检验中,我们需要对总体参数或分布形式提出两个互相对立的假设:原假设 \(H_0\) (Null Hypothesis) 和 备择假设 \(H_1\) (Alternative Hypothesis)。
① 原假设 \(H_0\):通常是我们想要检验的假设,一般是关于总体参数没有变化、没有效应、没有差异的假设,或者是我们想要拒绝的假设。形式上,原假设通常会包含等号,例如:
▮▮▮▮⚝ 总体均值 \( \mu = \mu_0 \)
▮▮▮▮⚝ 总体均值之差 \( \mu_1 - \mu_2 = 0 \)
▮▮▮▮⚝ 总体比例 \( p = p_0 \)
② 备择假设 \(H_1\):是与原假设 \(H_0\) 对立的假设,是我们想要支持或接受的假设。备择假设通常表示总体参数有变化、有效应、有差异。形式上,备择假设通常是不等号,例如:
▮▮▮▮⚝ 总体均值 \( \mu \neq \mu_0 \) (双尾检验)
▮▮▮▮⚝ 总体均值 \( \mu > \mu_0 \) (右尾检验) 或 \( \mu < \mu_0 \) (左尾检验)
▮▮▮▮⚝ 总体均值之差 \( \mu_1 - \mu_2 \neq 0 \)
▮▮▮▮⚝ 总体比例 \( p \neq p_0 \)
设定原假设和备择假设的原则:
⚝ 互斥性 (Mutually Exclusive):原假设 \(H_0\) 和备择假设 \(H_1\) 必须是互斥的,即它们不能同时成立。
⚝ 完备性 (Collectively Exhaustive):原假设 \(H_0\) 和备择假设 \(H_1\) 应该涵盖所有可能的情况。
⚝ 检验目的导向:通常将研究者想要推翻或否定的假设设定为原假设 \(H_0\),而将研究者想要支持或证明的假设设定为备择假设 \(H_1\)。
⚝ 保持原状原则:在没有充分证据时,我们倾向于维持现状,即不轻易拒绝原假设 \(H_0\)。这类似于“疑罪从无”的原则。
假设检验的类型: 根据备择假设 \(H_1\) 的形式,假设检验可以分为:
⚝ 双尾检验 (Two-tailed Test):当备择假设 \(H_1\) 为 “≠” 时,例如 \(H_1: \mu \neq \mu_0\)。检验统计量的拒绝域位于分布的两侧尾部。
⚝ 左尾检验 (Left-tailed Test):当备择假设 \(H_1\) 为 “<” 时,例如 \(H_1: \mu < \mu_0\)。检验统计量的拒绝域位于分布的左尾部。
⚝ 右尾检验 (Right-tailed Test):当备择假设 \(H_1\) 为 “>” 时,例如 \(H_1: \mu > \mu_0\)。检验统计量的拒绝域位于分布的右尾部。
选择单尾检验还是双尾检验取决于研究的具体问题和备择假设的形式。在不确定参数变化方向时,通常采用双尾检验。
8.1.3 两类错误 (Type I and Type II Errors)
详细讲解第一类错误和第二类错误的概念、概率和相互关系。
在假设检验中,我们的决策是基于样本数据做出的,而样本数据本身就具有随机性,因此无论我们做出接受 \(H_0\) 还是拒绝 \(H_0\) 的决策,都可能犯错误。假设检验中可能犯的两类错误是:
① 第一类错误 (Type I Error),也称为 弃真错误 或 \( \alpha \) 错误:
▮▮▮▮⚝ 定义:当原假设 \(H_0\) 实际上为真时,我们却拒绝了 \(H_0\),就犯了第一类错误。
▮▮▮▮⚝ 概率:犯第一类错误的概率记为 \( \alpha \),即
\[ P(\text{拒绝 } H_0 \mid H_0 \text{ 为真}) = \alpha \]
▮▮▮▮⚝ 显著性水平 \( \alpha \):\( \alpha \) 也被称为显著性水平 (Significance Level),是我们在进行假设检验时预先设定的最大容忍犯第一类错误的概率。常用的 \( \alpha \) 取值有 0.05, 0.01, 0.10 等。
▮▮▮▮⚝ 例:法庭审判中,原告实际上无罪,但法庭误判其有罪。
② 第二类错误 (Type II Error),也称为 取伪错误 或 \( \beta \) 错误:
▮▮▮▮⚝ 定义:当原假设 \(H_0\) 实际上为假时,我们却没有拒绝 \(H_0\),就犯了第二类错误。
▮▮▮▮⚝ 概率:犯第二类错误的概率记为 \( \beta \),即
\[ P(\text{不拒绝 } H_0 \mid H_0 \text{ 为假}) = \beta \]
▮▮▮▮⚝ 例:法庭审判中,被告实际上有罪,但法庭误判其无罪。
两类错误的对比:
错误类型 | 原假设 \(H_0\) 的真实情况 | 检验结论:拒绝 \(H_0\) | 检验结论:不拒绝 \(H_0\) |
---|---|---|---|
第一类错误 | \(H_0\) 为真 | 犯第一类错误 | 决策正确 |
第二类错误 | \(H_0\) 为假 | 决策正确 | 犯第二类错误 |
\( \alpha \) 和 \( \beta \) 的关系:
⚝ \( \alpha \) 和 \( \beta \) 不能同时为 0。为了减小犯第一类错误的概率 \( \alpha \),我们需要更谨慎地拒绝 \(H_0\),但这会增加不拒绝错误的 \(H_0\) 可能性,从而增大犯第二类错误的概率 \( \beta \)。反之亦然。
⚝ 在样本容量 \(n\) 固定时,减小 \( \alpha \) 通常会导致 \( \beta \) 增大,反之亦然。
⚝ 要同时减小 \( \alpha \) 和 \( \beta \),通常需要增加样本容量 \(n\)。
⚝ 在实际应用中,我们通常控制犯第一类错误的概率 \( \alpha \),使其不超过预先设定的显著性水平,例如 \( \alpha = 0.05 \)。在 \( \alpha \) 给定的情况下,我们希望尽可能减小犯第二类错误的概率 \( \beta \),或者等价地,尽可能增大检验的功效 (Power),其中 功效 \( = 1 - \beta \),表示当 \(H_0\) 为假时,正确拒绝 \(H_0\) 的概率。
总结: 假设检验就是在控制犯第一类错误概率 \( \alpha \) 的前提下,尽可能减小犯第二类错误概率 \( \beta \),或者最大化检验的功效 \( 1 - \beta \)。
8.1.4 显著性水平与p值 (Significance Level and p-value)
介绍显著性水平和p值的概念及其在假设检验中的作用。
① 显著性水平 \( \alpha \) (Significance Level):
▮▮▮▮⚝ \( \alpha \) 是预先设定的最大容忍犯第一类错误的概率。
▮▮▮▮⚝ 常用的 \( \alpha \) 值有 0.05, 0.01, 0.10。例如,\( \alpha = 0.05 \) 表示如果我们拒绝了原假设 \(H_0\),那么犯第一类错误的概率不超过 5%。
▮▮▮▮⚝ \( \alpha \) 决定了拒绝域的大小。对于给定的检验统计量,显著性水平 \( \alpha \) 越大,拒绝域越大,越容易拒绝 \(H_0\)。
② p值 (p-value),也称为 概率值 或 观测到的显著性水平:
▮▮▮▮⚝ 定义:p值是在原假设 \(H_0\) 为真的条件下,观测到样本结果或者更极端结果的概率。
\[ p\text{-value} = P(\text{观测到样本结果或更极端结果} \mid H_0 \text{ 为真}) \]
▮▮▮▮⚝ p值是衡量样本数据与原假设 \(H_0\) 之间矛盾程度的一个指标。p值越小,说明观测到的样本结果在原假设 \(H_0\) 成立的条件下越不容易发生,即样本数据与原假设 \(H_0\) 的矛盾程度越大,越有理由拒绝 \(H_0\)。
▮▮▮▮⚝ p值是一个概率值,取值范围在 \[0, 1\] 之间。
使用 p值进行假设检验的决策规则:
⚝ 将 p值与预先设定的显著性水平 \( \alpha \) 进行比较:
▮▮▮▮⚝ 如果 \( p\text{-value} \leq \alpha \),则拒绝原假设 \(H_0\)。此时,我们认为在 \( \alpha \) 显著性水平下,样本数据提供了充分的证据来否定原假设 \(H_0\)。
▮▮▮▮⚝ 如果 \( p\text{-value} > \alpha \),则不拒绝原假设 \(H_0\)。此时,我们认为在 \( \alpha \) 显著性水平下,样本数据没有提供充分的证据来否定原假设 \(H_0\)。但这不意味着我们接受了原假设 \(H_0\),只能说没有充分的证据拒绝 \(H_0\)。
p值的意义:
⚝ p值提供了一个连续的、数据驱动的证据强度指标,用于判断是否拒绝原假设 \(H_0\)。p值越小,拒绝 \(H_0\) 的理由越充分。
⚝ p值避免了仅仅根据是否落入拒绝域来做决策的非此即彼的局限性,提供了更精细的判断依据。
⚝ p值可以帮助研究者更准确地理解样本数据所提供的证据强度,并做出更合理的统计推断。
总结: 显著性水平 \( \alpha \) 是事先设定的决策标准,而 p值是根据样本数据计算出的证据强度。通过比较 p值和 \( \alpha \),我们可以做出是否拒绝原假设 \(H_0\) 的决策。在实际应用中,p值被广泛使用,因为它提供了更为灵活和信息丰富的假设检验结果。
8.2 正态总体参数的假设检验 (Hypothesis Testing for Parameters of Normal Population)
介绍正态总体均值、方差的假设检验方法,包括u检验、t检验、卡方检验等。
8.2.1 单个正态总体均值的假设检验 (Hypothesis Testing for Mean of Single Normal Population)
介绍u检验和t检验的应用条件和步骤。
本节讨论对单个正态总体 \( N(\mu, \sigma^2) \) 的均值 \( \mu \) 进行假设检验的方法。根据总体方差 \( \sigma^2 \) 是否已知以及样本容量 \(n\) 的大小,采用不同的检验方法: u检验 (u-test) 和 t检验 (t-test)。
① 总体方差 \( \sigma^2 \) 已知时:u检验
⚝ 适用条件:
▮▮▮▮⚝ 总体服从正态分布 \( N(\mu, \sigma^2) \),且总体方差 \( \sigma^2 \) 已知。
▮▮▮▮⚝ 样本容量 \(n\) 可以任意大小。
⚝ 检验统计量:使用 u统计量 (u-statistic),也称为 z统计量 (z-statistic),其定义为:
\[ u = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}} \sim N(0, 1) \]
其中,\( \bar{X} \) 是样本均值,\( \mu_0 \) 是原假设 \(H_0\) 中设定的总体均值,\( \sigma \) 是已知的总体标准差,\( n \) 是样本容量。当原假设 \(H_0: \mu = \mu_0\) 成立时,u统计量服从标准正态分布 \( N(0, 1) \)。
⚝ 假设类型与拒绝域: 设显著性水平为 \( \alpha \)。
▮▮▮▮⚝ 双尾检验:\( H_0: \mu = \mu_0, \; H_1: \mu \neq \mu_0 \)
拒绝域为 \( |u| \geq u_{\alpha/2} \) 或 \( p\text{-value} = 2P(Z \geq |u_{obs}|) \leq \alpha \)
▮▮▮▮⚝ 右尾检验:\( H_0: \mu \leq \mu_0, \; H_1: \mu > \mu_0 \)
拒绝域为 \( u \geq u_{\alpha} \) 或 \( p\text{-value} = P(Z \geq u_{obs}) \leq \alpha \)
▮▮▮▮⚝ 左尾检验:\( H_0: \mu \geq \mu_0, \; H_1: \mu < \mu_0 \)
拒绝域为 \( u \leq -u_{\alpha} \) 或 \( p\text{-value} = P(Z \leq u_{obs}) \leq \alpha \)
其中,\( u_{\alpha/2} \) 和 \( u_{\alpha} \) 是标准正态分布 \( N(0, 1) \) 的上 \( \alpha/2 \) 分位数和上 \( \alpha \) 分位数,\( u_{obs} \) 是根据样本计算得到的 u 统计量的观测值,\( Z \sim N(0, 1) \)。
② 总体方差 \( \sigma^2 \) 未知时:t检验
⚝ 适用条件:
▮▮▮▮⚝ 总体服从正态分布 \( N(\mu, \sigma^2) \),但总体方差 \( \sigma^2 \) 未知。
▮▮▮▮⚝ 样本容量 \(n\) 可以任意大小,但当 \(n\) 较小时 (例如 \(n < 30\)),t检验的优势更明显。当 \(n\) 较大时,t检验和u检验的结果通常非常接近。
⚝ 检验统计量:使用 t统计量 (t-statistic),其定义为:
\[ t = \frac{\bar{X} - \mu_0}{S / \sqrt{n}} \sim t(n-1) \]
其中,\( \bar{X} \) 是样本均值,\( \mu_0 \) 是原假设 \(H_0\) 中设定的总体均值,\( S \) 是样本标准差,\( n \) 是样本容量。当原假设 \(H_0: \mu = \mu_0\) 成立时,t统计量服从自由度为 \( n-1 \) 的 t 分布 \( t(n-1) \)。
⚝ 假设类型与拒绝域: 设显著性水平为 \( \alpha \)。
▮▮▮▮⚝ 双尾检验:\( H_0: \mu = \mu_0, \; H_1: \mu \neq \mu_0 \)
拒绝域为 \( |t| \geq t_{\alpha/2}(n-1) \) 或 \( p\text{-value} = 2P(T \geq |t_{obs}|) \leq \alpha \)
▮▮▮▮⚝ 右尾检验:\( H_0: \mu \leq \mu_0, \; H_1: \mu > \mu_0 \)
拒绝域为 \( t \geq t_{\alpha}(n-1) \) 或 \( p\text{-value} = P(T \geq t_{obs}) \leq \alpha \)
▮▮▮▮⚝ 左尾检验:\( H_0: \mu \geq \mu_0, \; H_1: \mu < \mu_0 \)
拒绝域为 \( t \leq -t_{\alpha}(n-1) \) 或 \( p\text{-value} = P(T \leq t_{obs}) \leq \alpha \)
其中,\( t_{\alpha/2}(n-1) \) 和 \( t_{\alpha}(n-1) \) 是自由度为 \( n-1 \) 的 t 分布 \( t(n-1) \) 的上 \( \alpha/2 \) 分位数和上 \( \alpha \) 分位数,\( t_{obs} \) 是根据样本计算得到的 t 统计量的观测值,\( T \sim t(n-1) \)。
总结: 对于单个正态总体均值的假设检验,当总体方差 \( \sigma^2 \) 已知时使用 u检验,当总体方差 \( \sigma^2 \) 未知时使用 t检验。在实际应用中,总体方差 \( \sigma^2 \) 通常是未知的,因此 t检验更为常用。
8.2.2 两个正态总体均值之差的假设检验 (Hypothesis Testing for Difference of Means of Two Normal Populations)
介绍双样本t检验的应用条件和步骤。
本节讨论对两个独立正态总体 \( N(\mu_1, \sigma_1^2) \) 和 \( N(\mu_2, \sigma_2^2) \) 的均值之差 \( \mu_1 - \mu_2 \) 进行假设检验的方法,常用的方法是 双样本 t检验 (Two-Sample t-test)。根据两个总体的方差 \( \sigma_1^2 \) 和 \( \sigma_2^2 \) 是否已知以及是否相等,双样本 t检验又分为不同的情况。
① 方差 \( \sigma_1^2 = \sigma_2^2 = \sigma^2 \) 已知且相等的情况 (等方差,已知)
⚝ 适用条件:
▮▮▮▮⚝ 两个总体都服从正态分布,且方差相等 \( \sigma_1^2 = \sigma_2^2 = \sigma^2 \) 已知。
▮▮▮▮⚝ 两个样本是独立的,分别来自两个总体。
⚝ 检验统计量:使用 u统计量:
\[ u = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_{10} - \mu_{20})}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} = \frac{(\bar{X}_1 - \bar{X}_2) - \Delta_0}{\sqrt{\frac{\sigma^2}{n_1} + \frac{\sigma^2}{n_2}}} \sim N(0, 1) \]
其中,\( \bar{X}_1, \bar{X}_2 \) 是两个样本的均值,\( n_1, n_2 \) 是两个样本的容量,\( \mu_{10}, \mu_{20} \) 是原假设 \(H_0\) 中设定的总体均值,\( \Delta_0 = \mu_{10} - \mu_{20} \) 是原假设中设定的均值之差。通常我们检验均值是否相等,即 \( H_0: \mu_1 - \mu_2 = 0 \),此时 \( \Delta_0 = 0 \)。
⚝ 假设类型与拒绝域: 与单个总体均值的 u检验类似,根据备择假设 \(H_1\) 的形式确定拒绝域,使用标准正态分布的分位数或 p值进行判断。
② 方差 \( \sigma_1^2 = \sigma_2^2 \) 未知但相等的情况 (等方差,未知,合并方差 t检验)
⚝ 适用条件:
▮▮▮▮⚝ 两个总体都服从正态分布,且方差相等但未知 \( \sigma_1^2 = \sigma_2^2 = \sigma^2 \) 未知。
▮▮▮▮⚝ 两个样本是独立的,分别来自两个总体。
⚝ 检验统计量:使用 合并方差 t统计量 (Pooled Variance t-statistic):
\[ t = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_{10} - \mu_{20})}{S_p \sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2) \]
其中,\( S_p^2 \) 是合并样本方差 (Pooled Sample Variance),是对共同方差 \( \sigma^2 \) 的估计:
\[ S_p^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2} \]
\( S_1^2, S_2^2 \) 分别是两个样本的样本方差。t统计量服从自由度为 \( n_1 + n_2 - 2 \) 的 t 分布 \( t(n_1 + n_2 - 2) \)。
⚝ 假设类型与拒绝域: 与单个总体均值的 t检验类似,根据备择假设 \(H_1\) 的形式确定拒绝域,使用自由度为 \( n_1 + n_2 - 2 \) 的 t 分布的分位数或 p值进行判断。
③ 方差 \( \sigma_1^2 \neq \sigma_2^2 \) 未知且不相等的情况 (不等方差,未知,Welch's t检验)
⚝ 适用条件:
▮▮▮▮⚝ 两个总体都服从正态分布,但方差不相等且未知 \( \sigma_1^2 \neq \sigma_2^2 \) 未知。
▮▮▮▮⚝ 两个样本是独立的,分别来自两个总体。
⚝ 检验统计量:使用 Welch's t统计量 (也称为 不等方差 t统计量):
\[ t = \frac{(\bar{X}_1 - \bar{X}_2) - (\mu_{10} - \mu_{20})}{\sqrt{\frac{S_1^2}{n_1} + \frac{S_2^2}{n_2}}} \]
Welch's t统计量的分布近似于 t 分布,但其自由度需要近似计算,常用的近似自由度公式为 Welch-Satterthwaite 方程:
\[ \nu \approx \frac{\left( \frac{S_1^2}{n_1} + \frac{S_2^2}{n_2} \right)^2}{\frac{(S_1^2/n_1)^2}{n_1 - 1} + \frac{(S_2^2/n_2)^2}{n_2 - 1}} \]
计算得到的自由度 \( \nu \) 通常不是整数,需要取整。Welch's t统计量近似服从自由度为 \( \nu \) 的 t 分布 \( t(\nu) \)。
⚝ 假设类型与拒绝域: 与单个总体均值的 t检验类似,根据备择假设 \(H_1\) 的形式确定拒绝域,使用自由度为 \( \nu \) 的 t 分布的分位数或 p值进行判断。
方差相等性的检验: 在进行双样本 t检验之前,通常需要先检验两个总体的方差是否相等。常用的方差相等性检验是 F检验 (F-test),将在 8.2.4 节介绍。如果方差相等性检验的结果不拒绝原假设(即认为方差相等),则可以使用合并方差 t检验;如果拒绝原假设(即认为方差不相等),则应使用 Welch's t检验。
8.2.3 单个正态总体方差的假设检验 (Hypothesis Testing for Variance of Single Normal Population)
介绍卡方检验的应用条件和步骤。
本节讨论对单个正态总体 \( N(\mu, \sigma^2) \) 的方差 \( \sigma^2 \) 进行假设检验的方法,常用的方法是 卡方检验 (Chi-Square Test)。
⚝ 适用条件:
▮▮▮▮⚝ 总体服从正态分布 \( N(\mu, \sigma^2) \)。
▮▮▮▮⚝ 样本容量 \(n\) 可以任意大小。
⚝ 检验统计量:使用 卡方统计量 (Chi-Square Statistic),其定义为:
\[ \chi^2 = \frac{(n - 1)S^2}{\sigma_0^2} \sim \chi^2(n - 1) \]
其中,\( S^2 \) 是样本方差,\( \sigma_0^2 \) 是原假设 \(H_0\) 中设定的总体方差,\( n \) 是样本容量。当原假设 \(H_0: \sigma^2 = \sigma_0^2\) 成立时,卡方统计量服从自由度为 \( n-1 \) 的卡方分布 \( \chi^2(n - 1) \)。
⚝ 假设类型与拒绝域: 设显著性水平为 \( \alpha \)。
▮▮▮▮⚝ 双尾检验:\( H_0: \sigma^2 = \sigma_0^2, \; H_1: \sigma^2 \neq \sigma_0^2 \)
拒绝域为 \( \chi^2 \leq \chi_{1-\alpha/2}^2(n-1) \) 或 \( \chi^2 \geq \chi_{\alpha/2}^2(n-1) \) 或 \( p\text{-value} = 2\min\{P(\chi^2 \leq \chi_{obs}^2), P(\chi^2 \geq \chi_{obs}^2)\} \leq \alpha \)
▮▮▮▮⚝ 右尾检验:\( H_0: \sigma^2 \leq \sigma_0^2, \; H_1: \sigma^2 > \sigma_0^2 \)
拒绝域为 \( \chi^2 \geq \chi_{\alpha}^2(n-1) \) 或 \( p\text{-value} = P(\chi^2 \geq \chi_{obs}^2) \leq \alpha \)
▮▮▮▮⚝ 左尾检验:\( H_0: \sigma^2 \geq \sigma_0^2, \; H_1: \sigma^2 < \sigma_0^2 \)
拒绝域为 \( \chi^2 \leq \chi_{1-\alpha}^2(n-1) \) 或 \( p\text{-value} = P(\chi^2 \leq \chi_{obs}^2) \leq \alpha \)
其中,\( \chi_{\alpha/2}^2(n-1), \; \chi_{\alpha}^2(n-1), \; \chi_{1-\alpha/2}^2(n-1), \; \chi_{1-\alpha}^2(n-1) \) 是自由度为 \( n-1 \) 的卡方分布 \( \chi^2(n - 1) \) 的相应分位数,\( \chi_{obs}^2 \) 是根据样本计算得到的卡方统计量的观测值,\( \chi^2 \sim \chi^2(n - 1) \)。
注意: 卡方检验对正态性假设非常敏感,如果总体不服从或近似服从正态分布,则卡方检验的结果可能不可靠。
8.2.4 两个正态总体方差比的假设检验 (Hypothesis Testing for Ratio of Variances of Two Normal Populations)
介绍F检验的应用条件和步骤。
本节讨论对两个独立正态总体 \( N(\mu_1, \sigma_1^2) \) 和 \( N(\mu_2, \sigma_2^2) \) 的方差比 \( \sigma_1^2 / \sigma_2^2 \) 进行假设检验的方法,常用的方法是 F检验 (F-test)。F检验常用于检验两个总体的方差是否相等,也常用于方差分析 (ANOVA)。
⚝ 适用条件:
▮▮▮▮⚝ 两个总体都服从正态分布 \( N(\mu_1, \sigma_1^2) \) 和 \( N(\mu_2, \sigma_2^2) \)。
▮▮▮▮⚝ 两个样本是独立的,分别来自两个总体。
⚝ 检验统计量:使用 F统计量 (F-Statistic),其定义为:
\[ F = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} = \frac{S_1^2}{S_2^2} \cdot \frac{\sigma_2^2}{\sigma_1^2} \]
当原假设 \(H_0: \sigma_1^2 = \sigma_2^2\) 成立时,即 \( \sigma_1^2 / \sigma_2^2 = 1 \),F统计量简化为:
\[ F = \frac{S_1^2}{S_2^2} \sim F(n_1 - 1, n_2 - 1) \]
其中,\( S_1^2, S_2^2 \) 分别是两个样本的样本方差,\( n_1, n_2 \) 是两个样本的容量。当原假设 \(H_0: \sigma_1^2 = \sigma_2^2\) 成立时,F统计量服从自由度为 \( (n_1 - 1, n_2 - 1) \) 的 F 分布 \( F(n_1 - 1, n_2 - 1) \)。第一个自由度 \( df_1 = n_1 - 1 \) 是分子 \( S_1^2 \) 的自由度,第二个自由度 \( df_2 = n_2 - 1 \) 是分母 \( S_2^2 \) 的自由度。
⚝ 假设类型与拒绝域: 设显著性水平为 \( \alpha \)。
▮▮▮▮⚝ 双尾检验:\( H_0: \sigma_1^2 = \sigma_2^2, \; H_1: \sigma_1^2 \neq \sigma_2^2 \)
拒绝域为 \( F \leq F_{1-\alpha/2}(n_1 - 1, n_2 - 1) \) 或 \( F \geq F_{\alpha/2}(n_1 - 1, n_2 - 1) \) 或 \( p\text{-value} = 2\min\{P(F \leq F_{obs}), P(F \geq F_{obs})\} \leq \alpha \)
▮▮▮▮⚝ 右尾检验:\( H_0: \sigma_1^2 \leq \sigma_2^2, \; H_1: \sigma_1^2 > \sigma_2^2 \) (通常将样本方差较大的组放在分子位置)
拒绝域为 \( F \geq F_{\alpha}(n_1 - 1, n_2 - 1) \) 或 \( p\text{-value} = P(F \geq F_{obs}) \leq \alpha \)
▮▮▮▮⚝ 左尾检验:\( H_0: \sigma_1^2 \geq \sigma_2^2, \; H_1: \sigma_1^2 < \sigma_2^2 \)
拒绝域为 \( F \leq F_{1-\alpha}(n_1 - 1, n_2 - 1) \) 或 \( p\text{-value} = P(F \leq F_{obs}) \leq \alpha \)
其中,\( F_{\alpha/2}(n_1 - 1, n_2 - 1), \; F_{\alpha}(n_1 - 1, n_2 - 1), \; F_{1-\alpha/2}(n_1 - 1, n_2 - 1), \; F_{1-\alpha}(n_1 - 1, n_2 - 1) \) 是自由度为 \( (n_1 - 1, n_2 - 1) \) 的 F 分布 \( F(n_1 - 1, n_2 - 1) \) 的相应分位数,\( F_{obs} \) 是根据样本计算得到的 F 统计量的观测值,\( F \sim F(n_1 - 1, n_2 - 1) \)。
注意: F检验对正态性假设也比较敏感,如果总体不服从或严重偏离正态分布,则 F检验的结果可能不可靠。在应用 F检验之前,需要检验两个总体是否近似服从正态分布。
8.3 非参数假设检验简介 (Introduction to Nonparametric Hypothesis Testing)
简要介绍非参数假设检验的概念和常用方法,如符号检验、秩和检验等。
8.3.1 非参数检验的概念 (Concept of Nonparametric Tests)
介绍非参数检验的适用场景和优势。
非参数检验 (Nonparametric Tests),也称为 分布自由检验 (Distribution-Free Tests),是一类不依赖于总体分布类型的假设检验方法。与前面介绍的 u检验、t检验、卡方检验和 F检验等参数检验 (Parametric Tests) 相对,参数检验通常假设总体服从特定的分布(如正态分布),并对总体参数(如均值、方差)进行检验。
非参数检验的适用场景:
⚝ 当总体分布未知或非正态,且无法通过数据转换使其近似正态分布时。
⚝ 当数据是顺序数据或等级数据,不满足参数检验对数据类型和测量尺度的要求时。
⚝ 当样本容量较小,无法有效检验总体分布是否符合参数检验的假设时。
⚝ 当数据中存在异常值,这些异常值可能对参数检验的结果产生较大影响,而非参数检验通常对异常值不敏感。
非参数检验的优势:
⚝ 适用范围广:不需要对总体分布做严格的假设,适用性更强。
⚝ 稳健性强:对异常值和数据分布的偏离不敏感,结果更稳健可靠。
⚝ 易于理解和计算:一些非参数检验方法原理简单,计算简便。
非参数检验的劣势:
⚝ 当数据满足参数检验的条件时,非参数检验的检验功效 (Power) 通常低于参数检验。也就是说,在相同显著性水平下,参数检验更容易拒绝错误的 \(H_0\)。
⚝ 非参数检验通常只能检验位置参数(如中位数)或分布形状的差异,对于总体参数的估计和区间估计相对较少。
常用的非参数检验方法包括:符号检验 (Sign Test)、秩和检验 (Rank Sum Test, 包括 Wilcoxon 秩和检验和 Mann-Whitney U 检验)、秩相关检验 (Rank Correlation Test, 如 Spearman 秩相关检验)、Kruskal-Wallis 检验 (用于多组独立样本的比较)、Friedman 检验 (用于配对样本的比较) 等。本章仅简要介绍符号检验和秩和检验。
8.3.2 符号检验 (Sign Test)
简要介绍符号检验的基本原理和应用。
符号检验 (Sign Test) 是一种用于检验单个总体中位数的非参数检验方法,也常用于配对样本的比较。符号检验仅利用样本数据中正负号的信息,而忽略数值大小,因此非常简单且稳健。
① 单个总体中位数检验
⚝ 适用场景:检验单个总体中位数 \(M\) 是否等于某个特定值 \(M_0\),总体分布未知或非正态。
⚝ 原假设 \(H_0\):总体中位数 \(M = M_0\)。
⚝ 备择假设 \(H_1\):
▮▮▮▮⚝ \(H_1: M \neq M_0\) (双尾检验)
▮▮▮▮⚝ \(H_1: M > M_0\) (右尾检验)
▮▮▮▮⚝ \(H_1: M < M_0\) (左尾检验)
⚝ 检验步骤:
1. 从总体中抽取随机样本 \(X_1, X_2, ..., X_n\)。
2. 计算每个样本值 \(X_i\) 与 \(M_0\) 的差 \(D_i = X_i - M_0\)。
3. 记录差值 \(D_i\) 的符号:正号 (+)、负号 (-)、零 (0)。剔除差值为零的样本,设剔除零值后剩余样本容量为 \(n'\)。
4. 统计正号 (+) 的个数 \(S_+\) 和负号 (-) 的个数 \(S_-\)。在原假设 \(H_0\) 成立的情况下,正号和负号出现的概率应该接近相等,即 \(P(+) \approx P(-) \approx 0.5\)。
5. 检验统计量:正号个数 \(S_+\) 或负号个数 \(S_-\)。在 \(H_0\) 成立时,\(S_+\) 近似服从二项分布 \(B(n', 0.5)\)。当 \(n'\) 较大时,可以利用正态近似。
6. 计算 p值:根据备择假设 \(H_1\) 的类型,计算相应的 p值。例如,对于双尾检验 \(H_1: M \neq M_0\),\(p\text{-value} = 2P(S \geq \max(S_+, S_-) \mid H_0)\),其中 \(S \sim B(n', 0.5)\)。
7. 根据 p值和显著性水平 \( \alpha \) 做出决策。
② 配对样本比较
⚝ 适用场景:比较两个相关样本(配对样本)之间的差异,总体分布未知或非正态。例如,比较同一患者治疗前后的某项指标。
⚝ 原假设 \(H_0\):两个配对总体的中位数之差为 0 (即治疗前后无差异)。
⚝ 备择假设 \(H_1\):
▮▮▮▮⚝ \(H_1\): 两个配对总体的中位数不相等 (双尾检验)
▮▮▮▮⚝ \(H_1\): 治疗后中位数大于治疗前 (右尾检验)
▮▮▮▮⚝ \(H_1\): 治疗后中位数小于治疗前 (左尾检验)
⚝ 检验步骤:
1. 对于每对配对样本 \((X_{1i}, X_{2i})\),计算差值 \(D_i = X_{1i} - X_{2i}\)。
2. 记录差值 \(D_i\) 的符号,剔除零值,设剩余样本容量为 \(n'\)。
3. 统计正号个数 \(S_+\) 和负号个数 \(S_-\)。
4. 检验统计量:\(S_+\) 或 \(S_-\),在 \(H_0\) 成立时,近似服从 \(B(n', 0.5)\)。
5. 计算 p值,并根据 p值和显著性水平 \( \alpha \) 做出决策。
符号检验的优点: 简单易懂,计算方便,对数据分布要求低,稳健性好。
符号检验的缺点: 仅利用符号信息,损失了数值大小的信息,检验功效相对较低。
8.3.3 秩和检验 (Rank Sum Test)
简要介绍秩和检验的基本原理和应用,如Wilcoxon秩和检验、Mann-Whitney U检验。
秩和检验 (Rank Sum Test) 是一类常用的非参数检验方法,用于比较两个或多个独立样本的总体分布是否存在显著差异。秩和检验基于样本数据的秩 (Rank) 进行分析,而不是原始数据值,因此对数据分布的要求较低,且具有一定的稳健性。
① Wilcoxon 秩和检验 (Wilcoxon Rank-Sum Test),也称为 Mann-Whitney U 检验
⚝ 适用场景:比较两个独立样本的总体分布是否相同,通常用于检验两个总体的中位数是否相等。总体分布类型未知或非正态。
⚝ 原假设 \(H_0\):两个总体的分布相同 (或中位数相等 \(M_1 = M_2\))。
⚝ 备择假设 \(H_1\):
▮▮▮▮⚝ \(H_1\): 两个总体的分布不相同 (或中位数不相等 \(M_1 \neq M_2\)) (双尾检验)
▮▮▮▮⚝ \(H_1\): 总体 1 的分布位置偏右 (或中位数 \(M_1 > M_2\)) (右尾检验)
▮▮▮▮⚝ \(H_1\): 总体 1 的分布位置偏左 (或中位数 \(M_1 < M_2\)) (左尾检验)
⚝ 检验步骤 (以 Wilcoxon 秩和检验为例):
1. 将两个样本的数据混合在一起,并从小到大排序。
2. 对混合数据进行秩次 (Rank) 分配。如果存在结 (Tie),即相同数值,则将这些数值的秩次取平均值。
3. 分别计算两个样本的秩和 \(R_1\) 和 \(R_2\)。例如,\(R_1\) 是样本 1 中所有数据在其混合样本中的秩次之和,\(R_2\) 同理。
4. 检验统计量:Wilcoxon 秩和统计量 \(W\) 可以取 \(R_1\) 或 \(R_2\)。Mann-Whitney U 检验统计量 \(U\) 可以通过秩和 \(R_1\) 或 \(R_2\) 计算得到。常用的形式是基于较小样本的秩和。例如,设样本 1 容量为 \(n_1\),样本 2 容量为 \(n_2\),则 \(U_1 = R_1 - \frac{n_1(n_1 + 1)}{2}\),\(U_2 = R_2 - \frac{n_2(n_2 + 1)}{2}\)。通常取 \(U = \min(U_1, U_2)\)。
5. 在原假设 \(H_0\) 成立时,当样本容量较大时 (例如 \(n_1, n_2 \geq 10\)),Wilcoxon 秩和统计量或 Mann-Whitney U 统计量近似服从正态分布。可以利用正态近似计算 p值。当样本容量较小时,可以使用精确分布表或计算精确 p值。
6. 根据备择假设 \(H_1\) 的类型,计算相应的 p值,并与显著性水平 \( \alpha \) 比较做出决策。
② Kruskal-Wallis 检验
⚝ 适用场景:Kruskal-Wallis 检验是 Wilcoxon 秩和检验的多样本推广,用于比较三个或多个独立样本的总体分布是否相同。总体分布类型未知或非正态。
⚝ 原假设 \(H_0\):所有 \(k\) 个总体的分布相同 (或中位数相等 \(M_1 = M_2 = ... = M_k\))。
⚝ 备择假设 \(H_1\):至少有两个总体的分布不相同 (或中位数不全相等)。
⚝ 检验步骤:
1. 将所有 \(k\) 个样本的数据混合在一起,并从小到大排序。
2. 对混合数据进行秩次分配,处理结的方式与 Wilcoxon 秩和检验相同。
3. 分别计算每个样本的秩和 \(R_1, R_2, ..., R_k\)。
4. 检验统计量:Kruskal-Wallis H 统计量,其定义为:
\[ H = \frac{12}{N(N+1)} \sum_{i=1}^{k} \frac{R_i^2}{n_i} - 3(N+1) \]
其中,\(n_i\) 是第 \(i\) 个样本的容量,\(R_i\) 是第 \(i\) 个样本的秩和,\(N = \sum_{i=1}^{k} n_i\) 是总样本容量。
5. 在原假设 \(H_0\) 成立时,当每个样本容量 \(n_i\) 都不太小 (通常要求每个 \(n_i \geq 5\)),且总体样本容量 \(N\) 较大时,H 统计量近似服从自由度为 \(k-1\) 的卡方分布 \( \chi^2(k-1) \)。
6. 计算 p值:\(p\text{-value} = P(\chi^2 \geq H_{obs}) \),其中 \(H_{obs}\) 是 H 统计量的观测值,\( \chi^2 \sim \chi^2(k-1) \)。
7. 根据 p值和显著性水平 \( \alpha \) 做出决策。
秩和检验的优点: 适用范围广,对数据分布要求低,稳健性好,检验功效相对符号检验较高。
秩和检验的缺点: 当数据满足参数检验条件时,检验功效仍可能低于参数检验。
9. 方差分析 (Analysis of Variance, ANOVA)
本章介绍方差分析的基本原理和方法,用于检验多个总体均值是否相等,是统计学中重要的分析工具。
9.1 方差分析的基本原理 (Basic Principles of ANOVA)
介绍方差分析的基本思想和假设条件。
9.1.1 方差分析的思想 (Idea of ANOVA)
阐述方差分析通过分解总变异来检验均值差异的基本思想。
方差分析 (ANOVA) 的核心思想是通过分析数据总变异的来源,从而推断不同组别之间均值是否存在显著差异。与直接比较均值不同,ANOVA 将总变异分解为组间变异 (between-group variation) 和 组内变异 (within-group variation)。
① 总变异 (Total Variation):反映了所有观测数据之间的差异程度。它可以被度量为 总平方和 (Sum of Squares Total, SST),表示每个数据点与其总均值偏差的平方和。
② 组间变异 (Between-Group Variation):反映了不同组别样本均值之间的差异程度。如果组别均值差异大,则组间变异也会相应增大。它被度量为 组间平方和 (Sum of Squares Treatment, SSTr) 或 因子平方和 (Sum of Squares Factor, SSF),表示每个组的均值与其总均值偏差的平方和,并乘以该组的样本量。
③ 组内变异 (Within-Group Variation):反映了同一组别内部样本数据之间的差异程度,也称为 误差变异 (Error Variation) 或 残差变异 (Residual Variation)。它代表了除了组别因素以外的其他随机因素导致的变异。它被度量为 组内平方和 (Sum of Squares Error, SSE) 或 残差平方和 (Sum of Squares Residual, SSR),表示每个数据点与其所在组别均值偏差的平方和。
在理想情况下,如果各组总体均值相等(原假设成立),那么组间变异应该主要由随机误差引起,与组内变异的大小相近。反之,如果组间均值存在显著差异(备择假设成立),则组间变异会显著大于组内变异。
ANOVA 的检验统计量 \( F \) 值正是基于组间变异和组内变异的比值构建的。
\[ F = \frac{\text{组间均方 (Mean Square Treatment, MSTr)}}{\text{组内均方 (Mean Square Error, MSE)}} = \frac{\text{MSTr}}{\text{MSE}} \]
其中,均方 (Mean Square, MS) 是平方和除以相应的自由度 (degrees of freedom, DF)。
如果 \( F \) 值显著大于1,则表明组间变异相对于组内变异较大,更有理由拒绝原假设,认为组别均值之间存在显著差异。反之,如果 \( F \) 值接近于1,则不能拒绝原假设。
简而言之,方差分析就像一个“放大镜”,它并不直接比较均值,而是通过比较不同变异来源的“相对大小”来间接推断均值是否相等。 如果组间变异显著大于组内变异,就如同我们用放大镜观察到了组间均值的“差异”,从而推断各组总体均值不完全相等。
9.1.2 方差分析的假设条件 (Assumptions of ANOVA)
介绍方差分析的假设条件,如正态性、方差齐性、独立性。
为了保证方差分析结果的有效性和可靠性,数据需要满足以下几个重要的假设条件:
① 正态性 (Normality):
▮▮▮▮ⓑ 组内正态性 (Normality within groups):对于每个组别,观测数据都应来自服从正态分布的总体。更精确地说,对于单因素 ANOVA 模型 \(Y_{ij} = \mu + \tau_i + \epsilon_{ij}\),误差项 \( \epsilon_{ij} \) 应该服从均值为 0,方差为 \( \sigma^2 \) 的正态分布,即 \( \epsilon_{ij} \sim N(0, \sigma^2) \)。
▮▮▮▮ⓒ 检验方法:
▮▮▮▮▮▮▮▮❹ 可以使用 Shapiro-Wilk 检验 (Shapiro-Wilk test)、Kolmogorov-Smirnov 检验 (Kolmogorov-Smirnov test) 或 Anderson-Darling 检验 (Anderson-Darling test) 等正态性检验方法,对每个组别的数据进行检验。
▮▮▮▮▮▮▮▮❺ 绘制 Q-Q 图 (Quantile-Quantile plot) 或 直方图 (histogram),目视判断数据是否近似正态分布。
▮▮▮▮ⓕ 稳健性 (Robustness):ANOVA 对正态性假设具有一定的稳健性,尤其是在样本量较大时。轻微违反正态性假设可能不会对结果产生太大影响。但如果严重偏离正态分布,特别是存在明显的偏态或异常值,则可能影响检验结果的准确性。
② 方差齐性 (Homogeneity of Variances):
▮▮▮▮ⓑ 组间方差相等 (Equal variances across groups):所有组别的总体方差应该相等。在单因素 ANOVA 模型中,这意味着所有组别的误差项 \( \epsilon_{ij} \) 具有相同的方差 \( \sigma^2 \)。
▮▮▮▮ⓒ 检验方法:
▮▮▮▮▮▮▮▮❹ Levene 检验 (Levene's test) 和 Bartlett 检验 (Bartlett's test) 是常用的方差齐性检验方法。Levene 检验对非正态数据更为稳健。
▮▮▮▮▮▮▮▮❺ 绘制 残差散点图 (residual plot),观察各组残差的散布程度是否大致相同。如果残差的散布程度随组别变化明显,则可能存在方差不齐性问题。
▮▮▮▮ⓕ 处理方法:
▮▮▮▮▮▮▮▮❼ 如果违反方差齐性假设,可以考虑使用 Welch's ANOVA,这是一种对组间方差不齐性具有稳健性的方差分析方法。
▮▮▮▮▮▮▮▮❽ 数据转换,如 对数转换 (log transformation) 或 平方根转换 (square root transformation),有时可以帮助改善方差齐性。
▮▮▮▮▮▮▮▮❾ 如果方差不齐性问题严重且无法通过转换解决,可能需要考虑使用非参数方法,如 Kruskal-Wallis 检验 (Kruskal-Wallis test),它是 ANOVA 的非参数替代方法。
③ 独立性 (Independence):
▮▮▮▮ⓑ 观测值之间相互独立 (Independence of observations):每个观测值必须是独立于其他观测值获得的。组内和组间的数据都应该相互独立。
▮▮▮▮ⓒ 来源:独立性通常来源于合理的实验设计或抽样方法。例如,随机抽样可以保证观测值的独立性。
▮▮▮▮ⓓ 影响:违反独立性假设会严重影响 ANOVA 的结果,导致 \( F \) 检验的 \( p \) 值不准确,甚至得出错误的结论。例如,如果数据存在自相关性(如时间序列数据),则不应直接使用 ANOVA。
▮▮▮▮ⓔ 检查:独立性假设的检查主要依赖于对实验设计和数据收集过程的理解和判断,统计检验方法较少直接用于检验独立性。在时间序列分析中,可以检验残差的自相关性来辅助判断。
总结:在进行方差分析之前,务必检验这些假设条件是否满足。如果假设条件不满足,需要采取相应的措施,如数据转换、使用稳健的 ANOVA 方法或非参数方法,以保证分析结果的可靠性。 实际应用中,对于大型数据集,ANOVA 对正态性和方差齐性假设的轻微违反具有一定的容忍度,但对于小型数据集或严重违反假设的情况,则需要格外注意。
9.2 单因素方差分析 (One-Way ANOVA)
详细讲解单因素方差分析的原理、模型、计算步骤和结果解释。
9.2.1 单因素方差分析模型 (One-Way ANOVA Model)
建立单因素方差分析的统计模型。
单因素方差分析 (One-Way ANOVA) 用于研究一个分类自变量(因子,factor)对一个数值型因变量的影响。假设我们有 \( k \) 个组别(水平,levels),每个组别下有若干个观测值。单因素 ANOVA 的统计模型可以表示为:
\[ Y_{ij} = \mu_i + \epsilon_{ij} = \mu + \tau_i + \epsilon_{ij} \]
其中:
⚝ \( Y_{ij} \):第 \( i \) 组的第 \( j \) 个观测值(因变量)。\( i = 1, 2, \ldots, k \),\( j = 1, 2, \ldots, n_i \),\( n_i \) 是第 \( i \) 组的样本量。
⚝ \( \mu_i \):第 \( i \) 组的总体均值。
⚝ \( \mu \):所有组别的总均值(总体均值)。
⚝ \( \tau_i = \mu_i - \mu \):第 \( i \) 组的处理效应 (treatment effect),表示第 \( i \) 组的均值与总均值的偏差。\( \sum_{i=1}^{k} n_i \tau_i = 0 \) 或在等样本量情况下 \( \sum_{i=1}^{k} \tau_i = 0 \)。
⚝ \( \epsilon_{ij} \):随机误差项 (random error term),反映了除了因子效应以外的其他随机因素对观测值的影响。假设 \( \epsilon_{ij} \) 独立同分布于 \( N(0, \sigma^2) \)。
模型假设:
⚝ 独立性 (Independence):\( \epsilon_{ij} \) 之间相互独立。
⚝ 正态性 (Normality):\( \epsilon_{ij} \sim N(0, \sigma^2) \)。
⚝ 方差齐性 (Homogeneity of variances):所有组别的误差项具有相同的方差 \( \sigma^2 \)。
检验假设:
单因素 ANOVA 的主要目的是检验各组总体均值是否相等。
⚝ 原假设 (Null hypothesis, \( H_0 \)):\( H_0: \mu_1 = \mu_2 = \cdots = \mu_k \) (所有组别总体均值相等,或等价地,所有处理效应 \( \tau_i = 0 \))。
⚝ 备择假设 (Alternative hypothesis, \( H_1 \)):\( H_1: \mu_i \) 不全相等 (至少有两组总体均值不相等,或等价地,至少有一个 \( \tau_i \neq 0 \))。
9.2.2 平方和分解与F检验 (Sum of Squares Decomposition and F-test)
介绍平方和分解的过程和F检验的统计量构造。
为了检验上述假设,单因素 ANOVA 将总变异分解为组间变异和组内变异,并构建 \( F \) 统计量进行检验。
① 平方和分解 (Sum of Squares Decomposition):
总平方和 (SST) 可以分解为组间平方和 (SSTr) 和组内平方和 (SSE) 之和:
\[ \text{SST} = \text{SSTr} + \text{SSE} \]
各项的计算公式如下:
⚝ 总平方和 (SST):反映了所有观测值 \( Y_{ij} \) 相对于总均值 \( \bar{Y} \) 的总变异。
\[ \text{SST} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y})^2 \]
其中,\( \bar{Y} = \frac{1}{N} \sum_{i=1}^{k} \sum_{j=1}^{n_i} Y_{ij} \) 是所有观测值的总均值,\( N = \sum_{i=1}^{k} n_i \) 是总样本量。
⚝ 组间平方和 (SSTr):反映了各组样本均值 \( \bar{Y}_i \) 相对于总均值 \( \bar{Y} \) 的变异,即组别之间的变异。
\[ \text{SSTr} = \sum_{i=1}^{k} n_i (\bar{Y}_i - \bar{Y})^2 \]
其中,\( \bar{Y}_i = \frac{1}{n_i} \sum_{j=1}^{n_i} Y_{ij} \) 是第 \( i \) 组的样本均值。
⚝ 组内平方和 (SSE):反映了每个组内观测值 \( Y_{ij} \) 相对于其组均值 \( \bar{Y}_i \) 的变异,即组别内部的变异。
\[ \text{SSE} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_i)^2 \]
② 自由度 (Degrees of Freedom, DF):
每种平方和都对应一个自由度,表示计算平方和时独立信息的数量。
⚝ 总自由度 (DFT):\( \text{DFT} = N - 1 \)
⚝ 组间自由度 (DFTr):\( \text{DFTr} = k - 1 \)
⚝ 组内自由度 (DFE):\( \text{DFE} = N - k = \sum_{i=1}^{k} (n_i - 1) \)
自由度之间也满足分解关系:\( \text{DFT} = \text{DFTr} + \text{DFE} \)。
③ 均方 (Mean Square, MS):
均方是平方和除以相应的自由度,反映了每自由度的变异大小。
⚝ 组间均方 (MSTr):\( \text{MSTr} = \frac{\text{SSTr}}{\text{DFTr}} = \frac{\text{SSTr}}{k - 1} \)
⚝ 组内均方 (MSE):\( \text{MSE} = \frac{\text{SSE}}{\text{DFE}} = \frac{\text{SSE}}{N - k} \)
组内均方 MSE 也称为 误差均方 (Mean Square Error),是对总体方差 \( \sigma^2 \) 的一个估计。
④ F 检验统计量 (F-statistic):
\( F \) 检验统计量是组间均方 MSTr 与组内均方 MSE 的比值:
\[ F = \frac{\text{MSTr}}{\text{MSE}} \]
在原假设 \( H_0 \) 成立的条件下,\( F \) 统计量服从自由度为 \( (k-1, N-k) \) 的 F 分布 (F-distribution),记为 \( F \sim F(k-1, N-k) \)。
⑤ 决策规则 (Decision Rule):
给定显著性水平 \( \alpha \),查 \( F \) 分布表或计算 \( p \) 值。
⚝ 拒绝 \( H_0 \):如果 \( F > F_{\alpha}(k-1, N-k) \) 或 \( p \text{-value} < \alpha \),则拒绝原假设 \( H_0 \),认为至少有两组总体均值之间存在显著差异。
⚝ 不拒绝 \( H_0 \):如果 \( F \leq F_{\alpha}(k-1, N-k) \) 或 \( p \text{-value} \geq \alpha \),则不拒绝原假设 \( H_0 \),不能认为组别总体均值之间存在显著差异。
\( F \) 检验是单尾检验 (one-tailed test),因为我们只关心组间变异是否显著大于组内变异。
9.2.3 方差分析表 (ANOVA Table)
介绍方差分析表的结构和解读方法。
为了清晰地展示方差分析的结果,通常会将计算过程和检验结果整理成 方差分析表 (ANOVA Table)。一个典型的单因素 ANOVA 表格结构如下:
变异来源 (Source of Variation) | 自由度 (DF) | 平方和 (SS) | 均方 (MS) | \( F \) 统计量 | \( p \) 值 |
---|---|---|---|---|---|
组间 (Between Groups / Treatment) | \( k-1 \) | SSTr | MSTr = SSTr / (k-1) | \( F = \frac{\text{MSTr}}{\text{MSE}} \) | \( p \) 值 |
组内 (Within Groups / Error) | \( N-k \) | SSE | MSE = SSE / (N-k) | ||
总计 (Total) | \( N-1 \) | SST |
解读 ANOVA 表:
⚝ 变异来源 (Source of Variation):列出了变异的来源,包括组间变异、组内变异和总变异。
⚝ 自由度 (DF):每种变异来源对应的自由度。
⚝ 平方和 (SS):每种变异来源的平方和。
⚝ 均方 (MS):每种变异来源的均方,是平方和除以自由度。
⚝ \( F \) 统计量:\( F \) 检验统计量,用于检验组间均值是否相等。
⚝ \( p \) 值:基于 \( F \) 统计量计算出的 \( p \) 值,表示在原假设 \( H_0 \) 成立的条件下,观察到当前样本结果或更极端结果的概率。
利用 ANOVA 表进行假设检验:
① 查看 \( F \) 统计量和 \( p \) 值:关注 ANOVA 表中的 \( F \) 统计量和 \( p \) 值。
② 判断是否拒绝 \( H_0 \):
▮▮▮▮ⓒ 如果 \( p \text{-value} < \alpha \)(通常 \( \alpha = 0.05 \)),则拒绝原假设 \( H_0 \),认为因子对因变量有显著影响,即各组总体均值不全相等。
▮▮▮▮ⓓ 如果 \( p \text{-value} \geq \alpha \),则不拒绝原假设 \( H_0 \),不能认为因子对因变量有显著影响,即不能认为各组总体均值之间存在显著差异。
⑤ 效应大小 (Effect Size):即使 \( F \) 检验显著,也需要考虑效应大小,例如使用 \( \eta^2 \) (eta-squared) 或 \( \omega^2 \) (omega-squared) 来衡量因子对因变量变异的解释程度。 \( \eta^2 = \frac{\text{SSTr}}{\text{SST}} \) 表示因子可以解释总变异的比例。
示例:假设我们研究三种不同肥料对作物产量的影响,收集了三组数据,进行了单因素 ANOVA,得到如下 ANOVA 表(部分):
变异来源 | 自由度 | 平方和 | 均方 | \( F \) 统计量 | \( p \) 值 |
---|---|---|---|---|---|
肥料 (组间) | 2 | 150 | 75 | 5.0 | 0.02 |
误差 (组内) | 12 | 180 | 15 | ||
总计 | 14 | 330 |
⚝ \( F \) 统计量 = 5.0,\( p \) 值 = 0.02。
⚝ 假设显著性水平 \( \alpha = 0.05 \)。由于 \( p \text{-value} = 0.02 < 0.05 \),因此拒绝原假设 \( H_0 \)。
⚝ 结论:不同肥料对作物产量有显著影响(在 \( \alpha = 0.05 \) 水平下)。即至少有两种肥料处理的平均产量存在显著差异。
9.2.4 多重比较 (Multiple Comparisons)
简要介绍多重比较方法,用于方差分析拒绝原假设后进一步分析哪些组之间存在差异。
当单因素 ANOVA 的 \( F \) 检验拒绝原假设 \( H_0 \) 时,我们只能得出“至少有两组总体均值不相等”的结论,但无法知道具体是哪几组之间存在差异。为了进一步明确哪些组别之间存在显著差异,需要进行 多重比较 (Multiple Comparisons) 或 事后检验 (Post-hoc Tests)。
多重比较问题 (Multiple Comparisons Problem):
如果直接对所有组别两两进行 \( t \) 检验,会增加犯 第一类错误 (Type I error) 的概率,即错误地拒绝原假设。因为每次 \( t \) 检验都设定了一个显著性水平 \( \alpha \),当进行多次检验时,至少有一次犯错误的概率会累积增大。
多重比较方法的目标:
在控制 族错误率 (Family-Wise Error Rate, FWER) 的前提下,进行组别之间的两两比较。FWER 是指在所有比较中,至少发生一次第一类错误的概率。常见的多重比较方法旨在将 FWER 控制在预先设定的水平 \( \alpha \) 以下。
常用的多重比较方法:
① Bonferroni 校正 (Bonferroni Correction):
▮▮▮▮ⓑ 原理:将每次两两比较的显著性水平 \( \alpha \) 除以比较次数 \( m \),得到校正后的显著性水平 \( \alpha' = \frac{\alpha}{m} \)。如果两组均值比较的 \( p \) 值小于 \( \alpha' \),则认为这两组之间存在显著差异。
▮▮▮▮ⓒ 优点:方法简单保守,适用性广,无需假设条件。
▮▮▮▮ⓓ 缺点:过于保守,检验效能较低,容易犯 第二类错误 (Type II error),即未能发现真实存在的差异。
② Tukey's HSD (Honestly Significant Difference) 检验:
▮▮▮▮ⓑ 适用条件:适用于所有组别样本量相等的情况,或近似相等的情况。
▮▮▮▮ⓒ 原理:基于 学生化极差分布 (Studentized range distribution),控制 FWER。
▮▮▮▮ⓓ 特点:在样本量相等时,Tukey's HSD 检验通常比 Bonferroni 校正更强大(检验效能更高)。
③ Scheffé 检验 (Scheffé's Method):
▮▮▮▮ⓑ 适用性广:适用于各种类型的组间比较,包括两两比较、多组均值组合的比较等。
▮▮▮▮ⓒ 保守:Scheffé 检验通常比较保守,检验效能相对较低。
④ Dunnett 检验 (Dunnett's Test):
▮▮▮▮ⓑ 特定用途:用于将所有处理组与一个对照组进行比较。
▮▮▮▮ⓒ 效率高:当研究目的只是想比较各处理组与对照组的差异时,Dunnett 检验比其他通用方法更有效。
⑤ Fisher's LSD (Least Significant Difference) 检验:
▮▮▮▮ⓑ 两步法:先进行 ANOVA 的 \( F \) 检验,只有当 \( F \) 检验显著时,才进行 LSD 事后检验。
▮▮▮▮ⓒ 风险:LSD 方法实际上没有对多重比较问题进行有效校正,FWER 控制较差,容易犯第一类错误。因此,通常不推荐单独使用 LSD 作为主要的多重比较方法。
选择多重比较方法:
⚝ 如果目标是严格控制 FWER,可以选择 Bonferroni 校正、Tukey's HSD 或 Scheffé 检验。
⚝ Tukey's HSD 检验在样本量相等或近似相等时,通常是较好的选择。
⚝ Bonferroni 校正方法简单易用,适用性广,但可能过于保守。
⚝ Dunnett 检验适用于特定类型的比较(与对照组比较)。
⚝ Fisher's LSD 检验应谨慎使用,通常不单独作为主要的多重比较方法。
在实际应用中,应根据研究目的、数据特点和对犯错风险的容忍程度,选择合适的多重比较方法。统计软件通常会提供多种多重比较方法供用户选择。
9.3 双因素方差分析 (Two-Way ANOVA)
介绍双因素方差分析的基本原理和模型,包括无交互效应和有交互效应的情况。
9.3.1 双因素无交互效应方差分析 (Two-Way ANOVA without Interaction)
介绍双因素无交互效应方差分析的模型和检验方法。
双因素方差分析 (Two-Way ANOVA) 用于研究两个分类自变量(因子,factor)对一个数值型因变量的影响。双因素无交互效应 ANOVA (Two-Way ANOVA without Interaction) 假设两个因子对因变量的影响是相互独立的,不存在交互作用。
模型:
假设有两个因子 A 和 B,因子 A 有 \( r \) 个水平,因子 B 有 \( c \) 个水平。双因素无交互效应 ANOVA 模型可以表示为:
\[ Y_{ijk} = \mu + \alpha_i + \beta_j + \epsilon_{ijk} \]
其中:
⚝ \( Y_{ijk} \):在因子 A 的第 \( i \) 个水平和因子 B 的第 \( j \) 个水平组合下的第 \( k \) 个观测值(因变量)。\( i = 1, 2, \ldots, r \),\( j = 1, 2, \ldots, c \),\( k = 1, 2, \ldots, n \) (假设每个单元格样本量相等为 \( n \),总样本量 \( N = rcn \))。
⚝ \( \mu \):总均值。
⚝ \( \alpha_i \):因子 A 的第 \( i \) 个水平的主效应 (main effect)。\( \sum_{i=1}^{r} \alpha_i = 0 \)。
⚝ \( \beta_j \):因子 B 的第 \( j \) 个水平的主效应 (main effect)。\( \sum_{j=1}^{c} \beta_j = 0 \)。
⚝ \( \epsilon_{ijk} \):随机误差项,\( \epsilon_{ijk} \sim N(0, \sigma^2) \) 且相互独立。
模型假设:与单因素 ANOVA 类似,双因素 ANOVA 也需要满足正态性、方差齐性、独立性假设。
检验假设:
双因素无交互效应 ANOVA 主要检验两个方面的假设:
① 因子 A 的主效应:
▮▮▮▮⚝ \( H_{0A}: \alpha_1 = \alpha_2 = \cdots = \alpha_r = 0 \) (因子 A 各水平的主效应均为 0,即因子 A 对因变量没有显著影响)。
▮▮▮▮⚝ \( H_{1A}: \alpha_i \) 不全为 0 (因子 A 对因变量有显著影响)。
② 因子 B 的主效应:
▮▮▮▮⚝ \( H_{0B}: \beta_1 = \beta_2 = \cdots = \beta_c = 0 \) (因子 B 各水平的主效应均为 0,即因子 B 对因变量没有显著影响)。
▮▮▮▮⚝ \( H_{1B}: \beta_j \) 不全为 0 (因子 B 对因变量有显著影响)。
平方和分解:
总平方和 (SST) 可以分解为因子 A 平方和 (SSA)、因子 B 平方和 (SSB) 和误差平方和 (SSE) 之和:
\[ \text{SST} = \text{SSA} + \text{SSB} + \text{SSE} \]
各项的计算公式较为复杂,统计软件会自动计算。
自由度:
⚝ 总自由度 (DFT):\( \text{DFT} = N - 1 = rcn - 1 \)
⚝ 因子 A 自由度 (DFA):\( \text{DFA} = r - 1 \)
⚝ 因子 B 自由度 (DFB):\( \text{DFB} = c - 1 \)
⚝ 误差自由度 (DFE):\( \text{DFE} = (r-1)(c-1)n = rc(n-1) = N - rc \)
均方:
⚝ 因子 A 均方 (MSA):\( \text{MSA} = \frac{\text{SSA}}{\text{DFA}} = \frac{\text{SSA}}{r - 1} \)
⚝ 因子 B 均方 (MSB):\( \text{MSB} = \frac{\text{SSB}}{\text{DFB}} = \frac{\text{SSB}}{c - 1} \)
⚝ 误差均方 (MSE):\( \text{MSE} = \frac{\text{SSE}}{\text{DFE}} = \frac{\text{SSE}}{N - rc} \)
\( F \) 检验统计量:
① 检验因子 A 的主效应: \( F_A = \frac{\text{MSA}}{\text{MSE}} \sim F(r-1, N-rc) \)
② 检验因子 B 的主效应: \( F_B = \frac{\text{MSB}}{\text{MSE}} \sim F(c-1, N-rc) \)
ANOVA 表:双因素无交互效应 ANOVA 表格结构如下:
变异来源 | 自由度 | 平方和 | 均方 | \( F \) 统计量 | \( p \) 值 |
---|---|---|---|---|---|
因子 A | \( r-1 \) | SSA | MSA | \( F_A = \frac{\text{MSA}}{\text{MSE}} \) | \( p \text{-value}_A \) |
因子 B | \( c-1 \) | SSB | MSB | \( F_B = \frac{\text{MSB}}{\text{MSE}} \) | \( p \text{-value}_B \) |
误差 | \( N-rc \) | SSE | MSE | ||
总计 | \( N-1 \) | SST |
决策规则:
分别对因子 A 和因子 B 进行 \( F \) 检验,根据 \( p \) 值判断是否拒绝相应的原假设。
9.3.2 双因素有交互效应方差分析 (Two-Way ANOVA with Interaction)
介绍双因素有交互效应方差分析的模型和检验方法,以及交互效应的解释。
双因素有交互效应 ANOVA (Two-Way ANOVA with Interaction) 考虑了两个因子之间可能存在的交互作用 (interaction effect)。交互作用指的是一个因子的效应大小会随着另一个因子的水平变化而变化。
模型:
双因素有交互效应 ANOVA 模型为:
\[ Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk} \]
其中,\( (\alpha\beta)_{ij} \) 是因子 A 的第 \( i \) 个水平和因子 B 的第 \( j \) 个水平的交互效应 (interaction effect)。 \( \sum_{i=1}^{r} (\alpha\beta)_{ij} = 0 \) 对所有 \( j \), \( \sum_{j=1}^{c} (\alpha\beta)_{ij} = 0 \) 对所有 \( i \)。 其他符号含义与无交互效应模型相同。
检验假设:
双因素有交互效应 ANOVA 需要检验三个方面的假设:
① 因子 A 的主效应:\( H_{0A}: \alpha_1 = \alpha_2 = \cdots = \alpha_r = 0 \)
② 因子 B 的主效应:\( H_{0B}: \beta_1 = \beta_2 = \cdots = \beta_c = 0 \)
③ 交互效应:\( H_{0AB}: (\alpha\beta)_{ij} = 0 \) 对所有 \( i, j \) (因子 A 和因子 B 之间不存在交互作用)。
▮▮▮▮⚝ \( H_{1AB}: (\alpha\beta)_{ij} \) 不全为 0 (因子 A 和因子 B 之间存在交互作用)。
平方和分解:
总平方和 (SST) 分解为因子 A 平方和 (SSA)、因子 B 平方和 (SSB)、交互作用平方和 (SSAB) 和误差平方和 (SSE) 之和:
\[ \text{SST} = \text{SSA} + \text{SSB} + \text{SSAB} + \text{SSE} \]
自由度:
⚝ 总自由度 (DFT):\( \text{DFT} = N - 1 = rcn - 1 \)
⚝ 因子 A 自由度 (DFA):\( \text{DFA} = r - 1 \)
⚝ 因子 B 自由度 (DFB):\( \text{DFB} = c - 1 \)
⚝ 交互作用自由度 (DFAB):\( \text{DFAB} = (r-1)(c-1) \)
⚝ 误差自由度 (DFE):\( \text{DFE} = rc(n-1) = N - rc \)
均方:
⚝ 因子 A 均方 (MSA):\( \text{MSA} = \frac{\text{SSA}}{\text{DFA}} = \frac{\text{SSA}}{r - 1} \)
⚝ 因子 B 均方 (MSB):\( \text{MSB} = \frac{\text{SSB}}{\text{DFB}} = \frac{\text{SSB}}{c - 1} \)
⚝ 交互作用均方 (MSAB):\( \text{MSAB} = \frac{\text{SSAB}}{\text{DFAB}} = \frac{\text{SSAB}}{(r-1)(c-1)} \)
⚝ 误差均方 (MSE):\( \text{MSE} = \frac{\text{SSE}}{\text{DFE}} = \frac{\text{SSE}}{N - rc} \)
\( F \) 检验统计量:
① 检验因子 A 的主效应: \( F_A = \frac{\text{MSA}}{\text{MSE}} \sim F(r-1, N-rc) \)
② 检验因子 B 的主效应: \( F_B = \frac{\text{MSB}}{\text{MSE}} \sim F(c-1, N-rc) \)
③ 检验交互效应: \( F_{AB} = \frac{\text{MSAB}}{\text{MSE}} \sim F((r-1)(c-1), N-rc) \)
ANOVA 表:双因素有交互效应 ANOVA 表格结构如下:
变异来源 | 自由度 | 平方和 | 均方 | \( F \) 统计量 | \( p \) 值 |
---|---|---|---|---|---|
因子 A | \( r-1 \) | SSA | MSA | \( F_A = \frac{\text{MSA}}{\text{MSE}} \) | \( p \text{-value}_A \) |
因子 B | \( c-1 \) | SSB | MSB | \( F_B = \frac{\text{MSB}}{\text{MSE}} \) | \( p \text{-value}_B \) |
交互作用 (A×B) | \( (r-1)(c-1) \) | SSAB | MSAB | \( F_{AB} = \frac{\text{MSAB}}{\text{MSE}} \) | \( p \text{-value}_{AB} \) |
误差 | \( N-rc \) | SSE | MSE | ||
总计 | \( N-1 \) | SST |
解读交互效应:
⚝ 如果交互效应显著 ( \( p \text{-value}_{AB} < \alpha \)):说明因子 A 和因子 B 之间存在交互作用。此时,解释主效应需要谨慎。通常,应该关注简单效应 (simple effects),即固定一个因子的水平,考察另一个因子不同水平之间的差异。也可以绘制 交互作用图 (interaction plot),直观展示交互效应。
⚝ 如果交互效应不显著 ( \( p \text{-value}_{AB} \geq \alpha \)):可以认为因子 A 和因子 B 之间不存在交互作用,可以主要关注各自的主效应。此时,可以根据 \( F_A \) 和 \( F_B \) 检验的结果,分别解释因子 A 和因子 B 对因变量的影响。
交互作用图 (Interaction Plot):
交互作用图通常以一个因子为横轴,因变量的均值为纵轴,另一个因子的不同水平用不同的线条表示。
⚝ 平行线:如果不同线条近似平行,说明交互作用不显著。
⚝ 交叉或相交线:如果线条交叉或相交,说明存在交互作用。交叉越明显,交互作用越强。
总结:双因素 ANOVA 可以同时考察两个因子的主效应以及它们之间的交互作用。当存在交互作用时,解释因子效应需要更加细致,不能简单地只看主效应,而应深入分析简单效应和交互作用的模式。
10. 回归分析 (Regression Analysis)
本章介绍回归分析 (Regression Analysis) 的基本原理和方法,包括线性回归 (Linear Regression)、多元线性回归 (Multiple Linear Regression) 和非线性回归 (Nonlinear Regression),用于研究变量之间的关系和进行预测。
10.1 一元线性回归 (Simple Linear Regression)
本节详细讲解一元线性回归 (Simple Linear Regression) 的模型、参数估计、假设检验和预测。
10.1.1 一元线性回归模型 (Simple Linear Regression Model)
一元线性回归模型描述的是一个因变量 \(Y\) 与一个自变量 \(X\) 之间的线性关系。模型假设因变量 \(Y\) 的期望值与自变量 \(X\) 之间存在线性关系,并且对于给定的 \(X\),\(Y\) 的取值围绕着这条直线随机波动。
一元线性回归模型可以用以下方程表示:
\[ Y_i = \beta_0 + \beta_1 X_i + \epsilon_i, \quad i = 1, 2, \ldots, n \]
其中:
① \(Y_i\) 是第 \(i\) 个观测值的因变量。
② \(X_i\) 是第 \(i\) 个观测值的自变量。
③ \(\beta_0\) 是截距 (intercept),表示当 \(X=0\) 时,\(Y\) 的期望值。
④ \(\beta_1\) 是斜率 (slope),表示当 \(X\) 增加一个单位时,\(Y\) 的期望值的变化量。
⑤ \(\epsilon_i\) 是随机误差项 (random error term),代表了模型未能解释的 \(Y_i\) 的变异性。我们通常假设 \(\epsilon_i\) 满足以下条件:
▮▮▮▮ⓕ 零均值 (zero mean): \(E(\epsilon_i) = 0\)。
▮▮▮▮ⓖ 等方差 (homoscedasticity): \(Var(\epsilon_i) = \sigma^2\),对于所有 \(i\) 都是常数。
▮▮▮▮ⓗ 独立性 (independence): \(\epsilon_i\) 和 \(\epsilon_j\) 相互独立,当 \(i \neq j\)。
▮▮▮▮ⓘ 正态性 (normality): \(\epsilon_i\) 服从正态分布。在某些情况下,正态性假设可以放宽,尤其是在大样本情况下,由于中心极限定理 (Central Limit Theorem) 的作用,即使误差项不是严格正态分布,参数估计的性质仍然良好。
总而言之,一元线性回归模型试图用一条直线 \(E(Y|X) = \beta_0 + \beta_1 X\) 来近似描述因变量 \(Y\) 与自变量 \(X\) 之间的关系,并将观测值 \(Y_i\) 与直线上的期望值之间的偏差归结为随机误差 \(\epsilon_i\)。
10.1.2 参数的最小二乘估计 (Least Squares Estimation of Parameters)
最小二乘法 (Least Squares Method, LS) 是估计线性回归模型参数 \(\beta_0\) 和 \(\beta_1\) 的最常用方法之一。其基本思想是选择 \(\beta_0\) 和 \(\beta_1\) 的估计值,使得残差平方和 (Residual Sum of Squares, RSS) 最小化。残差 (residual) \(e_i\) 定义为观测值 \(Y_i\) 与回归模型预测值 \(\hat{Y}_i = \hat{\beta}_0 + \hat{\beta}_1 X_i\) 之间的差:
\[ e_i = Y_i - \hat{Y}_i = Y_i - (\hat{\beta}_0 + \hat{\beta}_1 X_i) \]
其中 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 分别是 \(\beta_0\) 和 \(\beta_1\) 的估计值。残差平方和 RSS 可以表示为:
\[ RSS(\beta_0, \beta_1) = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (Y_i - (\beta_0 + \beta_1 X_i))^2 \]
最小二乘估计的目标是找到 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\),使得 RSS 达到最小值。为了求解 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\),我们需要对 RSS 关于 \(\beta_0\) 和 \(\beta_1\) 求偏导数,并令偏导数等于零,得到正规方程组 (Normal Equations):
\[ \begin{cases} \frac{\partial RSS}{\partial \beta_0} = -2 \sum_{i=1}^{n} (Y_i - (\beta_0 + \beta_1 X_i)) = 0 \\ \frac{\partial RSS}{\partial \beta_1} = -2 \sum_{i=1}^{n} X_i (Y_i - (\beta_0 + \beta_1 X_i)) = 0 \end{cases} \]
化简正规方程组,可以得到:
\[ \begin{cases} \sum_{i=1}^{n} Y_i = n \beta_0 + \beta_1 \sum_{i=1}^{n} X_i \\ \sum_{i=1}^{n} X_i Y_i = \beta_0 \sum_{i=1}^{n} X_i + \beta_1 \sum_{i=1}^{n} X_i^2 \end{cases} \]
解这个方程组,可以得到最小二乘估计量 \(\hat{\beta}_1\) 和 \(\hat{\beta}_0\):
\[ \hat{\beta}_1 = \frac{\sum_{i=1}^{n} (X_i - \bar{X}) (Y_i - \bar{Y})}{\sum_{i=1}^{n} (X_i - \bar{X})^2} = \frac{S_{xy}}{S_{xx}} \]
\[ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1 \bar{X} \]
其中 \(\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\) 和 \(\bar{Y} = \frac{1}{n} \sum_{i=1}^{n} Y_i\) 分别是 \(X\) 和 \(Y\) 的样本均值,\(S_{xy} = \sum_{i=1}^{n} (X_i - \bar{X}) (Y_i - \bar{Y})\) 是 \(X\) 和 \(Y\) 的样本协方差的分子部分,\(S_{xx} = \sum_{i=1}^{n} (X_i - \bar{X})^2\) 是 \(X\) 的样本方差的分子部分。
最小二乘估计量 \(\hat{\beta}_0\) 和 \(\hat{\beta}_1\) 具有良好的统计性质,例如,在误差项 \(\epsilon_i\) 满足零均值、等方差和不相关的条件下,最小二乘估计量是最佳线性无偏估计 (Best Linear Unbiased Estimator, BLUE) (高斯-马尔可夫定理 (Gauss-Markov Theorem))。如果误差项进一步假设为正态分布,则最小二乘估计量也是最大似然估计 (Maximum Likelihood Estimator, MLE)。
10.1.3 回归方程的显著性检验与拟合优度检验 (Significance Test and Goodness-of-Fit Test of Regression Equation)
在得到回归方程后,我们需要检验回归方程是否在统计上显著,以及回归方程对数据的拟合程度如何。
① 回归方程的显著性检验 (Significance Test of Regression Equation):
回归方程的显著性检验旨在检验自变量 \(X\) 是否对因变量 \(Y\) 有显著的线性影响,即检验斜率 \(\beta_1\) 是否显著不为零。我们通常提出以下假设:
▮▮▮▮ⓐ 原假设 (Null Hypothesis) \(H_0: \beta_1 = 0\) (自变量 \(X\) 对因变量 \(Y\) 没有线性影响)。
▮▮▮▮ⓑ 备择假设 (Alternative Hypothesis) \(H_1: \beta_1 \neq 0\) (自变量 \(X\) 对因变量 \(Y\) 有线性影响)。
常用的检验方法包括 F 检验 (F-test) 和 t 检验 (t-test)。
▮▮▮▮⚝ F 检验:
F 检验通过分析方差分析表 (Analysis of Variance Table, ANOVA Table) 中的回归平方和 (Regression Sum of Squares, SSR) 和残差平方和 (Residual Sum of Squares, SSE) 来检验回归方程的显著性。总平方和 (Total Sum of Squares, SST) 分解为 SSR 和 SSE:
\[ SST = SSR + SSE \]
其中,
\[ SST = \sum_{i=1}^{n} (Y_i - \bar{Y})^2 \]
\[ SSR = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2 = \hat{\beta}_1^2 S_{xx} \]
\[ SSE = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} e_i^2 \]
F 统计量定义为:
\[ F = \frac{MSR}{MSE} = \frac{SSR/df_R}{SSE/df_E} \]
其中,\(MSR\) 是回归均方 (Mean Square Regression),\(MSE\) 是残差均方 (Mean Square Error),\(df_R = 1\) 是回归自由度,\(df_E = n-2\) 是残差自由度。在原假设 \(H_0\) 成立的条件下,F 统计量服从自由度为 \((1, n-2)\) 的 F 分布。我们可以计算 F 统计量的 p 值 (p-value),如果 p 值小于给定的显著性水平 \(\alpha\) (例如 0.05),则拒绝原假设 \(H_0\),认为回归方程显著。
▮▮▮▮⚝ t 检验:
t 检验直接检验斜率 \(\beta_1\) 是否显著不为零。t 统计量定义为:
\[ t = \frac{\hat{\beta}_1}{SE(\hat{\beta}_1)} \]
其中,\(SE(\hat{\beta}_1)\) 是 \(\hat{\beta}_1\) 的标准误差 (Standard Error),可以估计为:
\[ SE(\hat{\beta}_1) = \sqrt{\frac{MSE}{S_{xx}}} = \sqrt{\frac{SSE/(n-2)}{\sum_{i=1}^{n} (X_i - \bar{X})^2}} \]
在原假设 \(H_0\) 成立的条件下,t 统计量近似服从自由度为 \(n-2\) 的 t 分布。我们可以计算 t 统计量的 p 值,如果 p 值小于给定的显著性水平 \(\alpha\),则拒绝原假设 \(H_0\),认为斜率 \(\beta_1\) 显著不为零,即自变量 \(X\) 对因变量 \(Y\) 有显著的线性影响。
对于一元线性回归,F 检验和 t 检验是等价的,因为 \(F = t^2\)。
② 拟合优度检验 (Goodness-of-Fit Test of Regression Equation):
拟合优度检验旨在评价回归方程对数据的拟合程度。常用的指标是决定系数 (Coefficient of Determination) \(R^2\)。\(R^2\) 定义为回归平方和 SSR 占总平方和 SST 的比例:
\[ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]
\(R^2\) 的取值范围在 0 到 1 之间。\(R^2\) 越接近 1,表示回归方程对数据的拟合程度越好,自变量 \(X\) 能够解释因变量 \(Y\) 的变异性的比例越高。一般来说,\(R^2\) 达到 0.8 以上可以认为拟合效果较好。
调整的决定系数 (Adjusted R-squared) \(\bar{R}^2\) 是对 \(R^2\) 的一种改进,考虑了模型中自变量的个数。当模型中增加自变量时,\(R^2\) 通常会增加,但这并不意味着模型的拟合效果一定更好。调整的决定系数 \(\bar{R}^2\) 对自变量的个数进行了惩罚,可以更合理地评价模型的拟合效果,尤其是在多元线性回归中。对于一元线性回归,调整的决定系数与 \(R^2\) 差别不大。
10.1.4 利用回归方程进行预测 (Prediction using Regression Equation)
一元线性回归方程可以用于对新的自变量值 \(X_0\) 预测因变量 \(Y\) 的值。预测分为点预测 (Point Prediction) 和区间预测 (Interval Prediction)。
① 点预测:
对于给定的 \(X_0\),因变量 \(Y\) 的点预测值 \(\hat{Y}_0\) 可以直接通过回归方程计算得到:
\[ \hat{Y}_0 = \hat{\beta}_0 + \hat{\beta}_1 X_0 \]
\(\hat{Y}_0\) 是 \(Y\) 在 \(X = X_0\) 时的期望值的估计。
② 区间预测:
点预测只给出了一个预测值,没有给出预测的精度信息。为了更全面地了解预测的可靠性,我们需要进行区间预测,即给出一个预测区间 (Prediction Interval),表示在给定的置信水平下,未来观测值 \(Y_0\) 可能落入的范围。
预测区间的构造需要考虑两种不确定性:
▮▮▮▮ⓐ 参数估计的不确定性:参数 \(\beta_0\) 和 \(\beta_1\) 是通过样本数据估计得到的,存在抽样误差。
▮▮▮▮ⓑ 随机误差项的不确定性:即使回归模型是正确的,未来观测值的随机误差项 \(\epsilon_0\) 仍然是未知的。
对于给定的 \(X_0\),\(Y_0\) 的 \(100(1-\alpha)\%\) 预测区间可以表示为:
\[ \hat{Y}_0 \pm t_{\alpha/2, n-2} \cdot SE_{pred} \]
其中,\(t_{\alpha/2, n-2}\) 是自由度为 \(n-2\) 的 t 分布的 \(\alpha/2\) 分位数,\(SE_{pred}\) 是预测标准误差 (Standard Error of Prediction),计算公式为:
\[ SE_{pred} = \sqrt{MSE \left( 1 + \frac{1}{n} + \frac{(X_0 - \bar{X})^2}{\sum_{i=1}^{n} (X_i - \bar{X})^2} \right)} \]
预测区间的宽度取决于置信水平 \(1-\alpha\)、残差均方 MSE、样本量 \(n\) 以及 \(X_0\) 与 \(\bar{X}\) 的距离。当 \(X_0\) 离 \(\bar{X}\) 越远时,预测区间越宽,表明预测的不确定性越大。
10.2 多元线性回归 (Multiple Linear Regression)
本节介绍多元线性回归 (Multiple Linear Regression) 的模型、参数估计、假设检验和模型选择。
10.2.1 多元线性回归模型 (Multiple Linear Regression Model)
多元线性回归模型将一元线性回归扩展到多个自变量的情况,描述一个因变量 \(Y\) 与多个自变量 \(X_1, X_2, \ldots, X_p\) 之间的线性关系。模型假设因变量 \(Y\) 的期望值与自变量 \(X_1, X_2, \ldots, X_p\) 之间存在线性关系,并且对于给定的 \(X_1, X_2, \ldots, X_p\),\(Y\) 的取值围绕着这个超平面随机波动。
多元线性回归模型可以用以下方程表示:
\[ Y_i = \beta_0 + \beta_1 X_{i1} + \beta_2 X_{i2} + \cdots + \beta_p X_{ip} + \epsilon_i, \quad i = 1, 2, \ldots, n \]
其中:
① \(Y_i\) 是第 \(i\) 个观测值的因变量。
② \(X_{ij}\) 是第 \(i\) 个观测值的第 \(j\) 个自变量,\(j = 1, 2, \ldots, p\)。
③ \(\beta_0\) 是截距 (intercept)。
④ \(\beta_j\) 是第 \(j\) 个自变量 \(X_j\) 的偏回归系数 (partial regression coefficient),表示当其他自变量保持不变时,\(X_j\) 增加一个单位时,\(Y\) 的期望值的变化量。
⑤ \(\epsilon_i\) 是随机误差项 (random error term),与一元线性回归模型类似,我们通常假设 \(\epsilon_i\) 满足零均值、等方差、独立性和正态性条件。
使用矩阵表示 (matrix representation) 可以更简洁地表达多元线性回归模型。令
\[ \mathbf{Y} = \begin{pmatrix} Y_1 \\ Y_2 \\ \vdots \\ Y_n \end{pmatrix}, \quad \mathbf{X} = \begin{pmatrix} 1 & X_{11} & X_{12} & \cdots & X_{1p} \\ 1 & X_{21} & X_{22} & \cdots & X_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & X_{n1} & X_{n2} & \cdots & X_{np} \end{pmatrix}, \quad \boldsymbol{\beta} = \begin{pmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{pmatrix}, \quad \boldsymbol{\epsilon} = \begin{pmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{pmatrix} \]
则多元线性回归模型可以写成矩阵形式:
\[ \mathbf{Y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} \]
其中,\(\mathbf{Y}\) 是 \(n \times 1\) 的因变量向量,\(\mathbf{X}\) 是 \(n \times (p+1)\) 的设计矩阵 (design matrix),\(\boldsymbol{\beta}\) 是 \((p+1) \times 1\) 的参数向量,\(\boldsymbol{\epsilon}\) 是 \(n \times 1\) 的误差向量。
10.2.2 参数的最小二乘估计 (Least Squares Estimation of Parameters)
与一元线性回归类似,多元线性回归的参数 \(\boldsymbol{\beta}\) 也可以使用最小二乘法估计。残差平方和 RSS 可以表示为:
\[ RSS(\boldsymbol{\beta}) = \sum_{i=1}^{n} (Y_i - (\beta_0 + \beta_1 X_{i1} + \cdots + \beta_p X_{ip}))^2 = (\mathbf{Y} - \mathbf{X} \boldsymbol{\beta})^T (\mathbf{Y} - \mathbf{X} \boldsymbol{\beta}) \]
最小二乘估计的目标是找到 \(\hat{\boldsymbol{\beta}}\),使得 RSS 达到最小值。通过矩阵求导,可以得到正规方程组的矩阵形式:
\[ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{Y} \]
如果矩阵 \(\mathbf{X}^T \mathbf{X}\) 可逆 (即 \(\mathbf{X}\) 列满秩),则最小二乘估计量 \(\hat{\boldsymbol{\beta}}\) 的唯一解为:
\[ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{Y} \]
\(\hat{\boldsymbol{\beta}}\) 是 \((p+1) \times 1\) 的向量,包含了截距项 \(\hat{\beta}_0\) 和所有偏回归系数 \(\hat{\beta}_1, \hat{\beta}_2, \ldots, \hat{\beta}_p\) 的估计值。多元线性回归的最小二乘估计量也具有与一元线性回归类似的良好统计性质,例如,在误差项满足零均值、等方差和不相关的条件下,\(\hat{\boldsymbol{\beta}}\) 是 BLUE。如果误差项进一步假设为正态分布,则 \(\hat{\boldsymbol{\beta}}\) 也是 MLE。
10.2.3 回归方程的显著性检验与拟合优度检验 (Significance Test and Goodness-of-Fit Test of Regression Equation)
与一元线性回归类似,多元线性回归也需要进行回归方程的显著性检验和拟合优度检验。
① 回归方程的显著性检验 (Significance Test of Regression Equation):
多元线性回归的回归方程显著性检验旨在检验所有自变量 \(X_1, X_2, \ldots, X_p\) 整体上是否对因变量 \(Y\) 有显著的线性影响,即检验 \(\beta_1, \beta_2, \ldots, \beta_p\) 是否至少有一个显著不为零。我们提出以下假设:
▮▮▮▮ⓐ 原假设 \(H_0: \beta_1 = \beta_2 = \cdots = \beta_p = 0\) (所有自变量整体上对因变量 \(Y\) 没有线性影响)。
▮▮▮▮ⓑ 备择假设 \(H_1: \beta_1, \beta_2, \ldots, \beta_p\) 不全为零 (至少有一个自变量对因变量 \(Y\) 有线性影响)。
多元线性回归的回归方程显著性检验主要使用 F 检验。总平方和 SST 仍然可以分解为回归平方和 SSR 和残差平方和 SSE:
\[ SST = SSR + SSE \]
其中,
\[ SST = \sum_{i=1}^{n} (Y_i - \bar{Y})^2 = \mathbf{Y}^T \mathbf{Y} - n \bar{Y}^2 \]
\[ SSR = \sum_{i=1}^{n} (\hat{Y}_i - \bar{Y})^2 = \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{Y} - n \bar{Y}^2 \]
\[ SSE = \sum_{i=1}^{n} (Y_i - \hat{Y}_i)^2 = \sum_{i=1}^{n} e_i^2 = \mathbf{Y}^T \mathbf{Y} - \hat{\boldsymbol{\beta}}^T \mathbf{X}^T \mathbf{Y} \]
F 统计量定义为:
\[ F = \frac{MSR}{MSE} = \frac{SSR/df_R}{SSE/df_E} \]
其中,\(df_R = p\) 是回归自由度 (自变量的个数),\(df_E = n - (p+1)\) 是残差自由度。在原假设 \(H_0\) 成立的条件下,F 统计量服从自由度为 \((p, n-p-1)\) 的 F 分布。我们可以计算 F 统计量的 p 值,如果 p 值小于给定的显著性水平 \(\alpha\),则拒绝原假设 \(H_0\),认为回归方程显著,即至少有一个自变量对因变量 \(Y\) 有显著的线性影响。
如果回归方程的整体 F 检验显著,我们还需要进一步检验每个自变量 \(X_j\) 的偏回归系数 \(\beta_j\) 是否显著不为零。这可以使用 t 检验。对于每个 \(\beta_j\),我们提出以下假设:
▮▮▮▮ⓐ 原假设 \(H_0: \beta_j = 0\) (在其他自变量保持不变的情况下,\(X_j\) 对 \(Y\) 没有线性影响)。
▮▮▮▮ⓑ 备择假设 \(H_1: \beta_j \neq 0\) (在其他自变量保持不变的情况下,\(X_j\) 对 \(Y\) 有线性影响)。
t 统计量定义为:
\[ t_j = \frac{\hat{\beta}_j}{SE(\hat{\beta}_j)} \]
其中,\(SE(\hat{\beta}_j)\) 是 \(\hat{\beta}_j\) 的标准误差,可以从 \(\hat{\boldsymbol{\beta}}\) 的协方差矩阵 \((MSE (\mathbf{X}^T \mathbf{X})^{-1})\) 的对角线上得到。在原假设 \(H_0\) 成立的条件下,\(t_j\) 统计量近似服从自由度为 \(n-p-1\) 的 t 分布。我们可以计算 \(t_j\) 统计量的 p 值,如果 p 值小于给定的显著性水平 \(\alpha\),则拒绝原假设 \(H_0\),认为在其他自变量保持不变的情况下,\(X_j\) 对 \(Y\) 有显著的线性影响。
② 拟合优度检验 (Goodness-of-Fit Test of Regression Equation):
多元线性回归的拟合优度检验仍然使用决定系数 \(R^2\) 和调整的决定系数 \(\bar{R}^2\)。\(R^2\) 的计算公式与一元线性回归相同:
\[ R^2 = \frac{SSR}{SST} = 1 - \frac{SSE}{SST} \]
调整的决定系数 \(\bar{R}^2\) 的计算公式为:
\[ \bar{R}^2 = 1 - \frac{MSE}{MST} = 1 - \frac{SSE/(n-p-1)}{SST/(n-1)} = 1 - (1 - R^2) \frac{n-1}{n-p-1} \]
其中,\(MST = SST/(n-1)\) 是总均方 (Mean Square Total)。\(\bar{R}^2\) 考虑了模型中自变量的个数 \(p\),能够更合理地评价多元线性回归模型的拟合效果。一般来说,在比较不同自变量个数的模型时,应该使用 \(\bar{R}^2\) 而不是 \(R^2\)。
10.2.4 多重共线性问题 (Multicollinearity)
多重共线性 (Multicollinearity) 是多元线性回归中常见的问题,指的是模型中的自变量之间存在高度相关性。多重共线性会给回归分析带来一系列问题:
① 参数估计不稳定:自变量之间的高度相关性会导致最小二乘估计量 \(\hat{\boldsymbol{\beta}}\) 的方差增大,标准误差增大,参数估计值对样本数据的微小变化非常敏感,估计结果不稳定。
② 偏回归系数的解释困难:在存在多重共线性时,偏回归系数 \(\hat{\beta}_j\) 的经济意义解释变得困难。例如,我们可能无法准确地说“在其他自变量保持不变的情况下,\(X_j\) 增加一个单位,\(Y\) 的期望值变化 \(\hat{\beta}_j\) 个单位”,因为“其他自变量保持不变”的条件在实际中可能难以满足,因为 \(X_j\) 和其他自变量之间存在高度相关性,它们往往会同步变化。
③ 回归方程的预测能力下降:虽然多重共线性会影响参数估计的稳定性和解释性,但在一定程度上,它对回归方程的预测能力影响相对较小。只要用于预测的自变量组合与样本数据中的相关模式相似,回归方程仍然可以给出较好的预测结果。然而,如果预测所用的自变量组合与样本数据中的相关模式差异较大,预测误差可能会增大。
检验多重共线性 的常用方法包括:
① 相关系数矩阵 (Correlation Matrix):计算自变量之间的相关系数矩阵。如果自变量之间存在较高的相关系数 (例如,绝对值大于 0.8 或 0.9),则可能存在多重共线性。
② 方差膨胀因子 (Variance Inflation Factor, VIF):对于每个自变量 \(X_j\),计算 VIF 值。VIF 的计算方法是以 \(X_j\) 为因变量,其他自变量为自变量进行回归,得到回归方程的 \(R^2_j\),则 \(X_j\) 的 VIF 值为 \(VIF_j = \frac{1}{1 - R^2_j}\)。VIF 值越大,表明 \(X_j\) 与其他自变量的多重共线性越严重。一般来说,VIF 值大于 10 或 5 时,可以认为存在较严重的多重共线性。
解决多重共线性 的常用方法包括:
① 增加样本容量:增加样本容量可以在一定程度上减小多重共线性对参数估计的影响。
② 剔除共线性严重的自变量:如果多重共线性主要是由某些自变量引起的,可以考虑剔除这些自变量。但剔除自变量可能会导致模型设定误差 (Specification Error),损失模型的信息。
③ 变量变换:对自变量进行变换,例如中心化、标准化、取对数等,有时可以减轻多重共线性。
④ 岭回归 (Ridge Regression) 和 主成分回归 (Principal Component Regression):岭回归和主成分回归是有偏估计方法,可以在一定程度上缓解多重共线性的问题,但会损失估计量的无偏性。
10.2.5 模型选择与变量选择 (Model Selection and Variable Selection)
在多元线性回归中,我们通常需要从多个候选自变量中选择合适的自变量构建模型。模型选择 (Model Selection) 和 变量选择 (Variable Selection) 的目标是在模型的复杂性 (自变量的个数) 和拟合优度 之间找到平衡,构建一个既简洁又具有良好预测能力的模型。
常用的模型选择和变量选择方法包括:
① 逐步回归 (Stepwise Regression):逐步回归是一种贪心算法 (greedy algorithm),包括向前选择 (Forward Selection)、向后剔除 (Backward Elimination) 和逐步回归 (Stepwise Regression) (双向选择) 三种方法。
▮▮▮▮ⓑ 向前选择:从只包含截距项的模型开始,每次迭代选择一个最显著的自变量加入模型,直到没有自变量可以显著提高模型拟合效果为止。
▮▮▮▮ⓒ 向后剔除:从包含所有候选自变量的模型开始,每次迭代剔除一个最不显著的自变量,直到模型中所有自变量都显著为止。
▮▮▮▮ⓓ 逐步回归 (双向选择):是向前选择和向后剔除的结合。在向前选择的基础上,每次加入新的自变量后,都对已在模型中的自变量进行检验,剔除变得不显著的自变量。
逐步回归的优点是计算简单、易于理解,但缺点是可能陷入局部最优解,且选择结果可能不稳定。
② 信息准则 (Information Criteria):信息准则是一类用于模型选择的指标,常用的信息准则包括 AIC 准则 (Akaike Information Criterion) 和 BIC 准则 (Bayesian Information Criterion)。信息准则的基本思想是在模型拟合优度的基础上,对模型的复杂性进行惩罚。AIC 和 BIC 的计算公式如下:
\[ AIC = -2 \log L + 2(p+1) \]
\[ BIC = -2 \log L + \log(n) (p+1) \]
其中,\(L\) 是模型的似然函数 (Likelihood Function) 的最大值,\(p\) 是自变量的个数,\(n\) 是样本容量。对于线性回归模型,\(-2 \log L\) 可以近似表示为 \(n \log(SSE/n)\)。AIC 和 BIC 值越小,表示模型越好。AIC 和 BIC 的区别在于对模型复杂性的惩罚力度不同,BIC 的惩罚力度更大,因此 BIC 更倾向于选择更简洁的模型。
③ 交叉验证 (Cross-Validation):交叉验证是一种评估模型预测性能的方法,也可以用于模型选择。常用的交叉验证方法包括 k 折交叉验证 (k-fold Cross-Validation)。k 折交叉验证的基本思想是将样本数据分成 k 份,每次用其中一份作为验证集 (Validation Set),用剩下的 \(k-1\) 份作为训练集 (Training Set) 训练模型,然后在验证集上评估模型的预测性能,重复 k 次,取 k 次评估结果的平均值作为模型的最终预测性能评估。选择交叉验证误差最小的模型。
10.3 非线性回归简介 (Introduction to Nonlinear Regression)
本节简要介绍非线性回归 (Nonlinear Regression) 的基本概念和方法。
10.3.1 非线性回归模型 (Nonlinear Regression Model)
非线性回归模型描述的是因变量 \(Y\) 与自变量 \(X\) 之间非线性关系。与线性回归模型不同,非线性回归模型的回归函数关于参数 \(\boldsymbol{\beta}\) 是非线性的。非线性回归模型的一般形式可以表示为:
\[ Y_i = f(X_i, \boldsymbol{\beta}) + \epsilon_i, \quad i = 1, 2, \ldots, n \]
其中,\(f(X_i, \boldsymbol{\beta})\) 是关于自变量 \(X_i\) 和参数向量 \(\boldsymbol{\beta}\) 的非线性函数,\(\epsilon_i\) 是随机误差项,与线性回归模型类似,通常假设 \(\epsilon_i\) 满足零均值、等方差、独立性和正态性条件。
常见的非线性回归模型类型包括:
① 多项式回归 (Polynomial Regression):回归函数是自变量的多项式函数,例如二次多项式回归模型:
\[ Y_i = \beta_0 + \beta_1 X_i + \beta_2 X_i^2 + \epsilon_i \]
多项式回归虽然回归函数关于自变量是非线性的,但关于参数 \(\boldsymbol{\beta}\) 仍然是线性的,因此可以使用线性回归的方法进行参数估计。
② 指数回归 (Exponential Regression):回归函数包含指数函数,例如指数增长模型:
\[ Y_i = \beta_0 e^{\beta_1 X_i} + \epsilon_i \]
③ 对数回归 (Logarithmic Regression):回归函数包含对数函数,例如对数模型:
\[ Y_i = \beta_0 + \beta_1 \log(X_i) + \epsilon_i \]
④ Logistic 回归 (Logistic Regression):Logistic 回归通常用于因变量 \(Y\) 是分类变量 (Categorical Variable) 的情况,例如二元 Logistic 回归模型:
\[ P(Y_i = 1 | X_i) = \frac{e^{\beta_0 + \beta_1 X_i}}{1 + e^{\beta_0 + \beta_1 X_i}} \]
Logistic 回归的回归函数是非线性的 S 形曲线,适用于描述概率与自变量之间的关系。
10.3.2 非线性回归的参数估计 (Parameter Estimation in Nonlinear Regression)
非线性回归的参数估计通常不能像线性回归那样直接使用最小二乘法的解析解。常用的参数估计方法是迭代优化算法 (Iterative Optimization Algorithms),例如 高斯-牛顿法 (Gauss-Newton Method)、最速下降法 (Steepest Descent Method)、Levenberg-Marquardt 算法 等。
迭代优化算法的基本思想是:
① 选择参数的初始值 \(\boldsymbol{\beta}^{(0)}\)。
② 迭代更新参数:在第 \(k\) 次迭代中,根据某种优化算法,基于当前的参数估计值 \(\boldsymbol{\beta}^{(k)}\),计算得到新的参数估计值 \(\boldsymbol{\beta}^{(k+1)}\),使得残差平方和 RSS 减小。
③ 判断迭代是否收敛:当迭代达到收敛条件 (例如,RSS 的变化量小于某个阈值,或者迭代次数达到上限) 时,停止迭代,将最后得到的参数估计值作为最终的参数估计结果。
非线性回归的参数估计比线性回归更复杂,需要选择合适的优化算法和初始值,且可能存在局部最优解 (Local Optima) 的问题。在实际应用中,需要根据具体问题选择合适的非线性回归模型和参数估计方法,并进行模型检验和评估。
11. 随机过程基本概念 (Basic Concepts of Stochastic Processes)
本章旨在介绍随机过程 (Stochastic Processes) 的基本概念,为后续深入学习各种类型的随机过程奠定理论基础。我们将从随机过程的严格定义出发,探讨其不同的分类方法,并介绍描述随机过程概率特性的重要工具——有限维分布族 (Finite-Dimensional Distributions Family)。此外,本章还将介绍随机过程的数字特征 (Numerical Characteristics),如均值函数 (Mean Function)、自相关函数 (Autocorrelation Function) 和自协方差函数 (Autocovariance Function),这些工具能够帮助我们理解和分析随机过程的统计特性。
11.1 随机过程的定义与分类 (Definition and Classification of Stochastic Processes)
随机过程是概率论中的一个核心概念,它描述了随时间演化的随机现象。与随机变量 (Random Variable) 关注单个随机事件的结果不同,随机过程关注一系列随机事件在时间上的动态变化。本节将给出随机过程的严格数学定义,并从不同角度对其进行分类,以便更好地理解和应用。
11.1.1 随机过程的定义 (Definition of Stochastic Process)
为了严格定义随机过程,我们需要引入一些基本概念。
① 随机变量 (Random Variable):回顾一下,随机变量 \(X\) 是一个定义在样本空间 \( \Omega \) 上的实值函数,它将每个基本事件 \( \omega \in \Omega \) 映射到一个实数 \( X(\omega) \)。更正式地,对于每个实数 \(x\),集合 \( \{ \omega \in \Omega : X(\omega) \leq x \} \) 必须是样本空间 \( \Omega \) 的一个事件,即属于 \( \Omega \) 的 \( \sigma \)-代数 \( \mathcal{F} \)。
② 指标集 (Index Set) 或 时间参数集 (Time Parameter Set):在随机过程中,我们引入一个指标集 \(T\),通常用来表示时间。\(T\) 可以是离散的,例如 \(T = \{0, 1, 2, \ldots \}\) 或 \(T = \{ \ldots, -1, 0, 1, \ldots \}\),也可以是连续的,例如 \(T = [0, \infty)\) 或 \(T = (-\infty, \infty)\)。
③ 状态空间 (State Space):状态空间 \(S\) 是随机过程可能取值的集合。状态空间可以是实数集 \( \mathbb{R} \),整数集 \( \mathbb{Z} \),或者更一般的抽象空间。
有了以上概念,我们可以给出随机过程的定义:
定义 11.1.1 (随机过程):一个随机过程 (Stochastic Process) \( \{X(t), t \in T\} \) 是一个随机变量族 (Family of Random Variables),其中每个随机变量 \( X(t) \) 都定义在同一个概率空间 \( (\Omega, \mathcal{F}, P) \) 上,并且指标 \( t \) 取自指标集 \( T \)。对于每个固定的 \( t \in T \),\( X(t) \) 是一个随机变量,而对于每个固定的基本事件 \( \omega \in \Omega \),\( X(\cdot, \omega) = \{X(t, \omega), t \in T\} \) 是一个样本函数 (Sample Function) 或 轨道 (Sample Path)。
换句话说,对于每一个时间点 \( t \),随机过程 \( X(t) \) 都是一个随机变量,它具有一定的概率分布。当我们考虑时间 \( t \) 在指标集 \( T \) 上变化时,我们就得到了一系列随机变量 \( \{X(t), t \in T\} \),它们共同构成了随机过程。
示例 11.1.1 (随机过程的例子):
⚝ 抛硬币过程:假设我们重复抛掷一枚均匀硬币,令 \( X_n \) 表示第 \( n \) 次抛掷的结果,如果正面朝上则 \( X_n = 1 \),反面朝上则 \( X_n = 0 \)。那么 \( \{X_n, n = 1, 2, 3, \ldots \} \) 就是一个离散时间、离散状态的随机过程。这里的指标集是 \( T = \{1, 2, 3, \ldots \} \),状态空间是 \( S = \{0, 1\} \)。
⚝ 股票价格过程:令 \( S(t) \) 表示某股票在时间 \( t \) 的价格,其中 \( t \geq 0 \) 是连续时间。那么 \( \{S(t), t \geq 0 \} \) 可以被视为一个连续时间、连续状态的随机过程。这里的指标集是 \( T = [0, \infty) \),状态空间是 \( S = [0, \infty) \)(股票价格非负)。
⚝ 布朗运动 (Brownian Motion):布朗运动 \( \{B(t), t \geq 0 \} \) 是一个重要的连续时间、连续状态随机过程,常用于模拟随机波动现象。它的状态空间是 \( S = \mathbb{R} \),指标集是 \( T = [0, \infty) \)。布朗运动具有很多独特的性质,我们将在后续章节详细讨论。
11.1.2 随机过程的分类 (Classification of Stochastic Processes)
随机过程可以根据不同的特征进行分类,常见的分类方式包括根据时间参数集 \(T\)、状态空间 \(S\) 以及随机依赖性。
① 按时间参数集 \(T\) 分类:
▮ 离散时间随机过程 (Discrete-Time Stochastic Process):如果指标集 \(T\) 是可数的,例如 \(T = \{0, 1, 2, \ldots \}\) 或 \(T = \{ \ldots, -1, 0, 1, \ldots \}\),则称 \( \{X(t), t \in T\} \) 为离散时间随机过程。为了强调离散时间,通常将过程记为 \( \{X_n, n \in T\} \),其中 \( n \) 取整数值。例如,示例 11.1.1 中的抛硬币过程 \( \{X_n, n = 1, 2, 3, \ldots \} \) 就是一个离散时间随机过程。
▮ 连续时间随机过程 (Continuous-Time Stochastic Process):如果指标集 \(T\) 是一个连续区间,例如 \(T = [0, \infty)\) 或 \(T = (-\infty, \infty)\),则称 \( \{X(t), t \in T\} \) 为连续时间随机过程。例如,示例 11.1.1 中的股票价格过程 \( \{S(t), t \geq 0 \} \) 和布朗运动 \( \{B(t), t \geq 0 \} \) 都是连续时间随机过程。
② 按状态空间 \(S\) 分类:
▮ 离散状态随机过程 (Discrete-State Stochastic Process):如果随机过程的状态空间 \(S\) 是可数的,例如 \(S = \{0, 1, 2, \ldots \}\) 或 \(S = \{ \ldots, -1, 0, 1, \ldots \} \),则称 \( \{X(t), t \in T\} \) 为离散状态随机过程。例如,抛硬币过程 \( \{X_n \} \) 的状态空间 \( S = \{0, 1\} \) 是离散的。马尔可夫链 (Markov Chains) 通常是离散状态随机过程。
▮ 连续状态随机过程 (Continuous-State Stochastic Process):如果随机过程的状态空间 \(S\) 是一个连续区间或实数集 \( \mathbb{R} \),则称 \( \{X(t), t \in T\} \) 为连续状态随机过程。例如,股票价格过程 \( \{S(t) \} \) 和布朗运动 \( \{B(t) \} \) 的状态空间都是连续的。扩散过程 (Diffusion Processes) 是一类重要的连续状态随机过程。
③ 按随机依赖性分类:
▮ 独立增量过程 (Independent Increment Process):如果对于任意的 \( t_0 < t_1 < \ldots < t_n \),增量 \( X(t_1) - X(t_0), X(t_2) - X(t_1), \ldots, X(t_n) - X(t_{n-1}) \) 相互独立,则称 \( \{X(t), t \geq 0\} \) 为独立增量过程。泊松过程 (Poisson Process) 和 布朗运动 (Brownian Motion) 都是重要的独立增量过程。
▮ 马尔可夫过程 (Markov Process):如果随机过程在未来时刻的状态只依赖于当前时刻的状态,而与过去的状态无关,则称其具有马尔可夫性质 (Markov Property),并称之为马尔可夫过程。更精确地说,对于任意的 \( t_1 < t_2 < \ldots < t_n < t \) 和任意的状态 \( x_1, x_2, \ldots, x_n, x \),如果满足
\[ P(X(t) \leq x | X(t_1) = x_1, X(t_2) = x_2, \ldots, X(t_n) = x_n) = P(X(t) \leq x | X(t_n) = x_n) \]
则称 \( \{X(t)\} \) 为马尔可夫过程。马尔可夫链 (Markov Chains) 和 布朗运动 (Brownian Motion) 都是马尔可夫过程。
▮ 平稳过程 (Stationary Process):如果随机过程的统计特性不随时间平移而改变,则称其为平稳过程。平稳过程又可以分为严平稳过程 (Strict-Sense Stationary Process) 和 宽平稳过程 (Wide-Sense Stationary Process),我们将在后续小节详细讨论。
这些分类方式并非互斥的,一个随机过程可能同时属于多种类型。例如,布朗运动 \( \{B(t), t \geq 0 \} \) 是一个连续时间、连续状态、独立增量、马尔可夫过程。理解这些分类有助于我们选择合适的数学工具来分析和应用不同类型的随机过程。
11.1.3 随机过程的轨道 (Sample Paths of Stochastic Processes)
对于一个随机过程 \( \{X(t), t \in T\} \),当我们固定一个基本事件 \( \omega \in \Omega \) 时,得到的函数 \( x(t) = X(t, \omega) \) 是一个定义在指标集 \( T \) 上的实值函数,称为随机过程的一个样本函数 (Sample Function) 或 轨道 (Sample Path)。轨道描述了随机过程在特定一次试验中随时间变化的具体路径。
示例 11.1.2 (随机过程的轨道):
⚝ 抛硬币过程的轨道:假设我们抛掷硬币 5 次,得到的结果序列是 (正面, 反面, 正面, 正面, 反面)。那么对于这次试验,抛硬币过程 \( \{X_n, n = 1, 2, 3, 4, 5 \} \) 的轨道就是 \( (1, 0, 1, 1, 0) \)。这是一个离散时间、离散状态的轨道,可以看作是一系列的点。
⚝ 布朗运动的轨道:布朗运动的轨道是连续时间、连续状态的函数。布朗运动的典型轨道是连续但处处不可微 (Continuous but Nowhere Differentiable) 的。这意味着布朗运动的轨道非常不规则,充满了随机波动。在图形上,布朗运动的轨道看起来像一条非常曲折的曲线,没有光滑的部分。
轨道的性质:随机过程的轨道的性质对于理解过程的特性至关重要。例如,我们可能关心轨道是否连续、是否可微、是否有跳跃 (jumps) 等。对于不同的随机过程,其轨道可能具有不同的性质。
⚝ 连续轨道 (Continuous Sample Paths):如果一个随机过程的几乎所有轨道都是连续函数,则称该过程具有连续轨道。例如,布朗运动具有连续轨道。
⚝ 右连续左极限 (Right Continuous with Left Limits, RCLL) 轨道:在许多情况下,随机过程的轨道可能不是处处连续的,但可能具有右连续左极限的性质。这意味着对于任意时间 \( t \),轨道在 \( t \) 处是右连续的,且左极限 \( \lim_{s \uparrow t} X(s) \) 存在。泊松过程就具有 RCLL 轨道,它的轨道是阶梯函数,只在跳跃点处不连续。
理解随机过程的轨道有助于我们从直观上把握随机过程的动态行为,并为进一步的数学分析提供基础。
11.2 随机过程的有限维分布族 (Finite-Dimensional Distributions of Stochastic Processes)
为了完整地描述一个随机过程的概率特性,我们需要知道其在任意有限个时间点上的联合分布。有限维分布族 (Finite-Dimensional Distributions Family) 就是描述随机过程概率结构的关键工具。
11.2.1 有限维分布族的定义 (Definition of Finite-Dimensional Distributions)
考虑一个随机过程 \( \{X(t), t \in T\} \)。对于任意选择的 \( n \) 个时间点 \( t_1, t_2, \ldots, t_n \in T \) 和任意正整数 \( n \),我们可以得到一组随机变量 \( (X(t_1), X(t_2), \ldots, X(t_n)) \)。这组随机变量的联合分布 (Joint Distribution) 描述了随机过程在这些特定时间点的概率行为。
定义 11.2.1 (有限维分布族):一个随机过程 \( \{X(t), t \in T\} \) 的有限维分布族 (Finite-Dimensional Distributions Family) 是指由所有可能的有限维向量 \( (X(t_1), X(t_2), \ldots, X(t_n)) \) 的联合分布构成的集合,其中 \( n \geq 1 \),\( t_1, t_2, \ldots, t_n \in T \)。更具体地,对于任意 \( n \geq 1 \) 和 \( t_1, t_2, \ldots, t_n \in T \),我们定义有限维分布函数 (Finite-Dimensional Distribution Function) 为:
\[ F_{t_1, t_2, \ldots, t_n}(x_1, x_2, \ldots, x_n) = P(X(t_1) \leq x_1, X(t_2) \leq x_2, \ldots, X(t_n) \leq x_n) \]
有限维分布族就是由所有这些分布函数 \( \{F_{t_1, t_2, \ldots, t_n}, n \geq 1, t_1, t_2, \ldots, t_n \in T \} \) 构成的集合。
有限维分布族完整地刻画了随机过程的概率规律。如果我们知道了一个随机过程的有限维分布族,那么我们就从概率意义上完全了解了这个随机过程。
示例 11.2.1 (有限维分布族):
⚝ 独立同分布 (i.i.d.) 序列:设 \( \{Z_n, n = 1, 2, \ldots \} \) 是一列独立同分布的随机变量,例如都服从标准正态分布 \( N(0, 1) \)。我们可以定义一个离散时间随机过程 \( X_n = \sum_{i=1}^{n} Z_i \),\( X_0 = 0 \)。为了确定 \( \{X_n \} \) 的有限维分布族,我们需要计算任意 \( (X_{n_1}, X_{n_2}, \ldots, X_{n_k}) \) 的联合分布。由于 \( \{Z_n \} \) 是 i.i.d. 的,我们可以利用独立性和卷积性质来计算这些联合分布。
⚝ 泊松过程的有限维分布:对于齐次泊松过程 \( \{N(t), t \geq 0 \} \),我们知道对于任意 \( t > 0 \),\( N(t) \) 服从参数为 \( \lambda t \) 的泊松分布。为了描述有限维分布族,我们需要考虑 \( (N(t_1), N(t_2), \ldots, N(t_n)) \) 的联合分布,其中 \( 0 < t_1 < t_2 < \ldots < t_n \)。由于泊松过程具有独立增量性,我们可以将时间区间 \( [0, t_n] \) 分解为不相交的区间,并利用增量的独立性和泊松分布来确定联合分布。
11.2.2 相容性条件 (Consistency Conditions)
并不是任意一组分布函数都能构成一个随机过程的有限维分布族。为了保证有限维分布族能够定义一个随机过程,这些分布函数必须满足一定的相容性条件 (Consistency Conditions)。这些条件确保了当我们在时间点集合中增加或减少时间点时,分布之间是相互协调的。
有限维分布族需要满足两个基本的相容性条件:对称性 (Symmetry) 和 边缘分布相容性 (Marginal Consistency)。
① 对称性 (Symmetry):联合分布函数应该与时间点的顺序无关。也就是说,对于任意的排列 \( (i_1, i_2, \ldots, i_n) \) of \( (1, 2, \ldots, n) \),应该有
\[ F_{t_{i_1}, t_{i_2}, \ldots, t_{i_n}}(x_{i_1}, x_{i_2}, \ldots, x_{i_n}) = F_{t_1, t_2, \ldots, t_n}(x_1, x_2, \ldots, x_n) \]
这个条件是显然的,因为 \( (X(t_1), X(t_2), \ldots, X(t_n)) \) 和 \( (X(t_{i_1}), X(t_{i_2}), \ldots, X(t_{i_n})) \) 表示的是同一组随机变量,只是顺序不同。
② 边缘分布相容性 (Marginal Consistency):如果我们考虑 \( (X(t_1), X(t_2), \ldots, X(t_n)) \) 的联合分布,并从中“边缘化 (marginalize)”掉一些随机变量,例如 \( X(t_n) \),那么剩下的随机变量 \( (X(t_1), X(t_2), \ldots, X(t_{n-1})) \) 的分布应该与直接考虑 \( (X(t_1), X(t_2), \ldots, X(t_{n-1})) \) 的联合分布得到的结果一致。更精确地说,对于任意 \( n \geq 2 \),\( t_1, t_2, \ldots, t_n \in T \),以及 \( x_1, x_2, \ldots, x_{n-1} \),应该有
\[ \lim_{x_n \to \infty} F_{t_1, t_2, \ldots, t_n}(x_1, x_2, \ldots, x_n) = F_{t_1, t_2, \ldots, t_{n-1}}(x_1, x_2, \ldots, x_{n-1}) \]
这个条件保证了低维分布与高维分布之间的一致性。当我们令 \( x_n \to \infty \) 时,事件 \( \{X(t_n) \leq x_n \} \) 趋于必然事件,因此 \( P(X(t_1) \leq x_1, \ldots, X(t_n) \leq x_n) \) 趋于 \( P(X(t_1) \leq x_1, \ldots, X(t_{n-1}) \leq x_{n-1}) \)。
科尔莫戈罗夫扩展定理 (Kolmogorov Extension Theorem) 提供了保证一组分布函数能够构成随机过程有限维分布族的充分必要条件。该定理指出,如果一组分布函数 \( \{F_{t_1, t_2, \ldots, t_n}, n \geq 1, t_1, t_2, \ldots, t_n \in T \} \) 满足对称性和边缘分布相容性条件,那么就存在一个随机过程 \( \{X(t), t \in T\} \),其有限维分布族正是这组分布函数。
因此,通过指定满足相容性条件的有限维分布族,我们可以定义一个随机过程。这为构造和研究各种随机过程提供了理论基础。
11.3 随机过程的数字特征 (Numerical Characteristics of Stochastic Processes)
类似于随机变量,我们也可以用一些数字特征来描述随机过程的统计特性。常用的数字特征包括均值函数 (Mean Function)、自相关函数 (Autocorrelation Function) 和自协方差函数 (Autocovariance Function)。这些函数描述了随机过程的中心位置、波动程度以及时间依赖性。
11.3.1 均值函数 (Mean Function)
定义 11.3.1 (均值函数):随机过程 \( \{X(t), t \in T\} \) 的均值函数 (Mean Function) \( \mu_X(t) \) 定义为在每个时间点 \( t \in T \) 上,随机变量 \( X(t) \) 的期望值:
\[ \mu_X(t) = E[X(t)] \]
均值函数 \( \mu_X(t) \) 描述了随机过程在不同时间点的平均水平。它是一个关于时间 \( t \) 的普通函数,反映了随机过程的中心趋势 (Central Tendency) 随时间的变化。
物理意义:在物理或工程应用中,均值函数 \( \mu_X(t) \) 可以理解为在时间 \( t \) 时,随机过程 \( X(t) \) 的平均值 (Average Value) 或 期望值 (Expected Value)。如果我们将随机过程看作是多次重复实验的结果,那么 \( \mu_X(t) \) 就是在时间 \( t \) 时,所有实验结果的平均值。
示例 11.3.1 (均值函数):
⚝ 泊松过程的均值函数:对于参数为 \( \lambda \) 的齐次泊松过程 \( \{N(t), t \geq 0 \} \),我们知道 \( N(t) \) 服从参数为 \( \lambda t \) 的泊松分布。因此,其均值函数为:
\[ \mu_N(t) = E[N(t)] = \lambda t \]
均值函数 \( \mu_N(t) = \lambda t \) 线性增长,表示泊松过程的平均计数率是常数 \( \lambda \)。
⚝ 布朗运动的均值函数:对于标准布朗运动 \( \{B(t), t \geq 0 \} \),我们有 \( E[B(t)] = 0 \) 对于所有 \( t \geq 0 \)。因此,标准布朗运动的均值函数为 \( \mu_B(t) = 0 \)。
11.3.2 自相关函数与自协方差函数 (Autocorrelation Function and Autocovariance Function)
为了描述随机过程在不同时间点之间的相关性 (Correlation),我们引入自协方差函数 (Autocovariance Function) 和自相关函数 (Autocorrelation Function)。
定义 11.3.2 (自协方差函数):随机过程 \( \{X(t), t \in T\} \) 的自协方差函数 (Autocovariance Function) \( C_X(s, t) \) 定义为在时间 \( s \) 和 \( t \) 时,随机变量 \( X(s) \) 和 \( X(t) \) 之间的协方差:
\[ C_X(s, t) = Cov(X(s), X(t)) = E[(X(s) - \mu_X(s))(X(t) - \mu_X(t))] \]
其中 \( \mu_X(s) = E[X(s)] \) 和 \( \mu_X(t) = E[X(t)] \) 分别是 \( X(s) \) 和 \( X(t) \) 的均值。
定义 11.3.3 (自相关函数):随机过程 \( \{X(t), t \in T\} \) 的自相关函数 (Autocorrelation Function) \( \rho_X(s, t) \) 定义为在时间 \( s \) 和 \( t \) 时,随机变量 \( X(s) \) 和 \( X(t) \) 之间的相关系数:
\[ \rho_X(s, t) = Corr(X(s), X(t)) = \frac{Cov(X(s), X(t))}{\sqrt{Var(X(s))Var(X(t))}} = \frac{C_X(s, t)}{\sqrt{C_X(s, s)C_X(t, t)}} \]
其中 \( Var(X(s)) = C_X(s, s) \) 和 \( Var(X(t)) = C_X(t, t) \) 分别是 \( X(s) \) 和 \( X(t) \) 的方差。
自协方差函数 \( C_X(s, t) \) 描述了随机过程在时间 \( s \) 和 \( t \) 时的线性相关程度 (Linear Dependence)。自相关函数 \( \rho_X(s, t) \) 是对自协方差函数进行标准化后的结果,其取值范围在 \( [-1, 1] \) 之间,更方便比较不同时间点之间相关性的强弱。
物理意义:自相关函数和自协方差函数反映了随机过程的时间依赖性 (Temporal Dependence)。如果 \( \rho_X(s, t) \) 在 \( s \) 和 \( t \) 相差较大时趋于 0,则表示相隔较远的时间点的随机变量几乎不相关,过程的“记忆性 (Memory)”较短;反之,如果 \( \rho_X(s, t) \) 在 \( s \) 和 \( t \) 相差较大时仍然显著不为 0,则表示过程具有较强的长期依赖性。
示例 11.3.2 (自协方差函数和自相关函数):
⚝ 白噪声 (White Noise) 过程:一个离散时间白噪声过程 \( \{\epsilon_n, n \in \mathbb{Z} \} \) 是一个由不相关的随机变量组成的序列,通常假设 \( E[\epsilon_n] = 0 \) 和 \( Var(\epsilon_n) = \sigma^2 \) 对于所有 \( n \)。白噪声过程的自协方差函数为:
\[ C_\epsilon(m, n) = Cov(\epsilon_m, \epsilon_n) = \begin{cases} \sigma^2, & \text{if } m = n \\ 0, & \text{if } m \neq n \end{cases} \]
自相关函数为:
\[ \rho_\epsilon(m, n) = \begin{cases} 1, & \text{if } m = n \\ 0, & \text{if } m \neq n \end{cases} \]
白噪声过程只在同一时间点与自身完全相关,在不同时间点之间不相关,因此被称为“白色”噪声,类似于白色光包含所有频率成分。
⚝ 标准布朗运动的自协方差函数:对于标准布朗运动 \( \{B(t), t \geq 0 \} \),其均值函数 \( \mu_B(t) = 0 \)。其自协方差函数为:
\[ C_B(s, t) = Cov(B(s), B(t)) = E[B(s)B(t)] = \min(s, t) \]
自相关函数为:
\[ \rho_B(s, t) = \frac{\min(s, t)}{\sqrt{st}} = \sqrt{\frac{\min(s, t)}{\max(s, t)}} \]
当 \( s \) 和 \( t \) 接近时,相关性接近 1;当 \( s \) 和 \( t \) 相差较大时,相关性减弱,但仍然存在一定的相关性。
11.3.3 平稳过程 (Stationary Processes)
平稳过程 (Stationary Process) 是一类重要的随机过程,其统计特性不随时间平移而改变,在时间序列分析和信号处理等领域有着广泛的应用。平稳性可以分为 严平稳 (Strict-Sense Stationary) 和 宽平稳 (Wide-Sense Stationary) 两种类型。
① 严平稳过程 (Strict-Sense Stationary Process):
定义 11.3.4 (严平稳过程):随机过程 \( \{X(t), t \in T\} \) 被称为严平稳 (Strict-Sense Stationary) 的,如果对于任意 \( n \geq 1 \),任意时间点 \( t_1, t_2, \ldots, t_n \in T \),以及任意时间平移量 \( \tau \) 使得 \( t_1 + \tau, t_2 + \tau, \ldots, t_n + \tau \in T \),向量 \( (X(t_1), X(t_2), \ldots, X(t_n)) \) 和 \( (X(t_1 + \tau), X(t_2 + \tau), \ldots, X(t_n + \tau)) \) 具有相同的联合分布。
严平稳性要求随机过程的所有有限维分布都具有时间平移不变性。这意味着过程的统计特性,如均值、方差、高阶矩以及任意线性或非线性函数的期望等,都不随时间平移而改变。
② 宽平稳过程 (Wide-Sense Stationary Process) 或 协方差平稳过程 (Covariance Stationary Process):
定义 11.3.5 (宽平稳过程):随机过程 \( \{X(t), t \in T\} \) 被称为宽平稳 (Wide-Sense Stationary) 的,如果满足以下两个条件:
▮▮▮▮ⓐ 均值函数为常数:对于所有 \( t \in T \),均值函数 \( \mu_X(t) = E[X(t)] = \mu \) 是一个与时间 \( t \) 无关的常数。
▮▮▮▮ⓑ 自协方差函数只与时间差有关:对于所有 \( s, t \in T \),自协方差函数 \( C_X(s, t) \) 只依赖于时间差 \( \tau = t - s \),即 \( C_X(s, t) = C_X(s, s + \tau) = C_X(0, \tau) \triangleq C_X(\tau) \)。
宽平稳性是比严平稳性更弱的条件,它只要求过程的一阶矩 (均值) 和 二阶矩 (自协方差) 具有时间平移不变性。对于许多实际应用,宽平稳性已经足够。
性质:
▮ 如果一个严平稳过程存在二阶矩,那么它一定是宽平稳的。反之不成立,宽平稳过程不一定是严平稳的。
▮ 对于宽平稳过程,自协方差函数 \( C_X(\tau) \) 是一个偶函数,即 \( C_X(\tau) = C_X(-\tau) \)。
▮ 对于离散时间宽平稳过程 \( \{X_n, n \in \mathbb{Z} \} \),自协方差函数通常记为 \( C_X(k) = Cov(X_n, X_{n+k}) \),只依赖于时间差 \( k \)。
示例 11.3.3 (平稳过程):
⚝ 白噪声过程:白噪声过程 \( \{\epsilon_n, n \in \mathbb{Z} \} \) 通常被假设为宽平稳的,因为 \( E[\epsilon_n] = 0 \) (常数) 和 \( Cov(\epsilon_m, \epsilon_n) \) 只依赖于 \( |m - n| \) (实际上,当 \( m \neq n \) 时为 0,当 \( m = n \) 时为 \( \sigma^2 \))。如果白噪声过程 \( \{\epsilon_n \} \) 是由独立同分布的随机变量组成的,并且具有有限的二阶矩,那么它也是严平稳的。
⚝ 高斯过程 (Gaussian Process):如果一个随机过程的任意有限维分布都是多元正态分布,则称为高斯过程。如果一个高斯过程是宽平稳的,那么它也是严平稳的。这是高斯过程的一个重要性质。
平稳性是时间序列分析的基础。对于平稳过程,我们可以利用历史数据来预测未来,并进行统计推断。
本章介绍了随机过程的基本概念,包括定义、分类、有限维分布族和数字特征。这些概念是理解和分析各种随机过程的基础,为后续章节学习泊松过程、马尔可夫链、布朗运动和时间序列分析等内容做好了铺垫。
12. 泊松过程 (Poisson Processes)
章节概述
本章将深入探讨泊松过程 (Poisson Processes),这是一种在概率论和随机过程领域中极其重要且应用广泛的计数过程 (Counting Process)。泊松过程用于建模在给定时间间隔内随机事件发生的次数,其独特性质使其成为描述各种现实世界现象的理想工具。从电信系统中的呼叫到达、放射性物质的衰变,到生物学中的突变事件,泊松过程都提供了深刻的分析框架。
本章首先从多个角度严格定义泊松过程,并详细阐述其核心性质,包括独立增量性 (Independent Increments)、平稳增量性 (Stationary Increments)、轨道性质 (Sample Path Properties) 和 稀有性 (Rare Events)。理解这些基本性质是掌握泊松过程的关键。
随后,我们将介绍泊松过程的两种重要推广形式:非齐次泊松过程 (Non-homogeneous Poisson Process) 和 复合泊松过程 (Compound Poisson Process)。非齐次泊松过程 扩展了标准泊松过程,允许事件发生的平均速率随时间变化,从而能够更灵活地建模非平稳现象。复合泊松过程 则在每次事件发生时引入一个随机的“跳跃”大小,这在金融建模、保险风险分析等领域具有重要意义。
最后,本章将探讨泊松过程在实际应用中的广泛性,重点考察其在排队论 (Queuing Theory) 和 生物学 (Biology) 等领域的应用案例。通过具体的例子,我们将展示如何运用泊松过程来解决实际问题,并深入理解其在不同学科中的价值。
12.1 泊松过程的定义与基本性质 (Definition and Basic Properties of Poisson Processes)
12.1.1 泊松过程的定义 (Definition of Poisson Process)
泊松过程 是一种用于描述单位时间内随机事件发生次数的随机过程。它可以用多种等价的方式来定义,每种定义方式都从不同的角度揭示了泊松过程的本质特征。以下介绍几种常见的定义方式:
① 定义方式一:基于计数过程的定义
设 \( \{N(t), t \ge 0\} \) 是一个计数过程 (Counting Process),如果它满足以下三个条件,则称 \( \{N(t), t \ge 0\} \) 为强度为 \( \lambda > 0 \) 的泊松过程 (Poisson Process with rate \( \lambda > 0 \)):
▮ ⓐ \( N(0) = 0 \)。初始时刻,事件计数为零。
▮ ⓑ 独立增量性 (Independent Increments)。对于任意 \( 0 \le t_1 < t_2 < \cdots < t_n \),增量 \( N(t_2) - N(t_1), N(t_3) - N(t_2), \ldots, N(t_n) - N(t_{n-1}) \) 相互独立。这意味着在不相交的时间区间内发生的事件数是相互独立的。
▮ ⓒ 平稳增量性 (Stationary Increments)。对于任意 \( s, t \ge 0 \),增量 \( N(t+s) - N(s) \) 的分布只依赖于时间间隔长度 \( t \),而与起始时间 \( s \) 无关。更具体地,对于 \( t > 0 \) 和 整数 \( k \ge 0 \),有
\[ P(N(t+s) - N(s) = k) = P(N(t) = k) = \frac{e^{-\lambda t} (\lambda t)^k}{k!} \]
即在任意长度为 \( t \) 的时间区间内,事件发生 \( k \) 次的概率服从参数为 \( \lambda t \) 的 泊松分布 (Poisson distribution)。
② 定义方式二:基于泊松分布的定义
一个计数过程 \( \{N(t), t \ge 0\} \) 是强度为 \( \lambda > 0 \) 的泊松过程,如果:
▮ ⓐ \( N(0) = 0 \)。
▮ ⓑ 具有独立增量性。
▮ ⓒ 对于任意 \( t > 0 \),\( N(t) \) 服从参数为 \( \lambda t \) 的泊松分布,即
\[ P(N(t) = k) = \frac{e^{-\lambda t} (\lambda t)^k}{k!}, \quad k = 0, 1, 2, \ldots \]
③ 定义方式三:基于事件发生间隔的定义
设 \( \{T_n, n \ge 1\} \) 为一系列独立的、服从相同指数分布 (Exponential distribution) 的随机变量,其参数为 \( \lambda > 0 \)。令 \( S_0 = 0 \),\( S_n = \sum_{i=1}^n T_i \) 表示第 \( n \) 个事件发生的时间,则泊松过程 \( \{N(t), t \ge 0\} \) 可以定义为:
\[ N(t) = \sup \{n \ge 0: S_n \le t \} \]
即在时间 \( t \) 内发生的事件总数。在这个定义中,\( T_i \) 可以看作是第 \( (i-1) \) 个事件和第 \( i \) 个事件之间的时间间隔(事件间隔时间 (Interarrival Time)),它们是独立的且服从相同的指数分布。指数分布的无记忆性 (Memoryless Property) 是泊松过程马尔可夫性质 (Markov Property) 的根源。
这三种定义方式是等价的,可以从不同的角度理解泊松过程。定义方式一强调了计数过程的基本性质,定义方式二直接给出了事件计数的分布,而定义方式三则从事件发生的时间间隔入手,揭示了泊松过程与指数分布的内在联系。在实际应用中,可以根据具体问题选择合适的定义方式进行分析。
12.1.2 泊松过程的基本性质 (Basic Properties of Poisson Process)
泊松过程之所以在随机建模中如此重要,很大程度上归功于其一系列独特的性质。这些性质不仅简化了理论分析,也使得泊松过程能够有效地应用于各种实际问题。以下详细讨论泊松过程的几个基本性质:
① 独立增量性 (Independent Increments)
如定义所述,泊松过程 \( \{N(t), t \ge 0\} \) 具有独立增量性。这意味着对于任意不相交的时间区间 \( (t_1, t_2], (t_3, t_4], \ldots, (t_{2n-1}, t_{2n}] \),其中 \( 0 \le t_1 < t_2 < t_3 < t_4 < \cdots < t_{2n-1} < t_{2n} \),在这些区间内发生的事件数 \( N(t_2) - N(t_1), N(t_4) - N(t_3), \ldots, N(t_{2n}) - N(t_{2n-1}) \) 是相互独立的随机变量。
直观理解: 过去发生的事件数量不会影响未来事件的发生概率。例如,在电话呼叫中心,在过去一个小时内接到的电话数量不会影响接下来一个小时内接到电话的数量。
数学表达: 对于任意 \( 0 \le t_1 < t_2 < \cdots < t_n \),随机变量 \( N(t_2) - N(t_1), N(t_3) - N(t_2), \ldots, N(t_n) - N(t_{n-1}) \) 相互独立。
② 平稳增量性 (Stationary Increments)
泊松过程 \( \{N(t), t \ge 0\} \) 还具有平稳增量性。这意味着对于任意时间间隔长度 \( t > 0 \),在任何起始时间 \( s \ge 0 \) 开始的长度为 \( t \) 的时间区间内,事件发生次数的分布是相同的,即 \( N(t+s) - N(s) \) 的分布与 \( N(t) - N(0) = N(t) \) 的分布相同,都服从参数为 \( \lambda t \) 的泊松分布。
直观理解: 事件发生的平均速率在时间上是恒定的。例如,在高速公路上,单位时间内通过某一点的车辆数量的平均值在一天中的不同时段可能不同(非齐次泊松过程),但在一个相对平稳的时段内,这个平均速率可以认为是恒定的。
数学表达: 对于任意 \( s, t \ge 0 \) 和 整数 \( k \ge 0 \),有
\[ P(N(t+s) - N(s) = k) = P(N(t) = k) = \frac{e^{-\lambda t} (\lambda t)^k}{k!} \]
③ 轨道性质 (Sample Path Properties)
泊松过程的轨道 \( t \mapsto N(t) \) 具有以下特点:
▮ ⓐ 右连续 (Right-continuous)。对于任意 \( t \ge 0 \),\( \lim_{s \downarrow t} N(s) = N(t) \)。这意味着当时间从右侧趋近于 \( t \) 时,\( N(t) \) 的值趋近于 \( N(t) \)。
▮ ⓑ 阶梯函数 (Step function)。\( N(t) \) 是一个非降的阶梯函数,跳跃发生在事件发生的时刻,且每次跳跃的高度为 1。
▮ ⓒ 跳跃点为孤立点 (Isolated Jump Points)。在有限时间区间内,泊松过程的跳跃次数是有限的。
直观理解: 泊松过程的事件是离散发生的,随着时间的推移,事件计数逐步增加,形成一个阶梯状的轨迹。
④ 稀有性 (Rare Events - 在短时间内至多发生一个事件)
在极短的时间间隔 \( \Delta t \) 内,发生多于一个事件的概率相对于发生一个事件的概率来说,是高阶无穷小量。更精确地,对于小的 \( \Delta t \),有:
▮ ⓐ 在 \( (t, t+\Delta t] \) 内发生一个事件的概率近似为 \( \lambda \Delta t \),即 \( P(N(t+\Delta t) - N(t) = 1) \approx \lambda \Delta t \)。
▮ ⓑ 在 \( (t, t+\Delta t] \) 内发生零个事件的概率近似为 \( 1 - \lambda \Delta t \),即 \( P(N(t+\Delta t) - N(t) = 0) \approx 1 - \lambda \Delta t \)。
▮ ⓒ 在 \( (t, t+\Delta t] \) 内发生两个或更多事件的概率是 \( o(\Delta t) \),即 \( P(N(t+\Delta t) - N(t) \ge 2) = o(\Delta t) \)。这意味着当 \( \Delta t \to 0 \) 时,\( \frac{P(N(t+\Delta t) - N(t) \ge 2)}{\Delta t} \to 0 \)。
直观理解: 在非常短的时间内,不太可能发生多个事件。例如,在极短的时间间隔内,一个放射性原子不太可能发生两次衰变。
数学推导: 这些近似概率可以从泊松分布的泰勒展开得到。由于 \( N(t+\Delta t) - N(t) \sim Poisson(\lambda \Delta t) \),则:
\[ P(N(t+\Delta t) - N(t) = 1) = \frac{e^{-\lambda \Delta t} (\lambda \Delta t)^1}{1!} = \lambda \Delta t e^{-\lambda \Delta t} \approx \lambda \Delta t (1 - \lambda \Delta t + \cdots) \approx \lambda \Delta t \]
\[ P(N(t+\Delta t) - N(t) = 0) = \frac{e^{-\lambda \Delta t} (\lambda \Delta t)^0}{0!} = e^{-\lambda \Delta t} \approx 1 - \lambda \Delta t + \frac{(\lambda \Delta t)^2}{2!} - \cdots \approx 1 - \lambda \Delta t \]
\[ P(N(t+\Delta t) - N(t) \ge 2) = 1 - P(N(t+\Delta t) - N(t) = 0) - P(N(t+\Delta t) - N(t) = 1) \]
\[ = 1 - e^{-\lambda \Delta t} - \lambda \Delta t e^{-\lambda \Delta t} = 1 - (1 - \lambda \Delta t + O((\Delta t)^2)) - \lambda \Delta t (1 - \lambda \Delta t + O((\Delta t)^2)) \]
\[ = O((\Delta t)^2) = o(\Delta t) \]
这些基本性质共同定义了泊松过程的特征,使其成为一种强大而灵活的随机模型。
12.1.3 泊松分布与泊松过程的关系 (Relationship between Poisson Distribution and Poisson Process)
泊松分布 和 泊松过程 这两个概念紧密相连,理解它们之间的关系至关重要。
核心联系: 泊松过程在任意固定长度的时间区间 \( [0, t] \) 内的事件计数 \( N(t) \) 服从参数为 \( \lambda t \) 的泊松分布。反过来,如果一个计数过程满足某些条件(如独立增量性和平稳增量性),且其在时间区间 \( [0, t] \) 内的计数服从泊松分布,那么这个过程就是一个泊松过程。
具体阐述:
① 泊松分布是泊松过程在固定时间间隔内的“快照”。
当我们观察泊松过程在一段时间 \( t \) 内的事件发生次数 \( N(t) \) 时,这个随机变量 \( N(t) \) 的概率分布就是泊松分布,其参数 \( \mu = \lambda t \) 是强度 \( \lambda \) 和时间长度 \( t \) 的乘积。参数 \( \mu \) 代表在时间 \( t \) 内事件发生的平均次数。
概率质量函数 (Probability Mass Function, PMF) 为:
\[ P(N(t) = k) = \frac{e^{-\lambda t} (\lambda t)^k}{k!}, \quad k = 0, 1, 2, \ldots \]
其中,\( k \) 是在时间 \( t \) 内事件发生的次数,\( \lambda \) 是泊松过程的强度(单位时间内事件发生的平均次数)。
② 泊松过程可以看作是一系列泊松分布的“时间演化”。
泊松过程 \( \{N(t), t \ge 0\} \) 将泊松分布从一个固定的时间点扩展到了整个时间轴上。对于每个 \( t \ge 0 \),\( N(t) \) 都是一个服从泊松分布的随机变量,而这些随机变量通过独立增量性和平稳增量性联系起来,共同构成了泊松过程。
③ 强度 \( \lambda \) 的意义。
泊松过程的强度 \( \lambda \) 代表单位时间内事件发生的平均次数。从泊松分布的角度看,参数 \( \mu = \lambda t \) 是在时间 \( t \) 内事件发生的平均次数,因此 \( \lambda = \frac{\mu}{t} \) 就是单位时间内的平均事件数。强度 \( \lambda \) 是泊松过程最关键的参数,它决定了事件发生的频繁程度。
总结: 泊松分布描述了在固定时间间隔内随机事件发生的次数,而泊松过程则描述了这些事件在时间上的动态演化过程。泊松分布是泊松过程在某一时刻的静态描述,而泊松过程是泊松分布在时间上的动态扩展。理解这种联系有助于我们灵活运用泊松分布和泊松过程来解决实际问题。
12.2 非齐次泊松过程与复合泊松过程 (Non-homogeneous Poisson Process and Compound Poisson Process)
12.2.1 非齐次泊松过程 (Non-homogeneous Poisson Process)
标准泊松过程 的一个重要假设是 平稳增量性,即事件发生的平均速率 \( \lambda \) 在时间上是恒定的。然而,在许多实际场景中,事件发生的速率可能会随时间变化。为了应对这种情况,非齐次泊松过程 (Non-homogeneous Poisson Process) 应运而生。
定义: 非齐次泊松过程 \( \{N(t), t \ge 0\} \) 是一个计数过程,满足:
① \( N(0) = 0 \)。
② 独立增量性。
③ 均值函数 (Mean Value Function)。存在一个非负的、确定性的 强度函数 (Intensity Function) \( \lambda(t), t \ge 0 \),使得对于任意 \( s, t \ge 0 \),增量 \( N(t+s) - N(s) \) 服从均值为 \( \int_s^{t+s} \lambda(u) du \) 的泊松分布。即对于整数 \( k \ge 0 \),有
\[ P(N(t+s) - N(s) = k) = \frac{e^{-\int_s^{t+s} \lambda(u) du} (\int_s^{t+s} \lambda(u) du)^k}{k!} \]
强度函数 \( \lambda(t) \) 的意义: 强度函数 \( \lambda(t) \) 表示在时间 \( t \) 瞬时事件发生的速率。与标准泊松过程的常数强度 \( \lambda \) 不同,非齐次泊松过程的强度 \( \lambda(t) \) 是时间的函数,它可以随时间变化而变化。
均值函数 \( m(t) \): 定义 均值函数 \( m(t) = E[N(t)] \)。对于非齐次泊松过程,均值函数可以表示为强度函数的积分:
\[ m(t) = E[N(t)] = \int_0^t \lambda(u) du \]
且对于任意 \( s < t \),有
\[ E[N(t) - N(s)] = \int_s^t \lambda(u) du = m(t) - m(s) \]
性质: 非齐次泊松过程保留了标准泊松过程的 独立增量性,但 平稳增量性 不再成立,因为增量的分布依赖于时间区间的位置,而非仅依赖于时间区间的长度。
应用: 非齐次泊松过程在许多领域都有应用,例如:
▮ ⓐ 呼叫中心建模。呼叫中心在一天中不同时段的呼叫到达率是不同的,例如白天高峰期呼叫率高,夜间低谷期呼叫率低。可以使用非齐次泊松过程,通过设定随时间变化的强度函数 \( \lambda(t) \) 来建模呼叫到达过程。
▮ ⓑ 事故发生建模。在工业安全分析中,机器故障或事故发生的概率可能随着机器老化而增加。可以使用非齐次泊松过程,通过一个递增的强度函数 \( \lambda(t) \) 来建模事故发生过程。
▮ ⓒ 网络流量建模。互联网流量在一天中不同时段的强度也不同,例如白天工作时间流量高峰,夜间流量低谷。非齐次泊松过程可以用来建模网络数据包的到达过程。
与标准泊松过程的联系: 当强度函数 \( \lambda(t) \equiv \lambda \) 为常数时,非齐次泊松过程退化为标准泊松过程。此时,均值函数 \( m(t) = \int_0^t \lambda du = \lambda t \),增量 \( N(t+s) - N(s) \) 服从参数为 \( \lambda t \) 的泊松分布,与标准泊松过程的定义一致。
12.2.2 复合泊松过程 (Compound Poisson Process)
标准泊松过程 和 非齐次泊松过程 都只关注事件发生的次数,而 复合泊松过程 (Compound Poisson Process) 则进一步考虑每次事件发生时带来的 随机影响 或 跳跃大小。
定义: 复合泊松过程 \( \{X(t), t \ge 0\} \) 定义为:
\[ X(t) = \sum_{i=1}^{N(t)} J_i \]
其中,\( \{N(t), t \ge 0\} \) 是一个强度为 \( \lambda > 0 \) 的泊松过程,\( \{J_i, i \ge 1\} \) 是一系列独立同分布 (Independent and Identically Distributed, i.i.d.) 的随机变量,称为 跳跃大小 (Jump Sizes),且 \( \{J_i\}_{i \ge 1} \) 与泊松过程 \( \{N(t), t \ge 0\} \) 相互独立。当 \( N(t) = 0 \) 时,定义 \( X(t) = 0 \)。
直观理解: 复合泊松过程可以看作是在泊松过程的每次事件发生时刻,系统状态发生一个随机的跳跃。跳跃的大小由随机变量 \( J_i \) 决定。
性质:
① 增量性质。复合泊松过程具有 独立增量性,但不具有 平稳增量性(除非跳跃大小 \( J_i \) 是常数)。
② 均值函数。若 \( E[|J_i|] < \infty \),则复合泊松过程的均值函数为:
\[ E[X(t)] = E\left[\sum_{i=1}^{N(t)} J_i\right] = E[N(t)] E[J_1] = (\lambda t) E[J_1] \]
这里使用了 Wald's Identity (瓦尔德恒等式),该恒等式在随机和的期望计算中非常有用。
③ 方差函数。若 \( E[J_i^2] < \infty \),则复合泊松过程的方差函数为:
\[ Var(X(t)) = Var\left[\sum_{i=1}^{N(t)} J_i\right] = E[N(t)] E[J_1^2] = (\lambda t) E[J_1^2] \]
同样使用了 Wald's Identity 的变体。
应用: 复合泊松过程在金融、保险、排队论等领域有广泛应用:
▮ ⓐ 保险风险模型。在保险模型中,索赔事件的到达可以用泊松过程建模,而每次索赔的金额可以看作是跳跃大小 \( J_i \)。复合泊松过程 \( X(t) \) 就表示到时间 \( t \) 为止的总索赔额。
▮ ⓑ 金融跳跃扩散模型。在金融市场中,股票价格除了连续波动外,还可能发生突发的跳跃。可以使用复合泊松过程来建模这些跳跃,与布朗运动 (Brownian Motion) 结合形成跳跃扩散模型,更真实地反映金融市场的动态。
▮ ⓒ 排队论中的批量到达。在某些排队系统中,顾客可能以批量形式到达,而不是单个到达。可以使用泊松过程建模批量到达的频率,而批量的大小则由跳跃大小 \( J_i \) 描述。
例子: 考虑一个保险公司,索赔事件以强度 \( \lambda = 0.1 \) (每年 0.1 次) 的泊松过程到达。每次索赔的金额 \( J_i \) 服从指数分布,均值为 \( 1000 \) 元。那么,到一年年末,总索赔额 \( X(1) \) 就是一个复合泊松过程,其分布可以通过模拟或更高级的分析方法来研究。
12.3 泊松过程的应用 (Applications of Poisson Processes)
12.3.1 泊松过程在排队论中的应用 (Applications in Queuing Theory)
排队论 (Queuing Theory) 是研究系统排队现象的数学理论和方法,广泛应用于通信系统、交通运输、生产管理、服务行业等领域。泊松过程 在排队论中扮演着至关重要的角色,特别是用于建模 顾客到达过程 (Arrival Process)。
应用场景: 在经典的排队模型中,例如 M/M/1 模型 和 M/M/c 模型, “M” 就代表 马尔可夫 (Markovian) 到达或服务,而 泊松到达 (Poisson Arrivals) 是最常见的马尔可夫到达过程。假设顾客以泊松过程到达系统,意味着:
① 顾客到达是随机的。到达时刻是不可预测的,符合随机事件的特征。
② 到达过程具有独立增量性。在不相交的时间区间内到达的顾客数是相互独立的。这意味着前一批顾客的到达不会影响后一批顾客的到达。
③ 到达过程具有平稳增量性。单位时间内平均到达的顾客数是恒定的(对于标准泊松过程)。这在一定程度上简化了模型分析。
④ 稀有性。在极短的时间间隔内,不太可能同时到达多个顾客。
具体应用:
▮ ⓐ M/M/1 排队模型: 这是最基本的排队模型,假设顾客到达服从泊松过程(强度为 \( \lambda \)),服务时间服从指数分布(均值为 \( 1/\mu \)),系统只有一个服务台。泊松到达的假设是 M/M/1 模型成立的关键前提之一。利用泊松过程的性质,可以分析系统的平均队列长度、平均等待时间、系统繁忙概率等性能指标。 ▮ ⓑ **M/M/c 排队模型**: 扩展到多服务台的情况,假设有 \( c \) 个并行的服务台,顾客到达仍然服从泊松过程,服务时间仍然服从指数分布。泊松到达的假设使得模型分析仍然可以进行,并得到系统的性能指标。
▮ ⓒ 更复杂的排队模型: 在更复杂的排队模型中,例如 M/G/1 模型(泊松到达,一般服务时间,单服务台)、G/M/1 模型(一般到达间隔时间,指数服务时间,单服务台)等,泊松到达仍然是一个重要的假设或简化手段。即使在非马尔可夫排队模型中,泊松过程也常常作为基准模型进行比较研究。
例子: 考虑一个银行的柜台服务系统。假设顾客以平均每分钟 2 人的速率到达柜台,到达过程近似服从泊松过程。服务员的服务时间平均为每人 2 分钟,服务时间近似服从指数分布。可以使用 M/M/1 排队模型来分析:
▮ ⓐ 平均队列长度:等待服务的平均顾客数。
▮ ⓑ 平均等待时间:顾客在队列中等待的平均时间。
▮ ⓒ 系统繁忙概率:服务员处于工作状态的概率。
通过排队论的分析,银行可以合理配置服务资源,优化服务流程,提高顾客满意度。
12.3.2 泊松过程在生物学中的应用 (Applications in Biology)
泊松过程 在生物学领域也找到了许多应用,尤其在建模 生物事件的随机发生 方面非常有效。生物事件通常具有随机性和独立性,这与泊松过程的性质非常吻合。
应用场景:
▮ ⓐ 基因突变 (Gene Mutation)。基因突变是生物进化的基础,突变的发生是随机的。可以假设在一定时间间隔内,某个基因位点发生突变的次数服从泊松分布,突变过程可以用泊松过程来建模。强度 \( \lambda \) 可以解释为单位时间内基因突变的平均速率。
▮ ⓑ 细菌或病毒的随机分布。在微生物学研究中,细菌或病毒在培养皿上的分布常常是随机的。在一定的假设条件下,例如细菌或病毒之间相互独立,分布均匀,可以近似认为细菌或病毒在培养皿上的分布服从二维泊松过程。
▮ ⓒ 神经脉冲发放 (Neural Spike Trains)。神经元通过发放神经脉冲(spike)传递信息。神经脉冲的发放具有一定的随机性,尤其是在背景噪声环境下。泊松过程可以用来建模神经脉冲的发放过程,强度 \( \lambda \) 可以解释为神经元的平均发放频率。
▮ ⓓ 动物种群数量波动。在生态学中,动物种群数量的波动受到出生、死亡、迁入、迁出等多种随机因素的影响。在某些简化模型中,例如出生事件可以近似用泊松过程建模,死亡事件也可以近似用泊松过程建模。
具体应用:
▮ ⓐ 放射性衰变建模。放射性衰变是原子核的随机事件,衰变过程符合泊松过程的性质。在生物医学领域,放射性同位素常用于标记和示踪。了解放射性衰变过程的统计特性,有助于精确控制实验条件和数据分析。
▮ ⓑ 流行病传播建模。在流行病学中,传染病的发生和传播过程具有一定的随机性。在某些简单模型中,例如假设易感人群以泊松过程感染疾病,可以使用泊松过程来建模新病例的发生过程。强度 \( \lambda \) 可以解释为单位时间内平均发生的新病例数。
▮ ⓒ 生态学种群动态建模。在生态学研究中,种群的出生和死亡事件是随机的。在一些简单的种群模型中,例如假设出生事件服从泊松过程,死亡事件也服从泊松过程,可以使用泊松过程来构建种群动态模型,分析种群数量的随机波动。
例子: 考虑一个基因突变研究。假设某个基因位点在单位时间内发生突变的平均次数为 \( \lambda = 10^{-6} \)。可以假设基因突变过程服从泊松过程。那么,在时间 \( t = 10^6 \) 个单位时间内,基因突变次数 \( N(10^6) \) 服从参数为 \( \lambda t = 1 \) 的泊松分布。可以计算在 \( 10^6 \) 个单位时间内,发生 0 次、1 次、2 次... 突变的概率,从而分析基因突变的随机性特征。
总结: 泊松过程在排队论和生物学等领域提供了强大的建模工具。其 独立增量性、平稳增量性 和 稀有性 等性质,使得它能够有效地描述各种随机事件的发生过程。通过合理运用泊松过程及其推广形式,我们可以深入理解和分析复杂系统的随机行为。
13. 马尔可夫链 (Markov Chains)
本章系统介绍马尔可夫链,包括离散时间马尔可夫链和连续时间马尔可夫链,重点讨论状态分类、极限分布和应用。
13.1 离散时间马尔可夫链 (Discrete-Time Markov Chains, DTMC)
详细讲解离散时间马尔可夫链的定义、转移概率、转移概率矩阵、状态分类等基本概念。
13.1.1 马尔可夫性质与转移概率 (Markov Property and Transition Probabilities)
马尔可夫链 (Markov Chain) 是一类重要的随机过程,其核心特征在于马尔可夫性质 (Markov Property),也称为无后效性。简单来说,系统未来的状态只依赖于当前状态,而与过去的状态无关。这种性质使得马尔可夫链在理论分析和实际应用中都具有极大的价值。
① 马尔可夫性质 (Markov Property) 的定义
对于一个随机过程 \( \{X_n, n = 0, 1, 2, \ldots \} \),如果对于任意的 \( n \ge 0 \) 和任意的状态 \( i_0, i_1, \ldots, i_{n-1}, i, j \),满足以下条件:
\[ P(X_{n+1} = j | X_n = i, X_{n-1} = i_{n-1}, \ldots, X_0 = i_0) = P(X_{n+1} = j | X_n = i) \]
则称该随机过程 \( \{X_n \} \) 具有马尔可夫性质。这意味着,在已知当前状态 \( X_n = i \) 的条件下,未来状态 \( X_{n+1} = j \) 的条件概率分布与过去的状态 \( X_{n-1}, \ldots, X_0 \) 无关。
② 状态空间 (State Space)
马尔可夫链的状态空间 \( S \) 是指随机变量 \( X_n \) 可能取值的集合。状态空间可以是离散的或连续的。对于离散时间马尔可夫链 (Discrete-Time Markov Chain, DTMC),我们通常关注状态空间为离散的情况,例如 \( S = \{0, 1, 2, \ldots \} \) 或 \( S = \{1, 2, \ldots, N \} \)。在本章中,我们主要讨论离散状态空间的马尔可夫链。
③ 转移概率 (Transition Probabilities)
转移概率 (Transition Probability) 描述了马尔可夫链从一个状态转移到另一个状态的概率。对于离散时间马尔可夫链,一步转移概率 (one-step transition probability) 定义为从状态 \( i \) 在一步内转移到状态 \( j \) 的条件概率,记为 \( p_{ij} \)。即:
\[ p_{ij} = P(X_{n+1} = j | X_n = i) \]
由于转移概率是条件概率,它必须满足 \( p_{ij} \ge 0 \) 和对于任意状态 \( i \),有 \( \sum_{j \in S} p_{ij} = 1 \)。这意味着从状态 \( i \) 出发,下一步转移到状态空间中所有可能状态的概率之和为 1。
如果转移概率 \( p_{ij} \) 不随时间 \( n \) 变化,即对于所有 \( n \ge 0 \),\( P(X_{n+1} = j | X_n = i) \) 都是常数,则称马尔可夫链是时齐的 (time-homogeneous)。在本书中,我们主要讨论时齐马尔可夫链。
④ k步转移概率 (k-step Transition Probabilities)
k步转移概率 (k-step transition probability) \( p_{ij}^{(k)} \) 表示从状态 \( i \) 出发,经过 \( k \) 步转移后到达状态 \( j \) 的概率。数学上表示为:
\[ p_{ij}^{(k)} = P(X_{n+k} = j | X_n = i) \]
当 \( k = 1 \) 时,\( p_{ij}^{(1)} = p_{ij} \) 就是一步转移概率。当 \( k = 0 \) 时,定义 \( p_{ij}^{(0)} = \delta_{ij} \),其中 \( \delta_{ij} \) 是克罗内克 \( \delta \) 函数,当 \( i = j \) 时为 1,当 \( i \ne j \) 时为 0。
可以使用 Chapman-Kolmogorov 方程 (Chapman-Kolmogorov Equation) 来计算 k步转移概率。对于任意的 \( k, m \ge 0 \) 和任意状态 \( i, j \),有:
\[ p_{ij}^{(k+m)} = \sum_{l \in S} p_{il}^{(k)} p_{lj}^{(m)} \]
这个方程的含义是,从状态 \( i \) 经过 \( k+m \) 步到达状态 \( j \) 的概率,可以通过先从状态 \( i \) 经过 \( k \) 步到达中间状态 \( l \),再从状态 \( l \) 经过 \( m \) 步到达状态 \( j \) 的概率求和得到,其中中间状态 \( l \) 可以是状态空间中的任意状态。特别地,当 \( m = 1 \) 时,有:
\[ p_{ij}^{(k+1)} = \sum_{l \in S} p_{il}^{(k)} p_{lj} \]
这个递推关系使得我们可以通过一步转移概率 \( p_{lj} \) 和 k步转移概率 \( p_{il}^{(k)} \) 来计算 \( (k+1) \) 步转移概率 \( p_{ij}^{(k+1)} \)。
13.1.2 转移概率矩阵 (Transition Probability Matrix)
① 转移概率矩阵的定义
对于一个状态空间为 \( S = \{0, 1, 2, \ldots \} \) 或 \( S = \{1, 2, \ldots, N \} \) 的离散时间马尔可夫链,我们可以将所有的一步转移概率 \( p_{ij} \) 排列成一个矩阵,称为转移概率矩阵 (Transition Probability Matrix),通常用 \( \mathbf{P} \) 表示。
如果状态空间是 \( S = \{0, 1, 2, \ldots \} \),则转移概率矩阵 \( \mathbf{P} \) 是一个无限维矩阵:
\[ \mathbf{P} = \begin{pmatrix} p_{00} & p_{01} & p_{02} & \cdots \\ p_{10} & p_{11} & p_{12} & \cdots \\ p_{20} & p_{21} & p_{22} & \cdots \\ \vdots & \vdots & \vdots & \ddots \end{pmatrix} \]
如果状态空间是有限的,例如 \( S = \{1, 2, \ldots, N \} \),则转移概率矩阵 \( \mathbf{P} \) 是一个 \( N \times N \) 的矩阵:
\[ \mathbf{P} = \begin{pmatrix} p_{11} & p_{12} & \cdots & p_{1N} \\ p_{21} & p_{22} & \cdots & p_{2N} \\ \vdots & \vdots & \ddots & \vdots \\ p_{N1} & p_{N2} & \cdots & p_{NN} \end{pmatrix} \]
矩阵 \( \mathbf{P} \) 的第 \( i \) 行第 \( j \) 列元素是 \( p_{ij} \),表示从状态 \( i \) 转移到状态 \( j \) 的一步转移概率。
② 转移概率矩阵的性质
转移概率矩阵 \( \mathbf{P} \) 具有以下重要性质:
⚝ 非负性 (Non-negativity):矩阵 \( \mathbf{P} \) 的所有元素都是非负的,即 \( p_{ij} \ge 0 \) 对于所有 \( i, j \in S \)。
⚝ 行和为 1 (Row Sum to 1):矩阵 \( \mathbf{P} \) 的每一行元素之和都等于 1,即 \( \sum_{j \in S} p_{ij} = 1 \) 对于所有 \( i \in S \)。这是因为从任何一个状态 \( i \) 出发,下一步必须转移到状态空间中的某个状态。
⚝ 随机矩阵 (Stochastic Matrix):满足上述两个性质的矩阵称为随机矩阵 (Stochastic Matrix) 或 概率矩阵 (Probability Matrix)。因此,转移概率矩阵 \( \mathbf{P} \) 是一个随机矩阵。
③ k步转移概率矩阵
k步转移概率 \( p_{ij}^{(k)} \) 也可以排列成矩阵,称为 k步转移概率矩阵 (k-step Transition Probability Matrix),记为 \( \mathbf{P}^{(k)} \)。矩阵 \( \mathbf{P}^{(k)} \) 的第 \( i \) 行第 \( j \) 列元素是 \( p_{ij}^{(k)} \)。
根据 Chapman-Kolmogorov 方程,可以得到 k步转移概率矩阵 \( \mathbf{P}^{(k)} \) 与一步转移概率矩阵 \( \mathbf{P} \) 之间的关系:
\[ \mathbf{P}^{(k+m)} = \mathbf{P}^{(k)} \mathbf{P}^{(m)} \]
特别地,当 \( m = 1 \) 时,有 \( \mathbf{P}^{(k+1)} = \mathbf{P}^{(k)} \mathbf{P} \)。通过递推,可以得到:
\[ \mathbf{P}^{(k)} = \mathbf{P}^k \]
其中 \( \mathbf{P}^k \) 表示矩阵 \( \mathbf{P} \) 的 \( k \) 次矩阵乘法。这个公式提供了一种计算 k步转移概率矩阵的方法,只需要计算一步转移概率矩阵的 \( k \) 次幂即可。
④ 初始分布 (Initial Distribution)
要完整描述一个马尔可夫链,除了转移概率矩阵 \( \mathbf{P} \) 外,还需要知道马尔可夫链的初始状态分布。初始分布 (Initial Distribution) 是指马尔可夫链在初始时刻 \( n = 0 \) 时,各个状态的概率分布。设初始分布为 \( \boldsymbol{\pi}^{(0)} = (\pi_0^{(0)}, \pi_1^{(0)}, \pi_2^{(0)}, \ldots) \),其中 \( \pi_i^{(0)} = P(X_0 = i) \) 表示初始时刻处于状态 \( i \) 的概率。初始分布 \( \boldsymbol{\pi}^{(0)} \) 也是一个概率向量,满足 \( \pi_i^{(0)} \ge 0 \) 和 \( \sum_{i \in S} \pi_i^{(0)} = 1 \)。
在已知初始分布 \( \boldsymbol{\pi}^{(0)} \) 和转移概率矩阵 \( \mathbf{P} \) 的情况下,可以计算马尔可夫链在任意时刻 \( n \) 的状态分布 \( \boldsymbol{\pi}^{(n)} = (\pi_0^{(n)}, \pi_1^{(n)}, \pi_2^{(n)}, \ldots) \),其中 \( \pi_j^{(n)} = P(X_n = j) \) 表示在时刻 \( n \) 处于状态 \( j \) 的概率。状态分布 \( \boldsymbol{\pi}^{(n)} \) 可以通过以下公式计算:
\[ \boldsymbol{\pi}^{(n)} = \boldsymbol{\pi}^{(0)} \mathbf{P}^n = \boldsymbol{\pi}^{(0)} \mathbf{P}^{(n)} \]
或者通过递推关系计算:
\[ \boldsymbol{\pi}^{(n+1)} = \boldsymbol{\pi}^{(n)} \mathbf{P} \]
即 \( \pi_j^{(n+1)} = \sum_{i \in S} \pi_i^{(n)} p_{ij} \)。
13.1.3 状态分类 (Classification of States)
对于马尔可夫链的状态,可以根据其性质进行分类。状态的分类对于理解马尔可夫链的长期行为至关重要。
① 可达性 (Reachability)
状态 \( j \) 从状态 \( i \) 可达 (reachable),如果存在一个整数 \( n \ge 0 \),使得 \( p_{ij}^{(n)} > 0 \)。记为 \( i \rightarrow j \)。这意味着从状态 \( i \) 出发,经过有限步转移有可能到达状态 \( j \)。
② 互通性 (Communication)
状态 \( i \) 和状态 \( j \) 互通 (communicate),如果状态 \( j \) 从状态 \( i \) 可达,且状态 \( i \) 从状态 \( j \) 可达,即 \( i \rightarrow j \) 且 \( j \rightarrow i \)。记为 \( i \leftrightarrow j \)。互通性是一个等价关系,满足自反性、对称性和传递性。根据互通性,可以将状态空间划分为若干个互通类 (communication classes)。
③ 常返态与暂态 (Recurrent and Transient States)
⚝ 首达时间 (First Passage Time):设 \( T_j \) 是马尔可夫链首次到达状态 \( j \) 的时间,即 \( T_j = \min \{n \ge 1 : X_n = j \} \)。如果马尔可夫链从状态 \( i \) 出发,首次返回状态 \( i \) 的概率为 1,即 \( P(T_i < \infty | X_0 = i) = 1 \),则称状态 \( i \) 为常返态 (recurrent state)。否则,如果 \( P(T_i < \infty | X_0 = i) < 1 \),则称状态 \( i \) 为暂态 (transient state)。
⚝ 常返态的性质:如果状态 \( i \) 是常返态,则从状态 \( i \) 出发,几乎必然会无限次返回状态 \( i \)。对于常返态 \( i \),首次返回时间 \( T_i \) 的期望 \( E[T_i | X_0 = i] \) 称为平均返回时间 (mean recurrence time),记为 \( \mu_i \)。如果 \( \mu_i < \infty \),则称状态 \( i \) 为正常返态 (positive recurrent state);如果 \( \mu_i = \infty \),则称状态 \( i \) 为零常返态 (null recurrent state)。在有限状态空间中,常返态一定是正常返态。
⚝ 暂态的性质:如果状态 \( i \) 是暂态,则从状态 \( i \) 出发,返回状态 \( i \) 的次数是有限的(几乎必然)。对于暂态 \( i \),\( \sum_{n=1}^{\infty} p_{ii}^{(n)} < \infty \)。
在同一个互通类中,所有状态的类型相同,即要么都是常返态,要么都是暂态。
④ 周期性 (Periodicity)
对于状态 \( i \),定义 \( N_i = \{n \ge 1 : p_{ii}^{(n)} > 0 \} \) 为从状态 \( i \) 出发,经过 \( n \) 步返回状态 \( i \) 的步数集合。如果 \( N_i \) 非空,则状态 \( i \) 的周期 (period) \( d(i) \) 定义为集合 \( N_i \) 中所有元素的最大公约数 (greatest common divisor, GCD),即 \( d(i) = \text{GCD} \{n \in N_i \} \)。如果 \( N_i \) 为空集,则定义 \( d(i) = 1 \)。
⚝ 如果 \( d(i) = 1 \),则称状态 \( i \) 为非周期态 (aperiodic state)。
⚝ 如果 \( d(i) > 1 \),则称状态 \( i \) 为周期态 (periodic state),周期为 \( d(i) \)。
在同一个互通类中,所有状态具有相同的周期。如果一个互通类中的状态是非周期态,则称该互通类为非周期类;如果一个互通类中的状态是周期态,则称该互通类为周期类,周期为状态的周期。
⑤ 吸收态 (Absorbing State)
状态 \( i \) 称为吸收态 (absorbing state),如果一旦进入状态 \( i \),就永远停留在状态 \( i \),不再转移到其他状态。即 \( p_{ii} = 1 \),从而 \( p_{ij} = 0 \) 对于所有 \( j \ne i \)。
如果状态 \( i \) 是吸收态,则状态 \( i \) 一定是常返态,且平均返回时间 \( \mu_i = 1 \)。
⑥ 遍历性 (Ergodicity)
如果一个马尔可夫链是不可约的 (irreducible) (只有一个互通类) 且是非周期的正常返的,则称该马尔可夫链是遍历的 (ergodic)。遍历性是马尔可夫链具有良好长期行为的重要性质。
13.1.4 极限分布与平稳分布 (Limiting Distribution and Stationary Distribution)
① 极限分布 (Limiting Distribution)
极限分布 (Limiting Distribution) 描述了当时间 \( n \rightarrow \infty \) 时,马尔可夫链的状态分布的极限行为。如果极限 \( \lim_{n \rightarrow \infty} p_{ij}^{(n)} \) 存在且与初始状态 \( i \) 无关,则称极限分布存在。记 \( \pi_j = \lim_{n \rightarrow \infty} p_{ij}^{(n)} \),则 \( \boldsymbol{\pi} = (\pi_0, \pi_1, \pi_2, \ldots) \) 称为马尔可夫链的极限分布。极限分布 \( \boldsymbol{\pi} \) 也是一个概率向量,满足 \( \pi_j \ge 0 \) 和 \( \sum_{j \in S} \pi_j = 1 \)。
对于遍历的马尔可夫链,极限分布 \( \boldsymbol{\pi} \) 存在且唯一,并且与初始分布无关。极限分布 \( \boldsymbol{\pi} \) 的分量 \( \pi_j \) 表示马尔可夫链在长期运行中,处于状态 \( j \) 的平均时间比例。
② 平稳分布 (Stationary Distribution)
平稳分布 (Stationary Distribution) 或 不变分布 (Invariant Distribution) 是一个概率分布 \( \boldsymbol{\pi} = (\pi_0, \pi_1, \pi_2, \ldots) \),满足如果初始分布为 \( \boldsymbol{\pi} \),则在以后的任何时刻 \( n \),状态分布仍然是 \( \boldsymbol{\pi} \)。即如果 \( \boldsymbol{\pi}^{(0)} = \boldsymbol{\pi} \),则 \( \boldsymbol{\pi}^{(n)} = \boldsymbol{\pi} \) 对于所有 \( n \ge 0 \)。
用矩阵形式表示,平稳分布 \( \boldsymbol{\pi} \) 满足以下方程:
\[ \boldsymbol{\pi} = \boldsymbol{\pi} \mathbf{P} \]
或者写成分量形式:
\[ \pi_j = \sum_{i \in S} \pi_i p_{ij}, \quad \text{for all } j \in S \]
同时,平稳分布 \( \boldsymbol{\pi} \) 必须是一个概率分布,即 \( \pi_j \ge 0 \) 和 \( \sum_{j \in S} \pi_j = 1 \)。
对于遍历的马尔可夫链,极限分布和平稳分布是相同的,即 \( \boldsymbol{\pi} = \lim_{n \rightarrow \infty} \mathbf{P}^{(n)} \) 且 \( \boldsymbol{\pi} = \boldsymbol{\pi} \mathbf{P} \)。
③ 平稳分布的存在性与唯一性
⚝ 存在性 (Existence):对于任意不可约的正常返马尔可夫链,平稳分布总是存在的。
⚝ 唯一性 (Uniqueness):对于任意不可约的正常返马尔可夫链,平稳分布是唯一的。
因此,对于遍历的马尔可夫链 (不可约、非周期、正常返),存在唯一的平稳分布 \( \boldsymbol{\pi} \),且极限分布等于平稳分布。可以通过解线性方程组 \( \boldsymbol{\pi} = \boldsymbol{\pi} \mathbf{P} \) 和归一化条件 \( \sum_{j \in S} \pi_j = 1 \) 来求解平稳分布 \( \boldsymbol{\pi} \)。
④ 平均逗留时间与平稳分布的关系
对于正常返态 \( j \),平均返回时间 \( \mu_j = E[T_j | X_0 = j] \) 是指从状态 \( j \) 出发,平均需要多少步才能首次返回状态 \( j \)。平稳分布 \( \pi_j \) 与平均返回时间 \( \mu_j \) 之间存在以下关系:
\[ \pi_j = \frac{1}{\mu_j} \]
即平稳分布 \( \pi_j \) 是状态 \( j \) 的平均返回时间的倒数。这个关系从直观上理解,平稳分布 \( \pi_j \) 表示在长期运行中,马尔可夫链处于状态 \( j \) 的平均时间比例,而平均返回时间 \( \mu_j \) 表示平均每隔多少步会返回状态 \( j \)。因此,状态 \( j \) 的平均时间比例应该与平均返回时间成反比。
13.2 连续时间马尔可夫链 (Continuous-Time Markov Chains, CTMC)
介绍连续时间马尔可夫链的定义、转移速率、Q矩阵、状态分类和稳态分布。
13.2.1 转移速率与Q矩阵 (Transition Rates and Q-Matrix)
① 连续时间马尔可夫链的定义
连续时间马尔可夫链 (Continuous-Time Markov Chain, CTMC) \( \{X(t), t \ge 0 \} \) 是一种状态空间为离散集 \( S \) 的随机过程,它具有连续时间马尔可夫性质 (Continuous-Time Markov Property):对于任意 \( s, t \ge 0 \) 和任意状态 \( i_0, i_1, \ldots, i_{n-1}, i, j \),
\[ P(X(t+s) = j | X(t) = i, X(u), 0 \le u \le t) = P(X(t+s) = j | X(t) = i) \]
这意味着在给定当前时刻 \( t \) 的状态 \( X(t) = i \) 的条件下,未来时刻 \( t+s \) 的状态 \( X(t+s) = j \) 的条件概率分布与过去时刻 \( [0, t] \) 的状态历史 \( \{X(u), 0 \le u \le t \} \) 无关。
② 转移速率 (Transition Rates)
对于连续时间马尔可夫链,我们关注从一个状态转移到另一个状态的瞬时速率 (instantaneous rate),称为转移速率 (transition rate)。从状态 \( i \) 转移到状态 \( j \) ( \( i \ne j \) ) 的转移速率 \( q_{ij} \) 定义为:
\[ q_{ij} = \lim_{h \rightarrow 0^+} \frac{P(X(t+h) = j | X(t) = i)}{h} \]
转移速率 \( q_{ij} \) 表示在状态 \( i \) 停留的极短时间 \( h \) 内,转移到状态 \( j \) 的概率与时间间隔 \( h \) 的比值在 \( h \rightarrow 0^+ \) 时的极限。转移速率 \( q_{ij} \ge 0 \) 且 \( i \ne j \)。
对于状态 \( i \) 自身,定义 离开速率 (departure rate) 或 逸出速率 (exit rate) \( q_i \) 为从状态 \( i \) 离开转移到任何其他状态的总速率:
\[ q_i = \sum_{j \ne i} q_{ij} \]
同时,定义 \( q_{ii} = -q_i = - \sum_{j \ne i} q_{ij} \)。
③ Q矩阵 (Q-Matrix) 或 速率矩阵 (Rate Matrix)
将所有转移速率 \( q_{ij} \) 排列成矩阵,称为 Q矩阵 (Q-Matrix) 或 速率矩阵 (Rate Matrix) \( \mathbf{Q} \)。Q矩阵 \( \mathbf{Q} \) 的第 \( i \) 行第 \( j \) 列元素为 \( q_{ij} \)。
如果状态空间是 \( S = \{0, 1, 2, \ldots \} \),则 Q矩阵 \( \mathbf{Q} \) 是一个无限维矩阵:
\[ \mathbf{Q} = \begin{pmatrix} q_{00} & q_{01} & q_{02} & \cdots \\ q_{10} & q_{11} & q_{12} & \cdots \\ q_{20} & q_{21} & q_{22} & \cdots \\ \vdots & \vdots & \vdots & \ddots \end{pmatrix} = \begin{pmatrix} -q_0 & q_{01} & q_{02} & \cdots \\ q_{10} & -q_1 & q_{12} & \cdots \\ q_{20} & q_{21} & -q_2 & \cdots \\ \vdots & \vdots & \vdots & \ddots \end{pmatrix} \]
如果状态空间是有限的,例如 \( S = \{1, 2, \ldots, N \} \),则 Q矩阵 \( \mathbf{Q} \) 是一个 \( N \times N \) 的矩阵:
\[ \mathbf{Q} = \begin{pmatrix} q_{11} & q_{12} & \cdots & q_{1N} \\ q_{21} & q_{22} & \cdots & q_{2N} \\ \vdots & \vdots & \ddots & \vdots \\ q_{N1} & q_{N2} & \cdots & q_{NN} \end{pmatrix} = \begin{pmatrix} -q_1 & q_{12} & \cdots & q_{1N} \\ q_{21} & -q_2 & \cdots & q_{2N} \\ \vdots & \vdots & \ddots & \vdots \\ q_{N1} & q_{N2} & \cdots & -q_N \end{pmatrix} \]
④ Q矩阵的性质
Q矩阵 \( \mathbf{Q} \) 具有以下性质:
⚝ 非负性 (Non-negativity):对于 \( i \ne j \),\( q_{ij} \ge 0 \)。
⚝ 对角线元素 (Diagonal Elements):\( q_{ii} = -q_i = - \sum_{j \ne i} q_{ij} \le 0 \)。
⚝ 行和为 0 (Row Sum to 0):每一行元素之和为 0,即 \( \sum_{j \in S} q_{ij} = 0 \) 对于所有 \( i \in S \)。
⑤ 停留时间 (Holding Time)
在连续时间马尔可夫链中,当过程进入状态 \( i \) 后,它在状态 \( i \) 停留一段时间,然后转移到另一个状态。停留时间 (holding time) \( T_i \) 是指在状态 \( i \) 停留的时间长度。停留时间 \( T_i \) 服从参数为 \( q_i \) 的指数分布 (exponential distribution),即 \( T_i \sim \text{Exp}(q_i) \)。指数分布的概率密度函数为 \( f_{T_i}(t) = q_i e^{-q_i t}, t \ge 0 \),分布函数为 \( F_{T_i}(t) = 1 - e^{-q_i t}, t \ge 0 \)。指数分布具有无记忆性 (memoryless property),这与马尔可夫性质相一致。
⑥ 转移概率函数 (Transition Probability Functions)
转移概率函数 (transition probability function) \( p_{ij}(t) = P(X(s+t) = j | X(s) = i) \) 表示从时刻 \( s \) 状态为 \( i \) 出发,经过时间 \( t \) 后在时刻 \( s+t \) 到达状态 \( j \) 的概率。由于时齐性,\( p_{ij}(t) \) 与起始时刻 \( s \) 无关,只与时间间隔 \( t \) 有关。
转移概率函数 \( p_{ij}(t) \) 满足以下性质:
⚝ \( p_{ij}(t) \ge 0 \)
⚝ \( \sum_{j \in S} p_{ij}(t) = 1 \)
⚝ \( p_{ij}(0) = \delta_{ij} \)
⚝ Chapman-Kolmogorov 方程 (Chapman-Kolmogorov Equation):
\[ p_{ij}(t+s) = \sum_{k \in S} p_{ik}(t) p_{kj}(s) \]
矩阵形式为 \( \mathbf{P}(t+s) = \mathbf{P}(t) \mathbf{P}(s) \),其中 \( \mathbf{P}(t) = (p_{ij}(t)) \) 是转移概率矩阵函数 (transition probability matrix function)。
13.2.2 前向方程与后向方程 (Kolmogorov Forward and Backward Equations)
① 科尔莫戈罗夫后向方程 (Kolmogorov Backward Equations)
科尔莫戈罗夫后向方程 (Kolmogorov Backward Equations) 描述了转移概率函数 \( p_{ij}(t) \) 关于起始状态 \( i \) 的微分方程。对于时齐连续时间马尔可夫链,后向方程为:
\[ \frac{d}{dt} p_{ij}(t) = \sum_{k \in S} q_{ik} p_{kj}(t) \]
用矩阵形式表示:
\[ \mathbf{P}'(t) = \mathbf{Q} \mathbf{P}(t) \]
初始条件为 \( \mathbf{P}(0) = \mathbf{I} \),其中 \( \mathbf{I} \) 是单位矩阵。
后向方程的物理解释是,在极短时间 \( h \) 内,从状态 \( i \) 出发,第一步可能转移到状态 \( k \) ( \( k \ne i \) ),转移速率为 \( q_{ik} \),然后在剩余时间 \( t \) 内,从状态 \( k \) 转移到状态 \( j \) 的概率为 \( p_{kj}(t) \)。或者第一步可能停留在状态 \( i \),停留速率为 \( -q_{ii} = q_i \)。
② 科尔莫戈罗夫前向方程 (Kolmogorov Forward Equations)
科尔莫戈罗夫前向方程 (Kolmogorov Forward Equations) 或 Chapman-Kolmogorov 微分方程 (Chapman-Kolmogorov Differential Equations) 描述了转移概率函数 \( p_{ij}(t) \) 关于终点状态 \( j \) 的微分方程。前向方程为:
\[ \frac{d}{dt} p_{ij}(t) = \sum_{k \in S} p_{ik}(t) q_{kj} \]
用矩阵形式表示:
\[ \mathbf{P}'(t) = \mathbf{P}(t) \mathbf{Q} \]
初始条件同样为 \( \mathbf{P}(0) = \mathbf{I} \)。
前向方程的物理解释是,在极短时间 \( h \) 前,过程可能在状态 \( k \),然后在最后极短时间 \( h \) 内,从状态 \( k \) 转移到状态 \( j \),转移速率为 \( q_{kj} \)。
③ 求解转移概率函数
科尔莫戈罗夫前向方程和后向方程都是一阶线性微分方程组。可以利用矩阵指数函数 (matrix exponential function) 来求解转移概率矩阵函数 \( \mathbf{P}(t) \)。转移概率矩阵函数的解为:
\[ \mathbf{P}(t) = e^{\mathbf{Q} t} = \sum_{n=0}^{\infty} \frac{(\mathbf{Q} t)^n}{n!} \]
其中 \( e^{\mathbf{Q} t} \) 是矩阵指数函数的定义。对于有限状态空间,可以通过特征值分解或数值方法计算矩阵指数函数,从而得到转移概率函数 \( p_{ij}(t) \)。
13.2.3 连续时间马尔可夫链的状态分类 (Classification of States in CTMC)
连续时间马尔可夫链的状态分类与离散时间马尔可夫链类似,但也有一些区别。
① 可达性与互通性
状态 \( j \) 从状态 \( i \) 可达 (reachable),如果存在时间 \( t \ge 0 \),使得 \( p_{ij}(t) > 0 \)。互通性 (communication) 的定义与离散时间情况相同,即 \( i \leftrightarrow j \) 如果 \( i \rightarrow j \) 且 \( j \rightarrow i \)。互通性也是一个等价关系,可以将状态空间划分为互通类。
② 常返态与暂态
状态 \( i \) 是常返态 (recurrent state),如果从状态 \( i \) 出发,几乎必然会返回状态 \( i \)。状态 \( i \) 是暂态 (transient state),如果从状态 \( i \) 出发,返回状态 \( i \) 的概率小于 1。
在连续时间马尔可夫链中,常返态和暂态的定义与离散时间情况类似,但判断方法有所不同。对于正常返态 \( i \),平均返回时间 \( \mu_i = E[T_i | X(0) = i] \) 是有限的。
③ 正常返态与零常返态
常返态可以进一步分为正常返态 (positive recurrent state) 和 零常返态 (null recurrent state)。在有限状态空间中,常返态一定是正常返态。
④ 周期性
在连续时间马尔可夫链中,周期性的概念与离散时间情况有所不同。如果存在状态 \( i \) 和 \( j \),使得转移只能发生在时间间隔为 \( d \) 的整数倍的时刻,则称马尔可夫链是周期性的。但对于通常的连续时间马尔可夫链,由于状态转移可以在任意时刻发生,因此通常是非周期性的。在连续时间马尔可夫链中,更关注不可约性 (irreducibility) 和 正常返性 (positive recurrence)。
⑤ 吸收态
状态 \( i \) 是吸收态 (absorbing state),如果从状态 \( i \) 出发,永远不会转移到其他状态,即 \( q_{ij} = 0 \) 对于所有 \( j \ne i \)。等价于 \( q_i = 0 \)。
⑥ 不可约性与遍历性
连续时间马尔可夫链是不可约的 (irreducible),如果状态空间只有一个互通类,即任意两个状态之间都是互通的。如果一个连续时间马尔可夫链是不可约的且正常返的,则称它是遍历的 (ergodic)。
13.2.4 稳态分布 (Stationary Distribution in CTMC)
① 稳态分布的定义
稳态分布 (Stationary Distribution) 或 平衡分布 (Equilibrium Distribution) \( \boldsymbol{\pi} = (\pi_0, \pi_1, \pi_2, \ldots) \) 是一个概率分布,满足如果初始分布为 \( \boldsymbol{\pi} \),则在以后的任何时刻 \( t \ge 0 \),状态分布仍然是 \( \boldsymbol{\pi} \)。即如果 \( P(X(0) = j) = \pi_j \),则 \( P(X(t) = j) = \pi_j \) 对于所有 \( t \ge 0 \) 和所有状态 \( j \in S \)。
② 稳态方程 (Steady-State Equations)
稳态分布 \( \boldsymbol{\pi} \) 满足以下稳态方程 (steady-state equations) 或 平衡方程 (balance equations):
\[ \boldsymbol{\pi} \mathbf{Q} = \mathbf{0} \]
或者写成分量形式:
\[ \sum_{i \in S} \pi_i q_{ij} = 0, \quad \text{for all } j \in S \]
同时,稳态分布 \( \boldsymbol{\pi} \) 必须是一个概率分布,即 \( \pi_j \ge 0 \) 和 \( \sum_{j \in S} \pi_j = 1 \)。
稳态方程 \( \sum_{i \in S} \pi_i q_{ij} = 0 \) 可以进一步写成:
\[ \sum_{i \ne j} \pi_i q_{ij} + \pi_j q_{jj} = 0 \]
\[ \sum_{i \ne j} \pi_i q_{ij} = - \pi_j q_{jj} = \pi_j q_j = \pi_j \sum_{k \ne j} q_{jk} \]
即 流入速率 (rate in) = 流出速率 (rate out)。对于状态 \( j \),从其他状态 \( i \ne j \) 流入状态 \( j \) 的总速率等于从状态 \( j \) 流出到其他状态 \( k \ne j \) 的总速率。
③ 稳态分布的存在性与唯一性
对于不可约的正常返连续时间马尔可夫链,稳态分布 \( \boldsymbol{\pi} \) 存在且唯一。可以通过解线性方程组 \( \boldsymbol{\pi} \mathbf{Q} = \mathbf{0} \) 和归一化条件 \( \sum_{j \in S} \pi_j = 1 \) 来求解稳态分布 \( \boldsymbol{\pi} \)。
④ 极限分布
对于遍历的连续时间马尔可夫链 (不可约、正常返),极限分布存在且等于稳态分布,即 \( \lim_{t \rightarrow \infty} p_{ij}(t) = \pi_j \),其中 \( \boldsymbol{\pi} = (\pi_0, \pi_1, \pi_2, \ldots) \) 是唯一的稳态分布。
13.3 马尔可夫链的应用 (Applications of Markov Chains)
探讨马尔可夫链在排队论、 PageRank 算法、生物学、金融等领域的广泛应用。
13.3.1 马尔可夫链在排队论中的应用 (Applications in Queuing Theory)
排队论 (Queuing Theory) 是研究系统排队现象的数学理论和方法,广泛应用于通信系统、交通运输、生产管理、服务行业等领域。马尔可夫链是排队论中分析各种排队模型的重要工具。
① M/M/1 排队模型
M/M/1 排队模型 是排队论中最基本、最重要的模型之一。它假设顾客到达过程服从泊松过程 (Poisson process) (M代表 Markovian 或 Memoryless),服务时间服从指数分布 (exponential distribution) (M代表 Markovian 或 Memoryless),系统只有一个服务台 (1代表单服务台)。
⚝ 状态空间:系统中的顾客数 \( X(t) \) 可以作为状态,状态空间为 \( S = \{0, 1, 2, \ldots \} \)。
⚝ 转移速率:
▮▮▮▮⚝ 顾客到达速率为 \( \lambda \) (arrival rate)。当系统中有 \( i \) 个顾客时,从状态 \( i \) 转移到状态 \( i+1 \) 的速率为 \( q_{i, i+1} = \lambda \)。
▮▮▮▮⚝ 服务速率为 \( \mu \) (service rate)。当系统中有 \( i \ge 1 \) 个顾客时,从状态 \( i \) 转移到状态 \( i-1 \) 的速率为 \( q_{i, i-1} = \mu \)。
▮▮▮▮⚝ 其他转移速率为 0,即 \( q_{ij} = 0 \) 如果 \( |i-j| \ne 1 \) 或 \( j < 0 \)。
⚝ Q矩阵:
\[ \mathbf{Q} = \begin{pmatrix} -\lambda & \lambda & 0 & 0 & \cdots \\ \mu & -(\lambda+\mu) & \lambda & 0 & \cdots \\ 0 & \mu & -(\lambda+\mu) & \lambda & \cdots \\ 0 & 0 & \mu & -(\lambda+\mu) & \cdots \\ \vdots & \vdots & \vdots & \vdots & \ddots \end{pmatrix} \]
⚝ 稳态分布:通过求解稳态方程 \( \boldsymbol{\pi} \mathbf{Q} = \mathbf{0} \) 和归一化条件 \( \sum_{j=0}^{\infty} \pi_j = 1 \),可以得到 M/M/1 排队模型的稳态分布 \( \boldsymbol{\pi} = (\pi_0, \pi_1, \pi_2, \ldots) \)。当 \( \rho = \frac{\lambda}{\mu} < 1 \) 时,稳态分布存在且为几何分布:
\[ \pi_j = (1-\rho) \rho^j, \quad j = 0, 1, 2, \ldots \]
其中 \( \rho = \frac{\lambda}{\mu} \) 称为 traffic intensity (流量强度) 或 utilization factor (利用率)。
⚝ 性能指标:利用稳态分布可以计算 M/M/1 排队模型的各种性能指标,例如:
▮▮▮▮⚝ 平均队长 (average number of customers in the system):\( L = E[X] = \sum_{j=0}^{\infty} j \pi_j = \frac{\rho}{1-\rho} = \frac{\lambda}{\mu-\lambda} \)
▮▮▮▮⚝ 平均排队长 (average number of customers in the queue):\( L_q = E[\max(X-1, 0)] = \sum_{j=1}^{\infty} (j-1) \pi_j = \frac{\rho^2}{1-\rho} = \frac{\lambda^2}{\mu(\mu-\lambda)} \)
▮▮▮▮⚝ 平均逗留时间 (average time spent in the system):\( W = \frac{L}{\lambda} = \frac{1}{\mu-\lambda} \) (Little's Law)
▮▮▮▮⚝ 平均等待时间 (average waiting time in the queue):\( W_q = \frac{L_q}{\lambda} = \frac{\rho}{\mu-\lambda} = \frac{\lambda}{\mu(\mu-\lambda)} \)
② 更复杂的排队模型
除了 M/M/1 模型,排队论中还有许多更复杂的模型,例如 M/M/c (多服务台模型), M/M/1/K (有限容量模型), M/G/1 (服务时间为一般分布模型), G/M/1 (到达间隔时间为一般分布模型) 等。马尔可夫链和连续时间马尔可夫链在分析这些排队模型中都发挥着重要作用。对于具有马尔可夫性质的排队系统,可以使用马尔可夫链模型进行状态分析、稳态分布计算和性能指标评估。
13.3.2 PageRank 算法 (PageRank Algorithm)
PageRank 算法 (PageRank Algorithm) 是 Google 搜索引擎使用的核心算法之一,用于衡量网页的重要性。PageRank 算法基于马尔可夫链模型,将互联网上的网页之间的链接关系看作一个有向图,并利用马尔可夫链的稳态分布来确定网页的 PageRank 值。
① PageRank 的马尔可夫链模型
⚝ 网页和链接:将互联网上的每个网页看作一个状态,所有网页构成状态空间 \( S \)。如果网页 A 链接到网页 B,则在网页图中存在从 A 到 B 的有向边。
⚝ 随机游走模型 (Random Walk Model):假设一个随机冲浪者 (random surfer) 在网页之间随机游走。在每个网页上,冲浪者有一定的概率 \( \alpha \) (阻尼系数,通常设置为 0.85) 选择点击当前网页上的一个链接,跳转到链接指向的网页;也有一定的概率 \( 1-\alpha \) 随机跳转到任何一个网页 (包括当前网页)。
⚝ 转移概率:设网页 \( i \) 有 \( c_i \) 个出链 (outlinks),指向网页 \( j_1, j_2, \ldots, j_{c_i} \)。则从网页 \( i \) 跳转到网页 \( j \) 的转移概率 \( p_{ij} \) 为:
▮▮▮▮⚝ 如果网页 \( i \) 链接到网页 \( j \),则 \( p_{ij} = \frac{\alpha}{c_i} + \frac{1-\alpha}{N} \)。
▮▮▮▮⚝ 如果网页 \( i \) 没有链接到网页 \( j \),但 \( i \ne j \),则 \( p_{ij} = \frac{1-\alpha}{N} \)。
▮▮▮▮⚝ 如果 \( i = j \),则 \( p_{ii} = \frac{1-\alpha}{N} \) (随机跳转到自身)。
▮▮▮▮⚝ 如果网页 \( i \) 没有出链 ( \( c_i = 0 \) ),则 \( p_{ij} = \frac{1}{N} \) 对于所有网页 \( j \) (随机跳转到任何网页)。
其中 \( N \) 是网页总数。
⚝ 转移概率矩阵:所有网页之间的转移概率 \( p_{ij} \) 构成转移概率矩阵 \( \mathbf{P} \)。
② PageRank 值
PageRank 值 是马尔可夫链的稳态分布 \( \boldsymbol{\pi} = (\pi_1, \pi_2, \ldots, \pi_N) \)。稳态分布 \( \boldsymbol{\pi} \) 满足方程 \( \boldsymbol{\pi} = \boldsymbol{\pi} \mathbf{P} \) 和归一化条件 \( \sum_{j=1}^{N} \pi_j = 1 \)。网页 \( j \) 的 PageRank 值 \( \pi_j \) 表示在长期随机游走中,随机冲浪者访问网页 \( j \) 的概率。PageRank 值越高,网页越重要。
③ PageRank 算法的迭代计算
PageRank 值可以通过迭代方法计算。初始时,设置所有网页的 PageRank 值相等,例如 \( \pi_j^{(0)} = \frac{1}{N} \)。然后,通过迭代公式更新 PageRank 值:
\[ \pi_j^{(k+1)} = \sum_{i=1}^{N} \pi_i^{(k)} p_{ij} \]
迭代多次后,PageRank 值会收敛到稳态分布 \( \boldsymbol{\pi} \)。
④ PageRank 的应用
PageRank 算法广泛应用于搜索引擎的网页排序、信息检索、社交网络分析、引文分析等领域。它提供了一种客观、自动化的网页重要性评估方法,对于提高搜索质量和信息发现效率具有重要意义。
13.3.3 马尔可夫链在金融领域的应用 (Applications in Finance)
马尔可夫链在金融领域也有广泛的应用,用于建模和分析金融市场中的随机现象。
① 状态转移模型 (State Transition Models)
在金融市场中,资产价格、市场状态、信用评级等都可能随时间变化。状态转移模型 (State Transition Models) 使用马尔可夫链来描述这些状态之间的转移。例如:
⚝ 股票价格模型:将股票价格分为几个离散状态 (如上涨、下跌、盘整),使用马尔可夫链描述股票价格状态的转移。
⚝ 信用评级模型:信用评级机构 (如 Moody's, S&P, Fitch) 对债券发行人进行信用评级 (如 AAA, AA, A, BBB, ...)。信用评级可能随时间变化。可以使用马尔可夫链模型描述信用评级之间的转移,用于风险管理和信用衍生品定价。
⚝ 市场状态模型:将市场状态分为几个状态 (如牛市、熊市、震荡市),使用马尔可夫链描述市场状态的转移,用于资产配置和投资策略。
② 隐马尔可夫模型 (Hidden Markov Models, HMM)
隐马尔可夫模型 (Hidden Markov Models, HMM) 是一种重要的统计模型,广泛应用于语音识别、自然语言处理、生物信息学、金融时间序列分析等领域。在金融领域,HMM 可以用于:
⚝ 市场预测:将市场状态作为隐状态 (hidden state),观测到的资产价格或其他市场指标作为观测状态 (observation)。通过 HMM 模型,可以推断市场状态,并进行市场预测。
⚝ 交易策略:基于 HMM 模型识别市场状态,并根据不同市场状态制定相应的交易策略。例如,在牛市状态采取积极的投资策略,在熊市状态采取保守的避险策略。
⚝ 金融时间序列建模:HMM 可以用于建模具有状态切换特性的金融时间序列,例如股票收益率、波动率等。
③ 风险管理
马尔可夫链模型可以用于金融风险管理,例如:
⚝ 信用风险评估:使用信用评级转移模型 (基于马尔可夫链) 评估债券或贷款的信用风险,计算违约概率和预期损失。
⚝ 市场风险分析:使用市场状态转移模型分析市场风险,评估不同市场状态下的投资组合风险。
⚝ 操作风险建模:使用马尔可夫链模型建模操作风险事件的发生过程,评估操作风险损失。
④ 金融衍生品定价
马尔可夫链模型可以用于金融衍生品定价,例如:
⚝ 信用衍生品定价:使用信用评级转移模型定价信用违约互换 (Credit Default Swap, CDS) 等信用衍生品。
⚝ 期权定价:在某些情况下,可以使用离散时间马尔可夫链模型近似连续时间随机过程,用于期权定价。
总而言之,马尔可夫链作为一种重要的随机过程模型,在概率统计和随机过程理论中占据着核心地位,并在实际应用中展现出强大的生命力,特别是在排队系统分析、互联网搜索算法以及金融建模等领域,都发挥着不可替代的作用。深入理解和掌握马尔可夫链的理论和方法,对于学习和研究概率统计与随机过程,以及解决实际问题都具有重要的意义。
14. 布朗运动与扩散过程 (Brownian Motion and Diffusion Processes)
摘要
本章介绍连续状态空间、连续时间的随机过程——布朗运动 (Brownian Motion) 和扩散过程 (Diffusion Processes),包括布朗运动的定义、性质和随机微积分 (Stochastic Calculus) 的基础知识。
14.1 布朗运动 (Brownian Motion)
摘要
严格定义布朗运动,并讨论其重要性质,如独立增量性 (Independent Increments)、平稳增量性 (Stationary Increments)、轨道连续性 (Path Continuity) 等。
14.1.1 布朗运动的定义 (Definition of Brownian Motion)
布朗运动,也称为维纳过程 (Wiener Process),是连续时间随机过程 (Continuous-Time Stochastic Process) 中最基本和最重要的过程之一。它起源于对花粉在液体中不规则运动的观察,并在物理学、金融学、工程学等多个领域有着广泛的应用。
定义 14.1.1 (布朗运动的标准定义)
一个随机过程 \( \{B_t\}_{t \ge 0} \) 被称为标准布朗运动,如果它满足以下性质:
① 初始值为零: \( P(B_0 = 0) = 1 \)。布朗运动从原点出发。
② 独立增量性: 对于任意的 \( 0 \le t_1 < t_2 < \cdots < t_n \),增量 \( B_{t_2} - B_{t_1}, B_{t_3} - B_{t_2}, \ldots, B_{t_n} - B_{t_{n-1}} \) 相互独立。这意味着在不相交的时间区间内,布朗运动的增量是统计独立的,过程在过去的变化不会影响未来的增量变化。
③ 平稳增量性: 对于任意的 \( s, t \ge 0 \),增量 \( B_{t+s} - B_t \) 的分布与 \( B_s - B_0 = B_s \) 的分布相同。换句话说,增量的分布只依赖于时间差 \( s \),而与起始时间 \( t \) 无关。
④ 增量的正态分布: 对于任意的 \( t > s \ge 0 \),增量 \( B_t - B_s \) 服从均值为 0,方差为 \( t-s \) 的正态分布,记作 \( B_t - B_s \sim N(0, t-s) \)。 特别地, \( B_t \sim N(0, t) \)。
⑤ 轨道连续性: \( B_t \) 作为时间 \( t \) 的函数,几乎所有的样本路径 \( t \mapsto B_t(\omega) \) 都是连续函数。这意味着布朗运动的路径没有跳跃,是连续变化的。
备注:
⚝ 多维布朗运动: 布朗运动可以推广到多维空间。一个 \( d \) 维布朗运动 \( \mathbf{B}_t = (B_t^{(1)}, B_t^{(2)}, \ldots, B_t^{(d)}) \) 是一个向量随机过程,其中每个分量 \( B_t^{(i)} \) 都是相互独立的标准一维布朗运动。
⚝ 漂移布朗运动: 有时也考虑带有漂移项的布朗运动(Brownian motion with drift),其形式为 \( X_t = \mu t + \sigma B_t \),其中 \( \mu \) 是漂移率,\( \sigma^2 \) 是扩散系数。当 \( \mu = 0 \) 且 \( \sigma = 1 \) 时,退化为标准布朗运动。
⚝ 存在性: 维纳 (Wiener) 在 1923 年证明了布朗运动的存在性。
14.1.2 布朗运动的性质 (Properties of Brownian Motion)
布朗运动除了定义中给出的基本性质外,还具有许多重要的特性,这些特性使得它在理论和应用中都非常重要。
① 独立增量性 (Independent Increments)
正如定义所述,布朗运动的增量在不相交的时间区间内是独立的。这一性质使得我们可以将布朗运动在不同时间段的行为分开考虑,简化分析。
② 平稳增量性 (Stationary Increments)
增量的分布只取决于时间差,而与起始时间无关。这意味着布朗运动在时间上是“均匀”的,其统计特性不随时间的推移而改变。
③ 轨道连续性 (Path Continuity)
布朗运动的样本路径是连续的,这与泊松过程 (Poisson Processes) 等具有跳跃的随机过程形成对比。在直观上,这意味着布朗运动的轨迹是平滑的,没有突变。
④ 无处可微性 (Nowhere Differentiable Paths)
虽然布朗运动的路径是连续的,但它们几乎处处不可微。这意味着在任何时间点,布朗运动的速度都没有明确的定义。这个反直觉的性质是随机过程与经典微积分的重要区别之一。直观上,布朗运动的路径极其不规则和锯齿状,以至于无法定义切线。
⑤ 马尔可夫性 (Markov Property)
布朗运动具有马尔可夫性,即在给定当前状态 \( B_t \) 的条件下,未来状态 \( B_{t+s} \) 的条件分布只依赖于当前状态 \( B_t \),而与过去的状态 \( \{B_u\}_{u \le t} \) 无关。用数学语言表示,对于任意 \( s, t \ge 0 \) 和任意有界可测函数 \( f \),有:
\[ E[f(B_{t+s}) \mid \{B_u\}_{u \le t}] = E[f(B_{t+s}) \mid B_t] \]
马尔可夫性使得布朗运动的预测和分析更加方便,因为我们只需要关注当前的状态,而无需追溯整个历史。
⑥ 鞅性质 (Martingale Property)
布朗运动本身是一个鞅 (Martingale)。更精确地说, \( \{B_t\}_{t \ge 0} \) 是关于其自身生成的自然信息流 \( \{\mathcal{F}_t^B\}_{t \ge 0} \) 的鞅,其中 \( \mathcal{F}_t^B = \sigma(\{B_s : 0 \le s \le t\}) \)。这意味着对于 \( s < t \),有:
\[ E[B_t \mid \mathcal{F}_s^B] = B_s \]
此外, \( \{B_t^2 - t\}_{t \ge 0} \) 也是一个鞅,这是一个重要的性质,与布朗运动的二次变差 (Quadratic Variation) 有关。
⑦ 尺度变换不变性 (Scaling Invariance)
如果 \( \{B_t\}_{t \ge 0} \) 是一个标准布朗运动,那么对于任意 \( c > 0 \),定义新的过程 \( \{X_t\}_{t \ge 0} \) 为 \( X_t = \frac{1}{\sqrt{c}} B_{ct} \)。则 \( \{X_t\}_{t \ge 0} \) 仍然是一个标准布朗运动。这个性质表明布朗运动在尺度变换下保持不变。
⑧ 时间反转性质 (Time Reversal Property)
设 \( \{B_t\}_{t \ge 0} \) 是一个标准布朗运动,固定时间 \( T > 0 \),定义反转过程 \( \{W_t\}_{0 \le t \le T} \) 为 \( W_t = B_T - B_{T-t} \)。则 \( \{W_t\}_{0 \le t \le T} \) 在 \( [0, T] \) 上也是一个布朗运动。当从时间 \( T \) 倒退观察时,布朗运动仍然表现为布朗运动。
⑨ 反射原理 (Reflection Principle)
反射原理描述了布朗运动首次达到某个水平线的概率。设 \( T_a = \inf\{t \ge 0 : B_t = a\} \) 是布朗运动首次击中水平线 \( a > 0 \) 的时间。则对于 \( a > 0 \) 和 \( x > 0 \),有:
\[ P(\sup_{0 \le s \le t} B_s \ge a) = 2 P(B_t \ge a) = P(|B_t| \ge a) \]
以及
\[ P(\sup_{0 \le s \le t} B_s \ge a, B_t \le x) = P(B_t \ge 2a - x) \]
反射原理在计算布朗运动相关的一些首次击中时间概率时非常有用。
14.1.3 布朗运动的轨道性质 (Sample Path Properties of Brownian Motion)
布朗运动的轨道 (样本路径) 具有许多独特的性质,这些性质使其区别于其他随机过程。
① 连续但无处可微: 如前所述,布朗运动的轨道是连续的,但几乎处处不可微。这表明布朗运动的路径极其不规则,充满了尖角和突变,尽管整体上是连续的。
② 二次变差 (Quadratic Variation)
对于一个标准布朗运动 \( \{B_t\}_{t \ge 0} \),其在时间区间 \( [0, t] \) 上的二次变差定义为:
\[ [B, B]_t = \lim_{n \to \infty} \sum_{i=1}^{n} (B_{t_i} - B_{t_{i-1}})^2 \]
其中 \( 0 = t_0 < t_1 < \cdots < t_n = t \) 是 \( [0, t] \) 的一个分割,且 \( \max_{1 \le i \le n} (t_i - t_{i-1}) \to 0 \) 当 \( n \to \infty \) 时。可以证明,布朗运动的二次变差几乎处处为 \( [B, B]_t = t \)。这个性质是理解随机积分 (Stochastic Integration) 和 Itô 公式 (Itô's Lemma) 的关键。
③ 局部有界但非全局有界: 在任何有限时间区间 \( [0, T] \) 上,布朗运动 \( B_t \) 是有界的,即 \( \sup_{0 \le t \le T} |B_t| < \infty \) 几乎处处成立。然而,在无限时间区间 \( [0, \infty) \) 上,布朗运动是无界的,即 \( \limsup_{t \to \infty} |B_t| = \infty \) 几乎处处成立。
④ 重对数律 (Law of Iterated Logarithm)
重对数律描述了布朗运动的增长速度。它指出:
\[ \limsup_{t \to \infty} \frac{B_t}{\sqrt{2t \log \log t}} = 1 \quad \text{a.s.} \]
和
\[ \liminf_{t \to \infty} \frac{B_t}{\sqrt{2t \log \log t}} = -1 \quad \text{a.s.} \]
这意味着当 \( t \to \infty \) 时, \( B_t \) 的增长速度大约是 \( \sqrt{2t \log \log t} \) 量级的,比 \( \sqrt{t} \) 略快,但远慢于线性增长。
⑤ 分形性质 (Fractal Property)
布朗运动的轨道具有分形性质。例如,其 Hausdorff 维数 (Hausdorff Dimension) 为 2。这意味着布朗运动的路径极其复杂和不规则,填充空间的程度很高。
14.2 随机积分初步 (Introduction to Stochastic Integration)
摘要
简要介绍 Itô 积分 (Itô Integral) 的基本思想,为理解随机微分方程 (Stochastic Differential Equations) 做准备。
14.2.1 Itô 积分的定义思想 (Idea of Itô Integral)
由于布朗运动的轨道无处可微,传统的 Riemann-Stieltjes 积分对于路径依赖的随机积分不再适用。为了处理布朗运动等随机过程的积分,需要发展新的积分理论,其中最重要的是 Itô 积分。
Riemann-Stieltjes 积分的回顾
对于两个函数 \( f \) 和 \( g \),在区间 \( [0, T] \) 上的 Riemann-Stieltjes 积分定义为:
\[ \int_0^T f(t) dg(t) = \lim_{\Delta t \to 0} \sum_{i} f(t_i^*) [g(t_i) - g(t_{i-1})] \]
其中 \( 0 = t_0 < t_1 < \cdots < t_n = T \) 是区间 \( [0, T] \) 的一个分割, \( t_i^* \in [t_{i-1}, t_i] \), \( \Delta t = \max_i (t_i - t_{i-1}) \)。当 \( g \) 是光滑函数且 \( f \) 连续时,这个积分存在且性质良好。
Itô 积分的核心思想
当积分对象是布朗运动 \( B_t \) 时,由于其路径的高度不规则性,直接应用 Riemann-Stieltjes 积分会遇到问题。Itô 积分的核心思想是使用前向值 (left endpoint value) 来逼近积分,并利用布朗运动的鞅性质和独立增量性。
对于一个适应于布朗运动的信息流 \( \{\mathcal{F}_t^B\}_{t \ge 0} \) 的简单过程 (simple process) \( H_t = \sum_{i=0}^{n-1} h_i \mathbb{1}_{(t_i, t_{i+1}]}(t) \),其中 \( h_i \) 是 \( \mathcal{F}_{t_i}^B \) 可测的随机变量,Itô 积分定义为:
\[ \int_0^T H_t dB_t = \sum_{i=0}^{n-1} h_i (B_{t_{i+1}} - B_{t_i}) \]
对于更一般的适应过程 \( \{f_t\}_{t \ge 0} \),Itô 积分 \( \int_0^T f_t dB_t \) 通过用简单过程逼近 \( f_t \) 来定义,并利用极限的概念。
Itô 积分的关键特征
① 非预见性 (Non-anticipating): 在构造积分和计算积分时,被积函数 \( f_t \) 在时间 \( t \) 的值只能依赖于到时间 \( t \) 为止的信息,而不能预见未来的布朗运动的值。这就是使用前向值 \( f_{t_{i-1}} \) 的原因。
② 鞅性质保持 (Martingale Preserving): 如果 \( f_t \) 满足一定的条件(例如,平方可积),则 Itô 积分 \( \{ \int_0^t f_s dB_s \}_{t \ge 0} \) 是一个鞅。这个性质在随机分析中非常重要。
③ 二次变差 (Quadratic Variation): Itô 积分的一个关键性质是所谓的“Itô 等距” (Itô isometry),它与二次变差有关。对于确定性函数的积分, \( (\int_0^T f(t) dt)^2 \approx \int_0^T f(t)^2 dt \) (当 \( f \) 近似常数时)。而对于 Itô 积分,有:
\[ E \left[ \left( \int_0^T f_t dB_t \right)^2 \right] = E \left[ \int_0^T f_t^2 dt \right] \]
这表明 Itô 积分的平方期望等于被积函数平方的积分的期望。
14.2.2 Itô 公式 (Itô's Lemma)
Itô 公式是随机微积分中最重要的工具之一,它类似于经典微积分中的链式法则 (Chain Rule),但由于布朗运动的二次变差非零,Itô 公式的形式与经典链式法则有所不同。
Itô 公式 (一维)
设 \( f(t, x) \) 是关于 \( t \) 和 \( x \) 具有连续二阶偏导数的函数, \( \{B_t\}_{t \ge 0} \) 是标准布朗运动。定义随机过程 \( \{X_t\}_{t \ge 0} \) 为 \( X_t = f(t, B_t) \)。则 \( \{X_t\}_{t \ge 0} \) 的随机微分 (stochastic differential) 为:
\[ dX_t = \frac{\partial f}{\partial t}(t, B_t) dt + \frac{\partial f}{\partial x}(t, B_t) dB_t + \frac{1}{2} \frac{\partial^2 f}{\partial x^2}(t, B_t) d[B, B]_t \]
由于 \( d[B, B]_t = dt \),所以 Itô 公式通常写为:
\[ dX_t = \frac{\partial f}{\partial t}(t, B_t) dt + \frac{\partial f}{\partial x}(t, B_t) dB_t + \frac{1}{2} \frac{\partial^2 f}{\partial x^2}(t, B_t) dt \]
或者,以积分形式表示:
\[ f(t, B_t) - f(0, B_0) = \int_0^t \frac{\partial f}{\partial s}(s, B_s) ds + \int_0^t \frac{\partial f}{\partial x}(s, B_s) dB_s + \frac{1}{2} \int_0^t \frac{\partial^2 f}{\partial x^2}(s, B_s) ds \]
Itô 公式的关键点
① 二阶导数项: 与经典链式法则的主要区别在于 Itô 公式中包含了二阶偏导数项 \( \frac{1}{2} \frac{\partial^2 f}{\partial x^2}(t, B_t) dt \)。这一项来源于布朗运动的非零二次变差 \( d[B, B]_t = dt \)。忽略这一项会导致错误的计算结果。
② 随机微分方程 (SDEs) 的基础: Itô 公式是求解和分析随机微分方程 (SDEs) 的基础工具。通过 Itô 公式,可以将关于随机过程的微分方程转化为关于布朗运动的随机积分方程。
例子: \( B_t^2 \) 的随机微分
设 \( f(x) = x^2 \),则 \( \frac{\partial f}{\partial x} = 2x \), \( \frac{\partial^2 f}{\partial x^2} = 2 \), \( \frac{\partial f}{\partial t} = 0 \)。根据 Itô 公式, \( X_t = B_t^2 = f(B_t) \) 的随机微分为:
\[ dB_t^2 = 0 \cdot dt + 2B_t dB_t + \frac{1}{2} \cdot 2 \cdot dt = 2B_t dB_t + dt \]
或者积分形式:
\[ B_t^2 - B_0^2 = \int_0^t 2B_s dB_s + \int_0^t ds \]
由于 \( B_0 = 0 \),所以 \( B_t^2 = \int_0^t 2B_s dB_s + t \),即 \( B_t^2 - t = \int_0^t 2B_s dB_s \)。这解释了为什么 \( \{B_t^2 - t\}_{t \ge 0} \) 是一个鞅,因为右边是一个 Itô 积分,它本身是一个鞅(在一定条件下)。
多维 Itô 公式
Itô 公式可以推广到多维布朗运动和多维函数。设 \( \mathbf{B}_t = (B_t^{(1)}, \ldots, B_t^{(d)}) \) 是 \( d \) 维标准布朗运动, \( f(t, \mathbf{x}) = f(t, x_1, \ldots, x_d) \) 是关于 \( t, x_1, \ldots, x_d \) 具有连续二阶偏导数的函数。定义 \( X_t = f(t, \mathbf{B}_t) \)。则 \( X_t \) 的随机微分为:
\[ dX_t = \frac{\partial f}{\partial t}(t, \mathbf{B}_t) dt + \sum_{i=1}^d \frac{\partial f}{\partial x_i}(t, \mathbf{B}_t) dB_t^{(i)} + \frac{1}{2} \sum_{i=1}^d \sum_{j=1}^d \frac{\partial^2 f}{\partial x_i \partial x_j}(t, \mathbf{B}_t) d[B^{(i)}, B^{(j)}]_t \]
其中 \( d[B^{(i)}, B^{(j)}]_t = \delta_{ij} dt \), \( \delta_{ij} \) 是 Kronecker delta 函数。因此,多维 Itô 公式可以写为:
\[ dX_t = \frac{\partial f}{\partial t}(t, \mathbf{B}_t) dt + \sum_{i=1}^d \frac{\partial f}{\partial x_i}(t, \mathbf{B}_t) dB_t^{(i)} + \frac{1}{2} \sum_{i=1}^d \frac{\partial^2 f}{\partial x_i^2}(t, \mathbf{B}_t) dt \]
14.3 扩散过程简介 (Introduction to Diffusion Processes)
摘要
简要介绍扩散过程 (Diffusion Process) 的概念,以及扩散过程与随机微分方程 (Stochastic Differential Equations) 的关系。
14.3.1 扩散过程的定义 (Definition of Diffusion Process)
扩散过程是一类重要的连续时间、连续状态空间的马尔可夫过程 (Markov Process),广泛应用于物理学、生物学、金融学等领域,用于描述随机现象的连续演化。布朗运动本身也是一个最基本的扩散过程。
直观理解
扩散过程可以看作是受随机噪声驱动的连续运动。想象一个粒子在液体中随机运动,受到周围分子的碰撞,其位置随时间连续变化,但变化的方式是随机的。扩散过程正是这种现象的数学模型。
定义 14.3.1 (扩散过程的随机微分方程定义)
一个随机过程 \( \{X_t\}_{t \ge 0} \) 被称为扩散过程,如果它的动态可以用随机微分方程 (Stochastic Differential Equation, SDE) 来描述:
\[ dX_t = \mu(t, X_t) dt + \sigma(t, X_t) dB_t \]
其中:
⚝ \( \{B_t\}_{t \ge 0} \) 是一个标准布朗运动(可以是多维的)。
⚝ \( \mu(t, x) \) 称为漂移系数 (drift coefficient),它描述了过程的平均趋势或确定性运动部分。
⚝ \( \sigma(t, x) \) 称为扩散系数 (diffusion coefficient),它描述了随机波动或噪声的强度。
⚝ \( dX_t \) 表示在无穷小时间间隔 \( dt \) 内过程 \( X_t \) 的变化量。
⚝ \( dB_t \) 是布朗运动的随机增量,代表随机噪声。
扩散过程的特征
① 连续路径: 扩散过程的样本路径几乎都是连续的,没有跳跃。
② 马尔可夫性: 扩散过程是马尔可夫过程,即未来状态的条件分布只依赖于当前状态,而与过去的状态无关。
③ 局部行为: 扩散过程的局部行为由漂移系数 \( \mu(t, x) \) 和扩散系数 \( \sigma(t, x) \) 完全刻画。在短时间内,过程的变化主要由这两项决定。
例子:几何布朗运动 (Geometric Brownian Motion, GBM)
几何布朗运动是金融学中最常用的模型之一,用于描述股票价格等金融资产的随机波动。其 SDE 为:
\[ dS_t = \mu S_t dt + \sigma S_t dB_t \]
其中 \( \mu \) 是期望收益率(漂移率), \( \sigma \) 是波动率(扩散系数)。几何布朗运动的特点是其波动幅度与当前价格水平成正比。
14.3.2 随机微分方程 (Stochastic Differential Equations, SDEs)
随机微分方程 (SDEs) 是描述扩散过程动态的数学工具。一个 SDE 形式上类似于常微分方程 (Ordinary Differential Equation, ODE),但包含了随机项(通常是布朗运动的微分 \( dB_t \))。
一般形式
最常见的 SDE 形式为 Itô 型 SDE:
\[ dX_t = \mu(t, X_t) dt + \sigma(t, X_t) dB_t \]
其中 \( \mu(t, x) \) 和 \( \sigma(t, x) \) 是给定的函数, \( \{B_t\}_{t \ge 0} \) 是布朗运动。
SDE 的解
SDE 的解 \( \{X_t\}_{t \ge 0} \) 是一个随机过程,它满足上述微分方程的积分形式:
\[ X_t = X_0 + \int_0^t \mu(s, X_s) ds + \int_0^t \sigma(s, X_s) dB_s \]
其中 \( X_0 \) 是初始条件。右边的第二个积分是 Itô 积分。
存在性和唯一性
在适当的条件下(例如, \( \mu(t, x) \) 和 \( \sigma(t, x) \) 满足 Lipschitz 条件和线性增长条件),SDE 的解存在且唯一(在一定意义下)。
数值解法
由于 SDE 的解通常没有解析表达式,数值方法在实际应用中非常重要。常用的数值方法包括 Euler-Maruyama 方法、Milstein 方法等,用于近似求解 SDE 的样本路径。
14.3.3 扩散过程的应用 (Applications of Diffusion Processes)
扩散过程在多个领域都有广泛的应用。
① 金融学 (Finance)
⚝ 股票价格模型: 几何布朗运动及其变种被广泛用于股票价格、利率、汇率等金融资产的建模。
⚝ 期权定价: Black-Scholes 模型和 Merton 模型等期权定价理论都基于扩散过程。
⚝ 随机波动率模型: Heston 模型等使用扩散过程来描述资产波动率的随机变化。
② 物理学 (Physics)
⚝ 布朗运动: 最初的布朗运动模型就是物理现象的直接描述。
⚝ 热力学: 扩散过程用于描述热运动、粒子扩散等现象。
⚝ 统计物理: Langevin 方程等使用扩散过程来建模复杂系统的随机动态。
③ 生物学 (Biology)
⚝ 种群动力学: 扩散过程用于描述种群数量在空间和时间上的随机变化。
⚝ 神经科学: 神经元膜电位的波动可以用扩散过程建模。
⚝ 生物分子运动: 蛋白质、DNA 等生物分子的扩散和随机运动可以用扩散过程描述。
④ 工程学 (Engineering)
⚝ 随机控制: 扩散过程作为系统状态的随机模型,在随机控制理论中扮演重要角色。
⚝ 通信系统: 噪声建模、信号处理等领域会用到扩散过程。
⚝ 可靠性分析: 随机退化过程可以用扩散过程建模,用于分析系统或设备的可靠性。
总结
扩散过程是一类非常重要且应用广泛的随机过程。通过随机微分方程,我们可以精确地描述和分析这类过程的动态行为。理解布朗运动、Itô 积分和 Itô 公式是深入学习扩散过程及其应用的基础。扩散过程不仅在理论研究中占据重要地位,也在实际问题中提供了强大的建模和分析工具。
15. 时间序列分析初步 (Introduction to Time Series Analysis)
本章初步介绍时间序列分析的基本概念和模型,包括平稳性、自相关函数 (Autocorrelation Function, ACF)、偏自相关函数 (Partial Autocorrelation Function, PACF)、AR 模型 (Autoregressive Model)、MA 模型 (Moving Average Model)、ARMA 模型 (Autoregressive Moving Average Model) 等。
15.1 时间序列的基本概念 (Basic Concepts of Time Series)
本节将介绍时间序列的定义、类型、平稳性等基本概念,为后续时间序列模型的学习打下基础。
15.1.1 时间序列的定义与类型 (Definition and Types of Time Series)
时间序列 (Time Series) 是指按照时间顺序排列的一系列观测值。更 формально (formally) 地说,时间序列可以被定义为一个随机过程 \( \{X_t, t \in T\} \),其中 \( T \) 是时间指标集。在实际应用中,我们通常观察到的是时间序列的实现,即在特定时间点上的一系列观测值 \( \{x_1, x_2, \ldots, x_n\} \),其中 \( x_t \) 表示在时间 \( t \) 上的观测值。
① 时间序列的定义
时间序列是按照时间顺序排列的观测值序列,用于描述现象随时间变化的动态规律。时间序列分析的主要目标是从观测到的时间序列数据中提取有用的信息,例如:
⚝ 描述过去: 揭示时间序列的历史演变规律,例如趋势性 (trend)、季节性 (seasonality)、周期性 (cyclicity) 等。
⚝ 分析现在: 理解当前时间序列的特征和结构,例如平稳性、相关性等。
⚝ 预测未来: 基于历史数据和模型,对时间序列的未来值进行预测。
⚝ 控制: 基于时间序列模型,对系统进行优化和控制。
② 时间序列的类型
时间序列可以根据不同的特征进行分类。常见的分类方式包括:
⚝ 按时间参数的连续性:
▮▮▮▮⚝ 离散时间序列 (Discrete Time Series): 时间参数 \( T \) 是离散的,例如,每天、每月、每年的股票收盘价、GDP 数据等。我们通常处理的是离散时间序列,时间指标通常为整数 \( t = 1, 2, 3, \ldots \)。
▮▮▮▮⚝ 连续时间序列 (Continuous Time Series): 时间参数 \( T \) 是连续的,例如,心电图、脑电图、温度的连续记录等。连续时间序列在某些特定领域,如信号处理、物理学中较为常见,但在经济、金融等领域,离散时间序列更为常见。
⚝ 按序列的特征:
▮▮▮▮⚝ 平稳时间序列 (Stationary Time Series): 序列的统计特性 (如均值、方差、自相关函数等) 不随时间变化的时间序列。平稳性是时间序列分析中一个非常重要的概念,许多时间序列模型都假设数据是平稳的。
▮▮▮▮⚝ 非平稳时间序列 (Non-stationary Time Series): 序列的统计特性随时间变化的时间序列。现实世界中,许多时间序列是非平稳的,例如,股票价格、GDP 增长率等。对于非平稳时间序列,通常需要进行平稳化处理后才能应用平稳时间序列模型。
⚝ 按变量的个数:
▮▮▮▮⚝ 单变量时间序列 (Univariate Time Series): 只包含一个变量的时间序列,例如,某股票的收盘价序列。
▮▮▮▮⚝ 多变量时间序列 (Multivariate Time Series): 包含多个变量的时间序列,例如,同时记录股票价格和交易量的时间序列,或者宏观经济数据,如 GDP、通货膨胀率、失业率等组成的时间序列。
⚝ 按序列的周期性:
▮▮▮▮⚝ 非周期性时间序列: 不呈现明显周期性变化的时间序列,例如,随机游走序列。
▮▮▮▮⚝ 周期性时间序列: 呈现明显周期性变化的时间序列,例如,季节性销售数据、气温数据等。周期性时间序列的周期长度可以是年、季度、月、周、日等。
理解时间序列的类型有助于选择合适的时间序列分析方法和模型。在实际应用中,我们需要根据数据的特征和分析目标,选择合适的时间序列类型进行研究。
15.1.2 时间序列的平稳性 (Stationarity of Time Series)
平稳性 (Stationarity) 是时间序列分析中一个核心概念。平稳性假设简化了时间序列的分析,使得我们可以基于历史数据推断未来的统计特性。平稳性通常分为严平稳 (Strict Stationarity) 和 宽平稳 (Weak Stationarity) (或二阶平稳)。
① 严平稳 (Strict Stationarity)
一个时间序列 \( \{X_t\} \) 被称为严平稳的,如果对于任意时间点 \( t_1, t_2, \ldots, t_k \) 和任意时间滞后 \( \tau \),联合分布满足:
\[ P(X_{t_1} \le x_1, X_{t_2} \le x_2, \ldots, X_{t_k} \le x_k) = P(X_{t_1+\tau} \le x_1, X_{t_2+\tau} \le x_2, \ldots, X_{t_k+\tau} \le x_k) \]
对于所有的 \( k \) 和所有的 \( x_1, x_2, \ldots, x_k \)。
严平稳的定义要求时间序列的联合分布在时间平移下保持不变。这意味着时间序列的统计特性在任何时间段都是相同的。严平稳是一个很强的条件,在实际应用中很难验证。
② 宽平稳 (Weak Stationarity) (或二阶平稳)
一个时间序列 \( \{X_t\} \) 被称为宽平稳的,如果它满足以下两个条件:
⚝ 均值 (Mean) 恒定: 均值函数 \( \mu_t = E[X_t] = \mu \) 对于所有时间 \( t \) 都是常数 \( \mu \)。
⚝ 自协方差函数 (Autocovariance Function) 只与时间间隔有关: 自协方差函数 \( \gamma(t, s) = Cov(X_t, X_s) = E[(X_t - \mu)(X_s - \mu)] \) 只与时间间隔 \( \tau = |t - s| \) 有关,即 \( \gamma(t, s) = \gamma(\tau) \)。
宽平稳只对时间序列的一阶矩 (均值) 和 二阶矩 (自协方差) 提出了平稳性要求。在实际应用中,宽平稳是一个更常用的概念,因为很多时间序列模型 (如 ARMA 模型) 只需要宽平稳的假设。
宽平稳的意义
⚝ 统计推断的基础: 宽平稳性保证了我们可以使用时间序列的历史数据来估计其均值、方差和自相关函数等统计量,并基于这些估计量进行统计推断和预测。
⚝ 模型构建的简化: 许多时间序列模型 (如 ARMA 模型) 都是基于宽平稳假设构建的。如果时间序列是宽平稳的,我们可以直接应用这些模型进行分析和预测。
平稳性的检验
检验时间序列是否平稳是一个重要的问题。常用的平稳性检验方法包括:
⚝ 时序图检验: 观察时间序列的时序图,如果序列的均值和波动幅度随时间变化不大,可以初步判断序列是平稳的。
⚝ 自相关图 (ACF plot) 检验: 绘制时间序列的自相关图,观察自相关系数是否快速衰减到零。对于平稳时间序列,自相关系数通常会随着滞后阶数增加而快速衰减。
⚝ 单位根检验 (Unit Root Test): 单位根检验是一种更 формальный (formal) 的平稳性检验方法,例如,ADF 检验 (Augmented Dickey-Fuller test) 和 KPSS 检验 (Kwiatkowski-Phillips-Schmidt-Shin test)。单位根检验的原假设通常是非平稳性,如果检验结果拒绝原假设,则认为序列是平稳的。
非平稳时间序列的平稳化
如果时间序列是非平稳的,通常需要进行平稳化处理,将其转换为平稳时间序列。常用的平稳化方法包括:
⚝ 差分 (Differencing): 对于具有趋势性的非平稳时间序列,可以使用差分运算来消除趋势。一阶差分定义为 \( \Delta X_t = X_t - X_{t-1} \),更高阶的差分可以迭代定义。
⚝ 对数变换 (Log Transformation): 对于具有异方差性 (方差随时间变化) 的非平稳时间序列,可以使用对数变换来稳定方差。
⚝ 季节调整 (Seasonal Adjustment): 对于具有季节性的时间序列,可以使用季节调整方法消除季节性影响。
⚝ 分解 (Decomposition): 将时间序列分解为趋势成分、季节成分和随机成分,然后对随机成分进行建模。
经过平稳化处理后的时间序列,可以应用平稳时间序列模型进行分析和预测。
15.1.3 自相关函数与偏自相关函数 (Autocorrelation Function and Partial Autocorrelation Function)
自相关函数 (Autocorrelation Function, ACF) 和偏自相关函数 (Partial Autocorrelation Function, PACF) 是描述时间序列自相关性 (autocorrelation) 的重要工具。它们可以帮助我们识别时间序列的依赖结构 (dependence structure),并为模型选择提供依据。
① 自相关函数 (ACF)
自相关函数 \( \rho(\tau) \) (Autocorrelation Function, ACF) 描述了时间序列 \( \{X_t\} \) 在不同时间点 \( t \) 和 \( t-\tau \) 的观测值之间的线性相关程度。对于宽平稳时间序列,自相关函数定义为:
\[ \rho(\tau) = Corr(X_t, X_{t-\tau}) = \frac{Cov(X_t, X_{t-\tau})}{\sqrt{Var(X_t)Var(X_{t-\tau})}} = \frac{\gamma(\tau)}{\gamma(0)} \]
其中,\( \tau \) 是滞后阶数 (lag),\( \gamma(\tau) \) 是自协方差函数,\( \gamma(0) = Var(X_t) \) 是方差。
自相关系数 \( \rho(\tau) \) 的取值范围为 \( [-1, 1] \)。
⚝ \( \rho(\tau) > 0 \): 表示 \( X_t \) 和 \( X_{t-\tau} \) 之间存在正相关关系。
⚝ \( \rho(\tau) < 0 \): 表示 \( X_t \) 和 \( X_{t-\tau} \) 之间存在负相关关系。
⚝ \( \rho(\tau) = 0 \): 表示 \( X_t \) 和 \( X_{t-\tau} \) 之间不存在线性相关关系。
⚝ \( |\rho(\tau)| \) 的绝对值越大,表示相关性越强。
样本自相关函数 (Sample Autocorrelation Function, SACF) 是用样本数据估计的自相关函数。对于观测值 \( \{x_1, x_2, \ldots, x_n\} \),样本自相关函数 \( \hat{\rho}(\tau) \) 可以计算为:
\[ \hat{\rho}(\tau) = \frac{\sum_{t=\tau+1}^{n} (x_t - \bar{x})(x_{t-\tau} - \bar{x})}{\sum_{t=1}^{n} (x_t - \bar{x})^2} \]
其中,\( \bar{x} = \frac{1}{n} \sum_{t=1}^{n} x_t \) 是样本均值,\( \tau = 1, 2, \ldots, n-1 \)。
自相关图 (Correlogram or ACF plot) 是以滞后阶数 \( \tau \) 为横轴,自相关系数 \( \hat{\rho}(\tau) \) 为纵轴绘制的图形。自相关图可以直观地展示时间序列的自相关性随滞后阶数的变化情况。
② 偏自相关函数 (PACF)
偏自相关函数 \( \phi(\tau) \) (Partial Autocorrelation Function, PACF) 描述了在给定中间滞后 \( 1, 2, \ldots, \tau-1 \) 的条件下,时间序列 \( \{X_t\} \) 在时间点 \( t \) 和 \( t-\tau \) 的观测值之间的条件线性相关程度。更精确地说,\( \phi(\tau) \) 是在消除中间滞后 \( X_{t-1}, X_{t-2}, \ldots, X_{t-\tau+1} \) 对 \( X_t \) 和 \( X_{t-\tau} \) 的线性影响后,\( X_t \) 和 \( X_{t-\tau} \) 之间的相关系数。
对于宽平稳时间序列,偏自相关函数 \( \phi(\tau) \) 可以通过求解 Yule-Walker 方程 (Yule-Walker equations) 得到。对于 AR(p) 模型,偏自相关函数在滞后阶数 \( p \) 之后截尾 (cut off),这是一个重要的性质,可以用于 AR 模型的阶数识别。
样本偏自相关函数 (Sample Partial Autocorrelation Function, SPACF) 是用样本数据估计的偏自相关函数。样本偏自相关函数 \( \hat{\phi}(\tau) \) 可以通过 Durbin-Levinson 算法 (Durbin-Levinson algorithm) 或 OLS 回归 (Ordinary Least Squares regression) 等方法计算。
偏自相关图 (PACF plot) 是以滞后阶数 \( \tau \) 为横轴,偏自相关系数 \( \hat{\phi}(\tau) \) 为纵轴绘制的图形。偏自相关图可以直观地展示时间序列的偏自相关性随滞后阶数的变化情况。
③ ACF 和 PACF 的应用
自相关函数和偏自相关函数是识别时间序列模型阶数的关键工具。通过观察 ACF 图和 PACF 图的拖尾性 (tailing off) 和 截尾性 (cut off),可以初步判断时间序列适合的模型类型和阶数。
⚝ AR 模型 (Autoregressive Model):
▮▮▮▮⚝ ACF 拖尾 (缓慢衰减)。
▮▮▮▮⚝ PACF 截尾 (在某个滞后阶数后快速衰减到零)。
⚝ MA 模型 (Moving Average Model):
▮▮▮▮⚝ ACF 截尾 (在某个滞后阶数后快速衰减到零)。
▮▮▮▮⚝ PACF 拖尾 (缓慢衰减)。
⚝ ARMA 模型 (Autoregressive Moving Average Model):
▮▮▮▮⚝ ACF 拖尾 (缓慢衰减)。
▮▮▮▮⚝ PACF 拖尾 (缓慢衰减)。
在实际应用中,ACF 图和 PACF 图通常需要结合使用,并结合其他信息 (如 AIC、BIC 等模型选择准则) 来确定合适的模型和阶数。
15.2 常用时间序列模型 (Common Time Series Models)
本节将介绍几种常用的时间序列模型,包括自回归模型 (AR)、移动平均模型 (MA) 和自回归移动平均模型 (ARMA)。这些模型是时间序列分析的基础,广泛应用于各个领域。
15.2.1 自回归模型 (Autoregressive Model, AR)
自回归模型 (Autoregressive Model, AR) 是一种用自身过去值作为回归变量进行预测的模型。AR 模型假设当前时刻的观测值 \( X_t \) 可以由过去 \( p \) 个时刻的观测值的线性组合加上一个随机误差项表示。p 阶自回归模型 (AR(p)) 的 формальное (formal) 定义如下:
\[ X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \ldots + \phi_p X_{t-p} + \epsilon_t \]
其中,
⚝ \( X_t \) 是在时间 \( t \) 的观测值。
⚝ \( c \) 是常数项 (constant term)。
⚝ \( \phi_1, \phi_2, \ldots, \phi_p \) 是自回归系数 (autoregressive coefficients)。
⚝ \( p \) 是模型的阶数 (order)。
⚝ \( \epsilon_t \) 是白噪声过程 (white noise process),通常假设 \( \epsilon_t \sim i.i.d. \; N(0, \sigma^2) \),即独立同分布的均值为 0,方差为 \( \sigma^2 \) 的正态随机变量。
AR 模型的特点
⚝ 线性模型: AR 模型是线性模型,当前值 \( X_t \) 是过去值 \( X_{t-1}, X_{t-2}, \ldots, X_{t-p} \) 的线性函数。
⚝ 自回归性: AR 模型的核心思想是自回归,即用自身过去的值来预测当前值。
⚝ 阶数 p: 阶数 \( p \) 决定了模型使用的过去信息的长度。阶数越高,模型考虑的过去信息越多。
⚝ 参数: AR 模型的主要参数是自回归系数 \( \phi_1, \phi_2, \ldots, \phi_p \) 和白噪声的方差 \( \sigma^2 \)。
AR 模型的性质
⚝ 平稳性条件: 为了保证 AR(p) 模型的平稳性,自回归系数 \( \phi_1, \phi_2, \ldots, \phi_p \) 需要满足一定的条件。这些条件可以用特征方程的根来表示。AR(p) 模型的特征方程为:
\[ 1 - \phi_1 z - \phi_2 z^2 - \ldots - \phi_p z^p = 0 \]
AR(p) 模型平稳的充要条件 (necessary and sufficient condition) 是特征方程的所有根的模 (modulus) 都大于 1,即都落在单位圆外 (outside the unit circle)。
⚝ 均值: 如果 AR(p) 模型是平稳的,其均值 \( \mu = E[X_t] \) 是常数。如果 \( c \ne 0 \),则均值 \( \mu \) 可以计算为:
\[ \mu = \frac{c}{1 - \phi_1 - \phi_2 - \ldots - \phi_p} \]
如果 \( c = 0 \),则均值 \( \mu = 0 \)。
⚝ 自相关函数 (ACF) 和偏自相关函数 (PACF):
▮▮▮▮⚝ AR(p) 模型的 ACF 拖尾 (缓慢衰减)。
▮▮▮▮⚝ AR(p) 模型的 PACF 在滞后阶数 \( p \) 之后截尾 (快速衰减到零)。
▮▮▮▮⚝ AR(p) 模型的 ACF 和 PACF 可以通过 Yule-Walker 方程计算。
AR 模型的模型识别
模型识别 (model identification) 是指根据时间序列的特性,选择合适的模型类型和阶数。对于 AR 模型,可以根据 ACF 和 PACF 图进行模型识别:
⚝ 观察 PACF 图,如果 PACF 在滞后阶数 \( p \) 之后快速衰减到零,可以初步判断模型为 AR(p) 模型。
⚝ 结合 ACF 图,AR(p) 模型的 ACF 应该拖尾。
⚝ 可以使用 AIC (Akaike Information Criterion) 和 BIC (Bayesian Information Criterion) 等模型选择准则来辅助确定最佳阶数 \( p \)。
AR 模型的参数估计
AR 模型的参数估计是指估计常数项 \( c \)、自回归系数 \( \phi_1, \phi_2, \ldots, \phi_p \) 和白噪声方差 \( \sigma^2 \)。常用的参数估计方法包括:
⚝ 最小二乘估计 (Least Squares Estimation, LSE): 最小二乘估计是通过最小化残差平方和来估计参数。对于 AR(p) 模型,可以将模型写成回归形式,然后使用 OLS 方法估计参数。
⚝ 矩估计 (Method of Moments, MM): 矩估计是利用样本的矩 (如自相关系数) 等于理论的矩来估计参数。对于 AR(p) 模型,可以使用 Yule-Walker 方程和样本自相关函数来估计参数。
⚝ 最大似然估计 (Maximum Likelihood Estimation, MLE): 最大似然估计是选择参数使得样本观测值出现的概率最大。对于 AR(p) 模型,如果假设白噪声服从正态分布,可以使用 MLE 方法估计参数。MLE 通常比 LSE 和 MM 更有效,但计算更复杂。
AR 模型的预测
AR 模型可以用于预测时间序列的未来值。给定已知的历史观测值 \( X_1, X_2, \ldots, X_n \),可以使用 AR(p) 模型预测未来 \( l \) 步的观测值 \( X_{n+l} \)。一步预测 (one-step-ahead forecast, \( l=1 \)) 的公式为:
\[ \hat{X}_{n+1|n} = c + \phi_1 X_n + \phi_2 X_{n-1} + \ldots + \phi_p X_{n-p+1} \]
多步预测 (multi-step-ahead forecast, \( l > 1 \)) 可以迭代进行。例如,两步预测 (two-step-ahead forecast, \( l=2 \)) 可以用一步预测值 \( \hat{X}_{n+1|n} \) 代替 \( X_{n+1} \) 计算:
\[ \hat{X}_{n+2|n} = c + \phi_1 \hat{X}_{n+1|n} + \phi_2 X_n + \ldots + \phi_p X_{n-p+2} \]
预测的精度可以通过预测误差的方差来衡量。预测误差的方差随着预测步数的增加而增大。
15.2.2 移动平均模型 (Moving Average Model, MA)
移动平均模型 (Moving Average Model, MA) 是一种用过去白噪声的线性组合来表示当前观测值的模型。MA 模型假设当前时刻的观测值 \( X_t \) 可以由当前和过去 \( q \) 个时刻的白噪声的线性组合表示。q 阶移动平均模型 (MA(q)) 的 формальное (formal) 定义如下:
\[ X_t = \mu + \epsilon_t - \theta_1 \epsilon_{t-1} - \theta_2 \epsilon_{t-2} - \ldots - \theta_q \epsilon_{t-q} \]
其中,
⚝ \( X_t \) 是在时间 \( t \) 的观测值。
⚝ \( \mu \) 是时间序列的均值 (mean)。通常为了简化模型,假设均值 \( \mu = 0 \),即中心化 (centered) 的 MA 模型:
\[ X_t = \epsilon_t - \theta_1 \epsilon_{t-1} - \theta_2 \epsilon_{t-2} - \ldots - \theta_q \epsilon_{t-q} \]
⚝ \( \theta_1, \theta_2, \ldots, \theta_q \) 是移动平均系数 (moving average coefficients)。注意,有的文献中 MA 模型的系数符号可能与这里相反。
⚝ \( q \) 是模型的阶数 (order)。
⚝ \( \epsilon_t \) 是白噪声过程 (white noise process),通常假设 \( \epsilon_t \sim i.i.d. \; N(0, \sigma^2) \)。
MA 模型的特点
⚝ 线性模型: MA 模型也是线性模型,当前值 \( X_t \) 是过去白噪声 \( \epsilon_{t-1}, \epsilon_{t-2}, \ldots, \epsilon_{t-q} \) 的线性函数。
⚝ 移动平均性: MA 模型的核心思想是移动平均,即用过去白噪声的加权平均来表示当前值。
⚝ 阶数 q: 阶数 \( q \) 决定了模型使用的过去白噪声信息的长度。阶数越高,模型考虑的过去白噪声信息越多。
⚝ 参数: MA 模型的主要参数是移动平均系数 \( \theta_1, \theta_2, \ldots, \theta_q \) 和白噪声的方差 \( \sigma^2 \)。
MA 模型的性质
⚝ 平稳性: MA(q) 模型总是宽平稳的 (always weakly stationary),对于任何移动平均系数 \( \theta_1, \theta_2, \ldots, \theta_q \),MA(q) 模型都是平稳的。这是 MA 模型相对于 AR 模型的一个优点。
⚝ 均值: MA(q) 模型的均值 \( E[X_t] = \mu \)。如果使用中心化的 MA 模型,则均值 \( E[X_t] = 0 \)。
⚝ 方差: MA(q) 模型的方差 \( Var(X_t) \) 是常数。对于中心化的 MA(q) 模型,方差为:
\[ Var(X_t) = \sigma^2 (1 + \theta_1^2 + \theta_2^2 + \ldots + \theta_q^2) \]
⚝ 自相关函数 (ACF) 和偏自相关函数 (PACF):
▮▮▮▮⚝ MA(q) 模型的 ACF 在滞后阶数 \( q \) 之后截尾 (快速衰减到零)。
▮▮▮▮⚝ MA(q) 模型的 PACF 拖尾 (缓慢衰减)。
MA 模型的模型识别
对于 MA 模型,可以根据 ACF 和 PACF 图进行模型识别:
⚝ 观察 ACF 图,如果 ACF 在滞后阶数 \( q \) 之后快速衰减到零,可以初步判断模型为 MA(q) 模型。
⚝ 结合 PACF 图,MA(q) 模型的 PACF 应该拖尾。
⚝ 可以使用 AIC 和 BIC 等模型选择准则来辅助确定最佳阶数 \( q \)。
MA 模型的参数估计
MA 模型的参数估计是指估计均值 \( \mu \) (如果模型包含均值项)、移动平均系数 \( \theta_1, \theta_2, \ldots, \theta_q \) 和白噪声方差 \( \sigma^2 \)。MA 模型的参数估计比 AR 模型更复杂,因为 MA 模型不是直接的线性回归模型。常用的参数估计方法包括:
⚝ 逆函数法 (Inverse Function Method): 将 MA 模型转换为无限阶的 AR 模型,然后使用 AR 模型的参数估计方法进行近似估计。
⚝ 最小二乘估计 (Least Squares Estimation, LSE): 最小二乘估计也可以用于 MA 模型的参数估计,但需要使用迭代优化算法来最小化残差平方和。
⚝ 最大似然估计 (Maximum Likelihood Estimation, MLE): 最大似然估计是 MA 模型参数估计的常用方法。如果假设白噪声服从正态分布,可以使用 MLE 方法估计参数。MLE 通常需要使用数值优化算法 (如 Newton-Raphson 算法) 来求解。
MA 模型的预测
MA 模型可以用于预测时间序列的未来值。给定已知的历史观测值 \( X_1, X_2, \ldots, X_n \),可以使用 MA(q) 模型预测未来 \( l \) 步的观测值 \( X_{n+l} \)。MA 模型的预测依赖于对未来白噪声 \( \epsilon_{n+1}, \epsilon_{n+2}, \ldots \) 的预测。通常假设未来白噪声的预测值为其期望值 0。一步预测 (one-step-ahead forecast, \( l=1 \)) 的公式为 (对于中心化的 MA(q) 模型):
\[ \hat{X}_{n+1|n} = - \theta_1 \epsilon_{n} - \theta_2 \epsilon_{n-1} - \ldots - \theta_q \epsilon_{n-q+1} \]
为了计算 \( \hat{X}_{n+1|n} \),需要估计过去的白噪声 \( \epsilon_{n}, \epsilon_{n-1}, \ldots, \epsilon_{n-q+1} \)。这可以通过递推 (recursive) 的方式计算。从 \( X_1, X_2, \ldots, X_n \) 和 MA 模型,可以反推出过去的白噪声 \( \epsilon_1, \epsilon_2, \ldots, \epsilon_n \)。多步预测 (multi-step-ahead forecast, \( l > 1 \)) 也可以迭代进行,并假设未来白噪声的预测值为 0。
15.2.3 自回归移动平均模型 (Autoregressive Moving Average Model, ARMA)
自回归移动平均模型 (Autoregressive Moving Average Model, ARMA) 综合了 AR 模型和 MA 模型的特点,用自身过去值和过去白噪声的线性组合来表示当前观测值。ARMA 模型能够更灵活地拟合各种时间序列的依赖结构。ARMA(p, q) 模型 的 формальное (formal) 定义如下:
\[ X_t = c + \phi_1 X_{t-1} + \phi_2 X_{t-2} + \ldots + \phi_p X_{t-p} + \epsilon_t - \theta_1 \epsilon_{t-1} - \theta_2 \epsilon_{t-2} - \ldots - \theta_q \epsilon_{t-q} \]
其中,
⚝ \( X_t \) 是在时间 \( t \) 的观测值。
⚝ \( c \) 是常数项 (constant term)。
⚝ \( \phi_1, \phi_2, \ldots, \phi_p \) 是自回归系数 (autoregressive coefficients)。
⚝ \( p \) 是自回归阶数 (autoregressive order)。
⚝ \( \theta_1, \theta_2, \ldots, \theta_q \) 是移动平均系数 (moving average coefficients)。
⚝ \( q \) 是移动平均阶数 (moving average order)。
⚝ \( \epsilon_t \) 是白噪声过程 (white noise process),通常假设 \( \epsilon_t \sim i.i.d. \; N(0, \sigma^2) \)。
ARMA 模型的特点
⚝ 线性模型: ARMA 模型是线性模型,当前值 \( X_t \) 是过去值 \( X_{t-1}, X_{t-2}, \ldots, X_{t-p} \) 和过去白噪声 \( \epsilon_{t-1}, \epsilon_{t-2}, \ldots, \epsilon_{t-q} \) 的线性函数。
⚝ 自回归和移动平均: ARMA 模型同时具有自回归和移动平均的特点,能够更灵活地捕捉时间序列的依赖结构。
⚝ 阶数 p 和 q: 阶数 \( p \) 和 \( q \) 分别决定了模型使用的过去观测值和过去白噪声信息的长度。
⚝ 参数: ARMA 模型的主要参数是自回归系数 \( \phi_1, \phi_2, \ldots, \phi_p \)、移动平均系数 \( \theta_1, \theta_2, \ldots, \theta_q \) 和白噪声的方差 \( \sigma^2 \)。
ARMA 模型的性质
⚝ 平稳性条件: ARMA(p, q) 模型的平稳性条件只与 AR 部分的系数 \( \phi_1, \phi_2, \ldots, \phi_p \) 有关,与 MA 部分的系数 \( \theta_1, \theta_2, \ldots, \theta_q \) 无关。ARMA(p, q) 模型平稳的条件与 AR(p) 模型平稳的条件相同,即特征方程 \( 1 - \phi_1 z - \phi_2 z^2 - \ldots - \phi_p z^p = 0 \) 的所有根的模都大于 1。
⚝ 可逆性 (Invertibility) 条件: 为了保证 ARMA(p, q) 模型的可逆性 (invertibility),移动平均系数 \( \theta_1, \theta_2, \ldots, \theta_q \) 也需要满足一定的条件。ARMA(p, q) 模型可逆的充要条件 (necessary and sufficient condition) 是逆特征方程 (inverse characteristic equation) \( 1 - \theta_1 z - \theta_2 z^2 - \ldots - \theta_q z^q = 0 \) 的所有根的模都大于 1。可逆性保证了 MA 部分可以表示为无限阶的 AR 部分,使得模型更易于估计和预测。
⚝ 均值: 如果 ARMA(p, q) 模型是平稳的,其均值 \( \mu = E[X_t] \) 是常数。如果 \( c \ne 0 \),则均值 \( \mu \) 可以计算为:
\[ \mu = \frac{c}{1 - \phi_1 - \phi_2 - \ldots - \phi_p} \]
如果 \( c = 0 \),则均值 \( \mu = 0 \)。
⚝ 自相关函数 (ACF) 和偏自相关函数 (PACF):
▮▮▮▮⚝ ARMA(p, q) 模型的 ACF 拖尾 (缓慢衰减)。
▮▮▮▮⚝ ARMA(p, q) 模型的 PACF 拖尾 (缓慢衰减)。
▮▮▮▮⚝ ARMA(p, q) 模型的 ACF 和 PACF 的拖尾性是指数衰减或混合指数衰减和正弦衰减。
ARMA 模型的模型识别
对于 ARMA 模型,模型识别比 AR 和 MA 模型更复杂,因为 ACF 和 PACF 都是拖尾的,无法直接判断阶数 \( p \) 和 \( q \)。常用的模型识别方法包括:
⚝ 观察 ACF 和 PACF 图的拖尾性: ARMA 模型的 ACF 和 PACF 都是拖尾的,但拖尾的形状可能提供一些关于阶数的信息。例如,如果 ACF 的拖尾更快,PACF 的拖尾更慢,可能表明 \( q < p \)。
⚝ 扩展的自相关函数 (Extended Autocorrelation Function, EACF): EACF 是一种更 формальный (formal) 的模型识别工具,可以帮助确定 ARMA 模型的阶数 \( p \) 和 \( q \)。
⚝ 信息准则 (Information Criteria): 使用 AIC 和 BIC 等信息准则,比较不同阶数的 ARMA 模型,选择信息准则值最小的模型。通常需要尝试不同的 \( p \) 和 \( q \) 组合,例如,\( p, q = 0, 1, 2, 3, \ldots \)。
ARMA 模型的参数估计
ARMA 模型的参数估计是指估计常数项 \( c \)、自回归系数 \( \phi_1, \phi_2, \ldots, \phi_p \)、移动平均系数 \( \theta_1, \theta_2, \ldots, \theta_q \) 和白噪声方差 \( \sigma^2 \)。ARMA 模型的参数估计通常使用最大似然估计 (Maximum Likelihood Estimation, MLE) 方法。MLE 需要使用数值优化算法来求解,因为似然函数通常是非线性的。
ARMA 模型的预测
ARMA 模型可以用于预测时间序列的未来值。ARMA 模型的预测方法与 MA 模型类似,也需要递推计算过去的白噪声 \( \epsilon_t \)。一步预测 (one-step-ahead forecast) 和多步预测 (multi-step-ahead forecast) 都可以迭代进行,并假设未来白噪声的预测值为 0。ARMA 模型的预测精度通常比 AR 和 MA 模型更高,因为 ARMA 模型更灵活地捕捉了时间序列的依赖结构。
15.2.4 模型参数估计与预测 (Parameter Estimation and Forecasting)
在选择合适的时间序列模型 (如 AR、MA、ARMA) 后,需要进行模型参数估计 (parameter estimation) 和 预测 (forecasting)。本节简要介绍模型参数估计和预测的常用方法。
① 模型参数估计
模型参数估计的目标是根据观测到的时间序列数据 \( \{x_1, x_2, \ldots, x_n\} \),估计模型中的未知参数。不同的模型有不同的参数估计方法。
⚝ AR 模型:
▮▮▮▮⚝ 最小二乘估计 (LSE): 对于 AR(p) 模型,可以使用 OLS 方法估计自回归系数 \( \phi_1, \phi_2, \ldots, \phi_p \) 和常数项 \( c \)。
▮▮▮▮⚝ Yule-Walker 估计: 使用 Yule-Walker 方程和样本自相关函数估计参数。
▮▮▮▮⚝ 最大似然估计 (MLE): 假设白噪声服从正态分布,使用 MLE 方法估计参数。
⚝ MA 模型:
▮▮▮▮⚝ 逆函数法: 近似将 MA 模型转换为 AR 模型,然后使用 AR 模型的参数估计方法。
▮▮▮▮⚝ 最小二乘估计 (LSE): 使用迭代优化算法最小化残差平方和。
▮▮▮▮⚝ 最大似然估计 (MLE): 假设白噪声服从正态分布,使用 MLE 方法,通常需要数值优化算法。
⚝ ARMA 模型:
▮▮▮▮⚝ 最大似然估计 (MLE): ARMA 模型的参数估计通常使用 MLE 方法,需要数值优化算法。
在实际应用中,统计软件 (如 R, Python) 提供了方便的函数 (如 arima()
函数) 来进行 ARMA 模型的参数估计,用户无需自己编写复杂的优化算法。
② 预测
时间序列预测的目标是根据已知的历史数据,预测未来的观测值。不同的模型有不同的预测方法。
⚝ AR 模型:
▮▮▮▮⚝ 一步预测: 使用模型方程,用已知的过去值预测下一步的值。
▮▮▮▮⚝ 多步预测: 迭代进行一步预测,用预测值代替未知真值,进行更远期的预测。预测精度会随着预测步数的增加而降低。
⚝ MA 模型:
▮▮▮▮⚝ 一步预测: 需要递推计算过去的白噪声,然后使用模型方程进行预测。
▮▮▮▮⚝ 多步预测: 迭代进行一步预测,并假设未来白噪声的预测值为 0。
⚝ ARMA 模型:
▮▮▮▮⚝ 一步预测和多步预测: 方法与 MA 模型类似,需要递推计算过去的白噪声,并使用模型方程进行预测。
预测的精度通常用预测误差 (forecast error) 的指标来衡量,例如,均方根误差 (Root Mean Squared Error, RMSE)、平均绝对误差 (Mean Absolute Error, MAE) 等。在实际应用中,可以使用样本内预测 (in-sample forecast) 和 样本外预测 (out-of-sample forecast) 来评估模型的预测性能。样本外预测 更能反映模型的实际预测能力。
15.3 时间序列分析的应用 (Applications of Time Series Analysis)
时间序列分析在各个领域都有广泛的应用,本节简要介绍时间序列分析在经济预测和金融分析中的应用。
15.3.1 时间序列分析在经济预测中的应用 (Applications in Economic Forecasting)
经济预测 (economic forecasting) 是时间序列分析的一个重要应用领域。经济数据通常以时间序列的形式呈现,例如,GDP、通货膨胀率、失业率、消费支出、投资、进出口额等。时间序列分析模型可以用于:
⚝ 宏观经济预测: 预测 GDP 增长率、通货膨胀率、失业率等宏观经济指标,为政府和企业决策提供参考。例如,ARIMA 模型 (Autoregressive Integrated Moving Average Model) 及其变体 (如 季节性 ARIMA 模型 (SARIMA)) 广泛应用于宏观经济预测。
⚝ 微观经济预测: 预测企业销售额、利润、成本、库存、市场份额等微观经济指标,为企业经营管理提供支持。例如,零售业可以使用时间序列模型预测未来销售额,优化库存管理和人员排班。
⚝ 需求预测: 预测产品或服务的需求量,为生产计划、库存管理、供应链管理等提供依据。例如,电力公司可以使用时间序列模型预测未来电力需求,优化发电计划。
⚝ 价格预测: 预测商品价格、股票价格、房价等,为投资者和消费者提供信息。例如,农产品市场可以使用时间序列模型预测农产品价格波动。
案例:GDP 增长率预测
假设我们有一国过去若干年的 GDP 增长率时间序列数据 \( \{g_t\} \)。我们可以使用 ARMA 模型对 GDP 增长率进行建模和预测。步骤如下:
- 数据预处理: 检查 GDP 增长率序列的平稳性。如果序列非平稳,进行差分平稳化处理。
- 模型识别: 绘制平稳化后的 GDP 增长率序列的 ACF 和 PACF 图,初步判断 ARMA 模型的阶数 \( p \) 和 \( q \)。可以使用 EACF 和信息准则辅助模型识别。
- 参数估计: 使用 MLE 方法估计 ARMA(p, q) 模型的参数。
- 模型检验: 检验模型的残差是否为白噪声,以及模型参数的显著性。如果模型不合适,返回步骤 2,重新选择模型阶数或模型类型。
- 预测: 使用拟合好的 ARMA 模型预测未来 GDP 增长率。评估预测精度,并根据需要进行模型改进。
15.3.2 时间序列分析在金融分析中的应用 (Applications in Financial Analysis)
金融分析 (financial analysis) 是时间序列分析的另一个重要应用领域。金融市场数据 (如股票价格、指数、利率、汇率等) 具有典型的时间序列特征。时间序列分析模型可以用于:
⚝ 股票价格预测: 预测股票价格的未来走势,为投资者提供交易决策支持。虽然股票价格预测非常困难,但时间序列模型 (如 GARCH 模型 (Generalized Autoregressive Conditional Heteroskedasticity)) 可以用于捕捉股票价格的波动性特征。
⚝ 风险管理: 评估金融资产的风险,例如,VaR (Value at Risk) 和 ES (Expected Shortfall) 等风险度量可以使用时间序列模型进行估计。
⚝ 投资组合管理: 构建和优化投资组合,例如,均值-方差模型 (Mean-Variance Model) 和 Black-Litterman 模型 (Black-Litterman Model) 可以结合时间序列模型预测资产收益率和风险。
⚝ 套利交易: 寻找市场中的套利机会,例如,配对交易 (Pairs Trading) 策略可以使用时间序列模型分析资产价格之间的协整关系。
⚝ 高频交易: 在高频交易领域,时间序列模型可以用于分析市场微观结构,捕捉短期价格波动规律。
案例:股票价格波动性预测
股票价格波动性 (volatility) 是金融市场风险的重要指标。GARCH 模型 (Generalized Autoregressive Conditional Heteroskedasticity) 是一种专门用于建模和预测波动性的时间序列模型。GARCH 模型假设波动率本身是随时间变化的,并且具有自相关性。GARCH(p, q) 模型 формально (formally) 定义为:
\[ \begin{aligned} r_t &= \mu_t + a_t \\ a_t &= \sigma_t \epsilon_t \\ \sigma_t^2 &= \alpha_0 + \sum_{i=1}^{q} \alpha_i a_{t-i}^2 + \sum_{j=1}^{p} \beta_j \sigma_{t-j}^2 \end{aligned} \]
其中,
⚝ \( r_t \) 是股票收益率 (return) 或价格对数收益率。
⚝ \( \mu_t \) 是条件均值 (conditional mean),可以假设为常数或更复杂的模型 (如 ARMA 模型)。
⚝ \( a_t \) 是均值方程的残差 (residual)。
⚝ \( \sigma_t^2 \) 是条件方差 (conditional variance),即波动率的平方。
⚝ \( \epsilon_t \) 是标准正态分布的白噪声。
⚝ \( \alpha_0, \alpha_i, \beta_j \) 是模型参数,需要满足一定的非负性和平稳性条件。
GARCH 模型可以捕捉股票价格波动率的聚集效应 (volatility clustering) (即高波动率时期和低波动率时期往往会持续存在) 和 杠杆效应 (leverage effect) (即价格下跌通常比价格上涨更容易引起波动率上升)。GARCH 模型及其变体 (如 EGARCH 模型 (Exponential GARCH), TGARCH 模型 (Threshold GARCH)) 广泛应用于金融风险管理和衍生品定价。
时间序列分析在经济预测和金融分析等领域发挥着重要作用。随着数据量的增加和计算能力的提升,更复杂的时间序列模型和方法不断涌现,为我们理解和预测时间序列数据提供了强有力的工具。
Appendix A: 数学基础知识回顾 (Review of Mathematical Foundations)
Appendix A1: 微积分 (Calculus)
本节回顾微积分 (Calculus) 中的基本概念和定理,这些知识是理解概率论、数理统计和随机过程的数学基础。概率统计与随机过程大量使用了微积分的概念和方法,例如积分用于计算连续型随机变量的概率和期望,微分用于分析随机过程的性质。
Appendix A1.1: 函数与极限 (Functions and Limits)
函数 (Function) 是微积分的基本研究对象。在概率统计中,概率密度函数、分布函数等都是重要的函数。极限 (Limit) 是微积分的基石,导数和积分的定义都依赖于极限的概念。
▮ ① 函数 (Function):
▮▮▮▮ⓐ 定义:函数 \( f \) 是从一个集合 \( D \) (定义域) 到另一个集合 \( C \) (值域) 的映射,对于 \( D \) 中的每个元素 \( x \),在 \( C \) 中都有唯一的元素 \( f(x) \) 与之对应。
▮▮▮▮ⓑ 常见函数类型:
▮▮▮▮▮▮▮▮❸ 多项式函数 (Polynomial Function):如 \( f(x) = ax^2 + bx + c \)。
▮▮▮▮▮▮▮▮❹ 三角函数 (Trigonometric Function):如 \( \sin(x), \cos(x), \tan(x) \)。
▮▮▮▮▮▮▮▮❺ 指数函数 (Exponential Function):如 \( f(x) = e^x, a^x \)。
▮▮▮▮▮▮▮▮❻ 对数函数 (Logarithmic Function):如 \( f(x) = \ln(x), \log_a(x) \)。
▮ ② 极限 (Limit):
▮▮▮▮ⓐ 定义:
▮▮▮▮▮▮▮▮❷ 数列极限:对于数列 \( \{a_n\} \),如果当 \( n \rightarrow \infty \) 时,\( a_n \) 无限接近于某个常数 \( L \),则称数列 \( \{a_n\} \) 的极限为 \( L \),记作 \( \lim_{n \rightarrow \infty} a_n = L \)。
▮▮▮▮▮▮▮▮❸ 函数极限:对于函数 \( f(x) \),如果当 \( x \) 无限接近于某个值 \( x_0 \) 时,\( f(x) \) 无限接近于某个常数 \( A \),则称函数 \( f(x) \) 在 \( x_0 \) 处的极限为 \( A \),记作 \( \lim_{x \rightarrow x_0} f(x) = A \)。
▮▮▮▮ⓓ 极限的性质:
▮▮▮▮▮▮▮▮❺ 唯一性:若极限存在,则极限唯一。
▮▮▮▮▮▮▮▮❻ 四则运算:若 \( \lim_{x \rightarrow x_0} f(x) = A \) 且 \( \lim_{x \rightarrow x_0} g(x) = B \),则
\[ \lim_{x \rightarrow x_0} [f(x) \pm g(x)] = A \pm B, \quad \lim_{x \rightarrow x_0} [f(x) \cdot g(x)] = A \cdot B, \quad \lim_{x \rightarrow x_0} \frac{f(x)}{g(x)} = \frac{A}{B} \quad (B \neq 0) \]
Appendix A1.2: 导数与微分 (Derivatives and Differentials)
导数 (Derivative) 描述函数的变化率,微分 (Differential) 是函数变化的线性近似。在概率统计中,例如在最大似然估计中,常常需要求导数来寻找函数的极值。
▮ ① 导数 (Derivative):
▮▮▮▮ⓐ 定义:函数 \( f(x) \) 在点 \( x_0 \) 处的导数定义为极限
\[ f'(x_0) = \lim_{\Delta x \rightarrow 0} \frac{f(x_0 + \Delta x) - f(x_0)}{\Delta x} = \lim_{x \rightarrow x_0} \frac{f(x) - f(x_0)}{x - x_0} \]
导数 \( f'(x_0) \) 表示函数 \( f(x) \) 在点 \( x_0 \) 处的变化率,也即函数曲线在点 \( (x_0, f(x_0)) \) 处的切线斜率。
▮▮▮▮ⓑ 基本求导法则:
▮▮▮▮▮▮▮▮❷ 常数法则:\( (c)' = 0 \) (其中 \( c \) 为常数)。
▮▮▮▮▮▮▮▮❸ 幂法则:\( (x^n)' = nx^{n-1} \)。
▮▮▮▮▮▮▮▮❹ 线性法则:\( (af(x) + bg(x))' = af'(x) + bg'(x) \) (其中 \( a, b \) 为常数)。
▮▮▮▮▮▮▮▮❺ 乘法法则 (Product Rule):\( (f(x)g(x))' = f'(x)g(x) + f(x)g'(x) \)。
▮▮▮▮▮▮▮▮❻ 除法法则 (Quotient Rule):\( \left(\frac{f(x)}{g(x)}\right)' = \frac{f'(x)g(x) - f(x)g'(x)}{[g(x)]^2} \)。
▮▮▮▮▮▮▮▮❼ 链式法则 (Chain Rule):\( (f(g(x)))' = f'(g(x))g'(x) \)。
▮ ② 微分 (Differential):
▮▮▮▮ⓐ 定义:函数 \( y = f(x) \) 的微分 \( dy \) 定义为 \( dy = f'(x) dx \),其中 \( dx = \Delta x \) 是自变量的微分,\( dy \) 是函数增量 \( \Delta y = f(x+\Delta x) - f(x) \) 的线性近似。
Appendix A1.3: 积分 (Integrals)
积分 (Integral) 是微分的逆运算,用于计算曲线下的面积、函数的累积量等。在概率统计中,积分是计算概率、期望、矩等的重要工具。
▮ ① 不定积分 (Indefinite Integral):
▮▮▮▮ⓐ 定义:如果 \( F'(x) = f(x) \),则称 \( F(x) \) 为 \( f(x) \) 的一个原函数或不定积分,记作 \( \int f(x) dx = F(x) + C \),其中 \( C \) 为积分常数。
▮▮▮▮ⓑ 基本积分公式:
▮▮▮▮▮▮▮▮❸ \( \int x^n dx = \frac{x^{n+1}}{n+1} + C \) ( \( n \neq -1 \) )。
▮▮▮▮▮▮▮▮❹ \( \int \frac{1}{x} dx = \ln|x| + C \)。
▮▮▮▮▮▮▮▮❺ \( \int e^x dx = e^x + C \)。
▮▮▮▮▮▮▮▮❻ \( \int \sin(x) dx = -\cos(x) + C \)。
▮▮▮▮▮▮▮▮❼ \( \int \cos(x) dx = \sin(x) + C \)。
▮ ② 定积分 (Definite Integral):
▮▮▮▮ⓐ 定义:对于函数 \( f(x) \) 在区间 \( [a, b] \) 上的定积分 \( \int_a^b f(x) dx \) 可以理解为曲线 \( y = f(x) \)、直线 \( x = a \)、\( x = b \) 以及 \( x \) 轴所围成的曲边梯形的面积(有符号面积)。
▮▮▮▮ⓑ 牛顿-莱布尼茨公式 (Newton-Leibniz Formula):若 \( F'(x) = f(x) \),则
\[ \int_a^b f(x) dx = F(b) - F(a) \]
▮▮▮▮ⓒ 换元积分法 (Integration by Substitution) 和 分部积分法 (Integration by Parts) 是常用的积分技巧。
▮ ③ 多重积分 (Multiple Integrals):
▮▮▮▮ⓐ 二重积分 (Double Integral):用于计算曲面下的体积,以及在二维区域上的积分。
▮▮▮▮ⓑ 三重积分 (Triple Integral):用于计算三维区域的体积,以及在三维区域上的积分。
▮▮▮▮ⓒ 多重积分在概率统计中用于计算多维随机变量的概率和期望。
Appendix A1.4: 级数 (Series)
级数 (Series) 是无限项的和,在概率论中,例如在生成函数和特征函数的理论中,级数展开是重要的工具。
▮ ① 数列级数 (Series of Numbers):
▮▮▮▮ⓐ 定义:给定数列 \( \{a_n\} \),形式和 \( \sum_{n=1}^{\infty} a_n = a_1 + a_2 + a_3 + \cdots \) 称为无穷级数,简称级数。
▮▮▮▮ⓑ 收敛与发散 (Convergence and Divergence):如果部分和数列 \( S_n = \sum_{k=1}^{n} a_k \) 的极限 \( \lim_{n \rightarrow \infty} S_n = S \) 存在,则称级数 \( \sum_{n=1}^{\infty} a_n \) 收敛,并称 \( S \) 为级数的和;否则称级数发散。
▮▮▮▮ⓒ 常用收敛性判别法:
▮▮▮▮▮▮▮▮❹ 比值判别法 (Ratio Test)。
▮▮▮▮▮▮▮▮❺ 根值判别法 (Root Test)。
▮▮▮▮▮▮▮▮❻ 积分判别法 (Integral Test)。
▮ ② 函数项级数 (Series of Functions):
▮▮▮▮ⓐ 幂级数 (Power Series):形如 \( \sum_{n=0}^{\infty} c_n (x - x_0)^n \) 的级数称为幂级数。泰勒级数 (Taylor Series) 和麦克劳林级数 (Maclaurin Series) 是重要的幂级数。
▮▮▮▮ⓑ 泰勒公式 (Taylor's Formula):函数 \( f(x) \) 在点 \( x_0 \) 处的泰勒展开式为
\[ f(x) = \sum_{n=0}^{\infty} \frac{f^{(n)}(x_0)}{n!} (x - x_0)^n = f(x_0) + f'(x_0)(x - x_0) + \frac{f''(x_0)}{2!}(x - x_0)^2 + \cdots \]
当 \( x_0 = 0 \) 时,称为麦克劳林公式。
▮▮▮▮ⓒ 常见的泰勒展开式:
▮▮▮▮▮▮▮▮❷ \( e^x = \sum_{n=0}^{\infty} \frac{x^n}{n!} = 1 + x + \frac{x^2}{2!} + \frac{x^3}{3!} + \cdots \)。
▮▮▮▮▮▮▮▮❸ \( \sin(x) = \sum_{n=0}^{\infty} \frac{(-1)^n}{(2n+1)!} x^{2n+1} = x - \frac{x^3}{3!} + \frac{x^5}{5!} - \cdots \)。
▮▮▮▮▮▮▮▮❹ \( \cos(x) = \sum_{n=0}^{\infty} \frac{(-1)^n}{(2n)!} x^{2n} = 1 - \frac{x^2}{2!} + \frac{x^4}{4!} - \cdots \)。
▮▮▮▮▮▮▮▮❺ \( \ln(1+x) = \sum_{n=1}^{\infty} \frac{(-1)^{n-1}}{n} x^n = x - \frac{x^2}{2} + \frac{x^3}{3} - \cdots \)。
▮▮▮▮▮▮▮▮❻ \( (1+x)^{\alpha} = \sum_{n=0}^{\infty} \binom{\alpha}{n} x^n = 1 + \alpha x + \frac{\alpha(\alpha-1)}{2!}x^2 + \cdots \)。
Appendix A2: 线性代数 (Linear Algebra)
线性代数 (Linear Algebra) 主要研究向量、矩阵、线性方程组和线性变换。在概率统计和随机过程中,线性代数被广泛应用于多维随机变量的分析、多元统计分析、马尔可夫链的状态转移等方面。
Appendix A2.1: 向量与向量空间 (Vectors and Vector Spaces)
向量 (Vector) 是线性代数的基本概念,向量空间 (Vector Space) 是向量的集合,定义了向量加法和标量乘法运算。
▮ ① 向量 (Vector):
▮▮▮▮ⓐ 定义:向量是一个有大小和方向的量,可以用有序数组表示。例如,二维向量可以表示为 \( \mathbf{v} = \begin{pmatrix} x \\ y \end{pmatrix} \),三维向量可以表示为 \( \mathbf{v} = \begin{pmatrix} x \\ y \\ z \end{pmatrix} \),\( n \) 维向量可以表示为 \( \mathbf{v} = \begin{pmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{pmatrix} \)。
▮▮▮▮ⓑ 向量运算:
▮▮▮▮▮▮▮▮❸ 向量加法 (Vector Addition): \( \mathbf{u} + \mathbf{v} = \begin{pmatrix} u_1 + v_1 \\ u_2 + v_2 \\ \vdots \\ u_n + v_n \end{pmatrix} \)。
▮▮▮▮▮▮▮▮❹ 标量乘法 (Scalar Multiplication): \( c \mathbf{v} = \begin{pmatrix} c v_1 \\ c v_2 \\ \vdots \\ c v_n \end{pmatrix} \)。
▮▮▮▮▮▮▮▮❺ 点积 (Dot Product or Inner Product):对于两个向量 \( \mathbf{u} = \begin{pmatrix} u_1 \\ u_2 \\ \vdots \\ u_n \end{pmatrix} \) 和 \( \mathbf{v} = \begin{pmatrix} v_1 \\ v_2 \\ \vdots \\ v_n \end{pmatrix} \),其点积为 \( \mathbf{u} \cdot \mathbf{v} = \sum_{i=1}^{n} u_i v_i \)。
▮ ② 向量空间 (Vector Space):
▮▮▮▮ⓐ 定义:向量空间 \( V \) 是一个向量的集合,满足向量加法和标量乘法运算封闭,且满足一定的公理(如结合律、交换律、分配律等)。
▮▮▮▮ⓑ 线性相关与线性无关 (Linear Dependence and Linear Independence):一组向量 \( \{\mathbf{v}_1, \mathbf{v}_2, \dots, \mathbf{v}_k\} \) 是线性相关的,如果存在不全为零的标量 \( c_1, c_2, \dots, c_k \) 使得 \( \sum_{i=1}^{k} c_i \mathbf{v}_i = \mathbf{0} \)。否则,称这组向量线性无关。
▮▮▮▮ⓒ 基与维数 (Basis and Dimension):向量空间 \( V \) 的基是一组线性无关的向量,它们可以线性组合表示 \( V \) 中任意向量。基中向量的个数称为向量空间的维数。
Appendix A2.2: 矩阵与矩阵运算 (Matrices and Matrix Operations)
矩阵 (Matrix) 是线性代数中重要的工具,用于表示线性变换、存储数据等。在概率统计中,协方差矩阵、转移概率矩阵等都是重要的矩阵。
▮ ① 矩阵 (Matrix):
▮▮▮▮ⓐ 定义:矩阵是由数字按矩形排列成的数表,一个 \( m \times n \) 矩阵 \( A \) 表示为
\[ A = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix} \]
其中 \( a_{ij} \) 表示矩阵 \( A \) 的第 \( i \) 行第 \( j \) 列的元素。
▮▮▮▮ⓑ 特殊矩阵:
▮▮▮▮▮▮▮▮❷ 方阵 (Square Matrix):行数等于列数的矩阵。
▮▮▮▮▮▮▮▮❸ 单位矩阵 (Identity Matrix):对角线元素为 1,其余元素为 0 的方阵,记作 \( I \) 或 \( E \)。
▮▮▮▮▮▮▮▮❹ 零矩阵 (Zero Matrix):所有元素都为 0 的矩阵,记作 \( O \)。
▮▮▮▮▮▮▮▮❺ 对角矩阵 (Diagonal Matrix):非对角线元素都为 0 的方阵。
▮▮▮▮▮▮▮▮❻ 对称矩阵 (Symmetric Matrix):满足 \( A^T = A \) 的方阵,即 \( a_{ij} = a_{ji} \)。
▮ ② 矩阵运算 (Matrix Operations):
▮▮▮▮ⓐ 矩阵加法 (Matrix Addition) 和 标量乘法 (Scalar Multiplication):与向量类似,对应元素相加或数乘。
▮▮▮▮ⓑ 矩阵乘法 (Matrix Multiplication):若 \( A \) 是 \( m \times p \) 矩阵,\( B \) 是 \( p \times n \) 矩阵,则矩阵乘积 \( C = AB \) 是 \( m \times n \) 矩阵,其元素 \( c_{ij} = \sum_{k=1}^{p} a_{ik} b_{kj} \)。
▮▮▮▮ⓒ 矩阵转置 (Matrix Transpose):矩阵 \( A \) 的转置 \( A^T \) 是将 \( A \) 的行变成列,列变成行得到的矩阵。
▮▮▮▮ⓓ 逆矩阵 (Inverse Matrix):对于方阵 \( A \),如果存在方阵 \( A^{-1} \) 使得 \( AA^{-1} = A^{-1}A = I \),则称 \( A^{-1} \) 为 \( A \) 的逆矩阵。只有行列式不为零的方阵才存在逆矩阵。
Appendix A2.3: 行列式与特征值 (Determinants and Eigenvalues)
行列式 (Determinant) 是方阵的一个数值特征,特征值 (Eigenvalue) 和特征向量 (Eigenvector) 描述了线性变换的特性。
▮ ① 行列式 (Determinant):
▮▮▮▮ⓐ 定义:行列式是方阵的一个标量值函数,记作 \( \det(A) \) 或 \( |A| \)。对于 \( 2 \times 2 \) 矩阵 \( A = \begin{pmatrix} a & b \\ c & d \end{pmatrix} \),其行列式为 \( \det(A) = ad - bc \)。对于更高阶矩阵,行列式的定义较为复杂,可以通过展开定理或初等变换计算。
▮▮▮▮ⓑ 性质:
▮▮▮▮▮▮▮▮❸ \( \det(A^T) = \det(A) \)。
▮▮▮▮▮▮▮▮❹ \( \det(AB) = \det(A) \det(B) \)。
▮▮▮▮▮▮▮▮❺ 若矩阵某两行(或两列)互换,行列式反号。
▮▮▮▮▮▮▮▮❻ 若矩阵某行(或列)乘以常数 \( c \),行列式也乘以 \( c \)。
▮▮▮▮▮▮▮▮❼ 若矩阵某两行(或两列)成比例或相等,行列式为零。
▮▮▮▮ⓗ 应用:行列式用于判断矩阵是否可逆(行列式非零时可逆),求解线性方程组等。
▮ ② 特征值与特征向量 (Eigenvalues and Eigenvectors):
▮▮▮▮ⓐ 定义:对于方阵 \( A \),如果存在非零向量 \( \mathbf{v} \) 和标量 \( \lambda \) 使得 \( A\mathbf{v} = \lambda \mathbf{v} \),则称 \( \lambda \) 为矩阵 \( A \) 的一个特征值,\( \mathbf{v} \) 为对应于特征值 \( \lambda \) 的特征向量。
▮▮▮▮ⓑ 特征方程:特征值 \( \lambda \) 可以通过解特征方程 \( \det(A - \lambda I) = 0 \) 得到。
▮▮▮▮ⓒ 应用:特征值和特征向量在马尔可夫链的极限分布、主成分分析 (Principal Component Analysis, PCA) 等领域有重要应用。
Appendix A2.4: 线性方程组 (System of Linear Equations)
线性方程组 (System of Linear Equations) 是线性代数的核心内容之一,在很多领域都有应用。
▮ ① 定义:线性方程组是由若干个关于未知量的线性方程组成的方程组,一般形式为
\[ \begin{cases} a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n = b_1 \\ a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n = b_2 \\ \vdots \\ a_{m1}x_1 + a_{m2}x_2 + \cdots + a_{mn}x_n = b_m \end{cases} \]
可以写成矩阵形式 \( A\mathbf{x} = \mathbf{b} \),其中 \( A = (a_{ij}) \) 是系数矩阵,\( \mathbf{x} = \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} \) 是未知向量,\( \mathbf{b} = \begin{pmatrix} b_1 \\ b_2 \\ \vdots \\ b_m \end{pmatrix} \) 是常数向量。
▮ ② 解法:
▮▮▮▮ⓐ 高斯消元法 (Gaussian Elimination):通过初等行变换将增广矩阵化为阶梯形矩阵或简化阶梯形矩阵,从而求解方程组。
▮▮▮▮ⓑ 克拉默法则 (Cramer's Rule):当系数矩阵 \( A \) 可逆时,可以用行列式求解方程组的唯一解。
▮▮▮▮ⓒ 解的类型:线性方程组可能有唯一解、无解或无穷多解,解的类型取决于系数矩阵 \( A \) 和增广矩阵的秩。
Appendix A3: 集合论 (Set Theory)
集合论 (Set Theory) 是现代数学的基础语言,提供了描述和处理集合及其运算的框架。在概率论中,样本空间、事件等概念都基于集合论。
Appendix A3.1: 集合的基本概念 (Basic Concepts of Sets)
集合 (Set) 是一组对象的全体,对象称为元素 (Element)。
▮ ① 集合 (Set):
▮▮▮▮ⓐ 定义:集合是由一些确定的、彼此不同的对象汇集而成的整体。例如,自然数集合 \( \mathbb{N} = \{1, 2, 3, \dots\} \),实数集合 \( \mathbb{R} \)。
▮▮▮▮ⓑ 集合的表示方法:
▮▮▮▮▮▮▮▮❸ 列举法 (Roster Method):如 \( A = \{a, b, c\} \)。
▮▮▮▮▮▮▮▮❹ 描述法 (Set-builder Notation):如 \( B = \{x \mid x \text{ 是正偶数}\} \)。
▮▮▮▮ⓔ 常用集合:
▮▮▮▮▮▮▮▮❻ 自然数集 \( \mathbb{N} \) (或 \( \mathbb{Z}^+ \)):正整数集合 \( \{1, 2, 3, \dots\} \)。
▮▮▮▮▮▮▮▮❼ 整数集 \( \mathbb{Z} \):全体整数集合 \( \{\dots, -2, -1, 0, 1, 2, \dots\} \)。
▮▮▮▮▮▮▮▮❽ 有理数集 \( \mathbb{Q} \):可以表示成分数的数集合 \( \{p/q \mid p, q \in \mathbb{Z}, q \neq 0\} \)。
▮▮▮▮▮▮▮▮❾ 实数集 \( \mathbb{R} \):全体实数集合。
▮▮▮▮▮▮▮▮❿ 复数集 \( \mathbb{C} \):全体复数集合。
▮ ② 元素与集合的关系:
▮▮▮▮ⓐ 属于关系:若元素 \( a \) 是集合 \( A \) 的元素,记作 \( a \in A \)。若元素 \( b \) 不是集合 \( A \) 的元素,记作 \( b \notin A \)。
▮▮▮▮ⓑ 子集与包含关系:若集合 \( A \) 的所有元素都是集合 \( B \) 的元素,则称 \( A \) 是 \( B \) 的子集,记作 \( A \subseteq B \) 或 \( B \supseteq A \)。若 \( A \subseteq B \) 且 \( A \neq B \),则称 \( A \) 是 \( B \) 的真子集,记作 \( A \subsetneq B \) 或 \( B \supsetneq A \)。
▮▮▮▮ⓒ 空集 (Empty Set):不包含任何元素的集合,记作 \( \emptyset \)。空集是任何集合的子集。
Appendix A3.2: 集合的运算 (Set Operations)
集合的运算包括并集、交集、补集等,用于构建新的集合。
▮ ① 并集 (Union):
▮▮▮▮ⓐ 定义:集合 \( A \) 和 \( B \) 的并集 \( A \cup B \) 是由所有属于 \( A \) 或属于 \( B \) 的元素组成的集合,即 \( A \cup B = \{x \mid x \in A \text{ 或 } x \in B\} \)。
▮ ② 交集 (Intersection):
▮▮▮▮ⓐ 定义:集合 \( A \) 和 \( B \) 的交集 \( A \cap B \) 是由所有既属于 \( A \) 又属于 \( B \) 的元素组成的集合,即 \( A \cap B = \{x \mid x \in A \text{ 且 } x \in B\} \)。
▮ ③ 补集 (Complement):
▮▮▮▮ⓐ 定义:在全集 \( U \) 下,集合 \( A \) 的补集 \( A^c \) (或 \( \overline{A} \) 或 \( \complement_U A \)) 是由所有属于 \( U \) 但不属于 \( A \) 的元素组成的集合,即 \( A^c = \{x \mid x \in U \text{ 且 } x \notin A\} = U \setminus A \)。
▮ ④ 差集 (Difference):
▮▮▮▮ⓐ 定义:集合 \( A \) 和 \( B \) 的差集 \( A \setminus B \) 是由所有属于 \( A \) 但不属于 \( B \) 的元素组成的集合,即 \( A \setminus B = \{x \mid x \in A \text{ 且 } x \notin B\} = A \cap B^c \)。
▮ ⑤ 笛卡尔积 (Cartesian Product):
▮▮▮▮ⓐ 定义:集合 \( A \) 和 \( B \) 的笛卡尔积 \( A \times B \) 是由所有有序对 \( (a, b) \) 组成的集合,其中 \( a \in A, b \in B \),即 \( A \times B = \{(a, b) \mid a \in A, b \in B\} \)。
Appendix A3.3: 集合的运算律 (Laws of Set Operations)
集合的运算满足一些基本的运算律,这些运算律在化简集合表达式、证明集合等式时非常有用。
▮ ① 交换律 (Commutative Laws):
▮▮▮▮ⓐ \( A \cup B = B \cup A \)。
▮▮▮▮ⓑ \( A \cap B = B \cap A \)。
▮ ② 结合律 (Associative Laws):
▮▮▮▮ⓐ \( (A \cup B) \cup C = A \cup (B \cup C) \)。
▮▮▮▮ⓑ \( (A \cap B) \cap C = A \cap (B \cap C) \)。
▮ ③ 分配律 (Distributive Laws):
▮▮▮▮ⓐ \( A \cup (B \cap C) = (A \cup B) \cap (A \cup C) \)。
▮▮▮▮ⓑ \( A \cap (B \cup C) = (A \cap B) \cup (A \cap C) \)。
▮ ④ 德摩根律 (De Morgan's Laws):
▮▮▮▮ⓐ \( (A \cup B)^c = A^c \cap B^c \)。
▮▮▮▮ⓑ \( (A \cap B)^c = A^c \cup B^c \)。
▮ ⑤ 其他常用等式:
▮▮▮▮ⓐ \( A \cup A = A \), \( A \cap A = A \) (幂等律)。
▮▮▮▮ⓑ \( A \cup \emptyset = A \), \( A \cap \emptyset = \emptyset \)。
▮▮▮▮ⓒ \( A \cup U = U \), \( A \cap U = A \) (其中 \( U \) 为全集)。
▮▮▮▮ⓓ \( A \cup A^c = U \), \( A \cap A^c = \emptyset \)。
▮▮▮▮ⓔ \( (A^c)^c = A \) (双重否定律)。
掌握这些数学基础知识,将有助于读者更好地理解和应用本书中介绍的概率论、数理统计和随机过程的理论与方法。
Appendix B: 常用概率分布表 (Tables of Common Probability Distributions)
Appendix B1: 离散型概率分布 (Discrete Probability Distributions)
名称 (Name) | 记号 (Notation) | 概率质量函数 (Probability Mass Function, PMF) | 支撑集 (Support) | 期望 (Mean) \(E[X]\) | 方差 (Variance) \(Var[X]\) | 典型应用 (Typical Applications) |
---|---|---|---|---|---|---|
伯努利分布 (Bernoulli Distribution) | \(Bern(p)\) 或 \(B(1, p)\) | \(P(X=k) = p^k (1-p)^{1-k}\), \(k=0, 1\) | \(\{0, 1\}\) | \(p\) | \(p(1-p)\) | 单次试验的成功与失败,例如:抛硬币的结果。 (Outcome of a single trial, e.g., coin flip.) |
二点分布 (Two-Point Distribution) | \(DP(p_1, p_2; x_1, x_2)\) | \(P(X=x_i) = p_i\), \(i=1, 2\), \(p_1 + p_2 = 1\) | \(\{x_1, x_2\}\) | \(p_1x_1 + p_2x_2\) | \(p_1p_2(x_1-x_2)^2\) | 描述只有两个可能结果的随机变量。 (Describing a random variable with only two possible outcomes.) |
二项分布 (Binomial Distribution) | \(Bin(n, p)\) 或 \(B(n, p)\) | \(P(X=k) = \binom{n}{k} p^k (1-p)^{n-k}\), \(k=0, 1, \dots, n\) | \(\{0, 1, \dots, n\}\) | \(np\) | \(np(1-p)\) | \(n\) 次独立伯努利试验中成功的次数,例如:\(n\) 次抛硬币正面朝上的次数。(Number of successes in \(n\) independent Bernoulli trials, e.g., number of heads in \(n\) coin flips.) |
泊松分布 (Poisson Distribution) | \(Pois(\lambda)\) | \(P(X=k) = \frac{e^{-\lambda} \lambda^k}{k!}\), \(k=0, 1, 2, \dots\) | \(\{0, 1, 2, \dots\}\) | \(\lambda\) | \(\lambda\) | 单位时间或空间内稀有事件发生的次数,例如:某时间段内到达服务台的顾客数。(Number of rare events occurring in a unit of time or space, e.g., number of customers arriving at a service desk in a given time interval.) |
几何分布 (Geometric Distribution) | \(Geom(p)\) (描述失败次数) 或 \(Geom_1(p)\) (描述试验次数) | \(P(X=k) = (1-p)^k p\), \(k=0, 1, 2, \dots\) (失败次数); \(P(X=k) = (1-p)^{k-1} p\), \(k=1, 2, 3, \dots\) (试验次数) | \(\{0, 1, 2, \dots\}\) 或 \(\{1, 2, 3, \dots\}\) | \(\frac{1-p}{p}\) (失败次数); \(\frac{1}{p}\) (试验次数) | \(\frac{1-p}{p^2}\) (失败次数); \(\frac{1-p}{p^2}\) (试验次数) | 首次成功前的失败次数或首次成功所需的试验次数,例如:首次射击命中目标前射击的次数。(Number of failures before the first success, or number of trials needed for the first success, e.g., number of shots fired before hitting a target for the first time.) |
负二项分布 (Negative Binomial Distribution) | \(NB(r, p)\) | \(P(X=k) = \binom{k+r-1}{k} (1-p)^k p^r\), \(k=0, 1, 2, \dots\) | \(\{0, 1, 2, \dots\}\) | \(\frac{r(1-p)}{p}\) | \(\frac{r(1-p)}{p^2}\) | 观察到 \(r\) 次成功之前所需的失败次数,例如:直到获得 \(r\) 次成功产品时,生产的失败产品数量。(Number of failures before observing \(r\) successes, e.g., number of defective products produced until \(r\) successful products are obtained.) |
超几何分布 (Hypergeometric Distribution) | \(Hyper(N, M, n)\) | \(P(X=k) = \frac{\binom{M}{k} \binom{N-M}{n-k}}{\binom{N}{n}}\), \(k = \max(0, n-(N-M)), \dots, \min(n, M)\) | \(\{\max(0, n-(N-M)), \dots, \min(n, M)\}\) | \(n \frac{M}{N}\) | \(n \frac{M}{N} \frac{N-M}{N} \frac{N-n}{N-1}\) | 从有限总体中不放回抽样时,特定类型元素的数量,例如:从 \(N\) 个产品中抽取 \(n\) 个,其中 \(M\) 个是次品,抽取的 \(n\) 个中次品数。(Number of items of a specific type when sampling without replacement from a finite population, e.g., number of defective items in a sample of size \(n\) drawn from \(N\) items, where \(M\) items are defective.) |
Appendix B2: 连续型概率分布 (Continuous Probability Distributions)
名称 (Name) | 记号 (Notation) | 概率密度函数 (Probability Density Function, PDF) | 支撑集 (Support) | 期望 (Mean) \(E[X]\) | 方差 (Variance) \(Var[X]\) | 典型应用 (Typical Applications) |
---|---|---|---|---|---|---|
均匀分布 (Uniform Distribution) | \(U(a, b)\) | \(f(x) = \frac{1}{b-a}\), \(a \le x \le b\); \(f(x) = 0\), otherwise | \([a, b]\) | \(\frac{a+b}{2}\) | \(\frac{(b-a)^2}{12}\) | 在给定区间内等可能地取值,例如:随机数生成。(Values equally likely within a given interval, e.g., random number generation.) |
指数分布 (Exponential Distribution) | \(Exp(\lambda)\) | \(f(x) = \lambda e^{-\lambda x}\), \(x \ge 0\); \(f(x) = 0\), \(x < 0\) | \([0, \infty)\) | \(\frac{1}{\lambda}\) | \(\frac{1}{\lambda^2}\) | 独立事件发生的时间间隔,常用于寿命分析和排队论,例如:电子元件的寿命。(Time between independent events, often used in reliability analysis and queuing theory, e.g., lifetime of an electronic component.) |
正态分布 (Normal Distribution) 或 高斯分布 (Gaussian Distribution) | \(N(\mu, \sigma^2)\) | \(f(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}\), \(-\infty < x < \infty\) | \((-\infty, \infty)\) | \(\mu\) | \(\sigma^2\) | 自然界和社会科学中最常见的分布,中心极限定理的基础,例如:人的身高、考试成绩。(Most common distribution in nature and social sciences, fundamental to the Central Limit Theorem, e.g., human height, exam scores.) |
伽玛分布 (Gamma Distribution) | \(Gamma(\alpha, \beta)\) (形状-尺度参数化) 或 \(Gamma(k, \theta)\) (形状-均值参数化) | \(f(x) = \frac{\beta^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\beta x}\), \(x \ge 0\), \(\alpha > 0, \beta > 0\) (形状-尺度); \(f(x) = \frac{1}{\Gamma(k) \theta^k} x^{k-1} e^{-x/\theta}\), \(x \ge 0\), \(k > 0, \theta > 0\) (形状-均值) | \([0, \infty)\) | \(\frac{\alpha}{\beta}\) 或 \(k\theta\) | \(\frac{\alpha}{\beta^2}\) 或 \(k\theta^2\) | 等待一系列事件发生的时间,常用于排队论、可靠性分析,例如:多次事件发生所需的总时间。(Waiting time for a sequence of events to occur, used in queuing theory, reliability analysis, e.g., total time required for multiple events to happen.) |
卡方分布 (Chi-Square Distribution) | \(\chi^2(k)\) 或 \(\chi^2_k\) | \(f(x) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2-1} e^{-x/2}\), \(x \ge 0\), \(k\) 为自由度 | \([0, \infty)\) | \(k\) | \(2k\) | 正态随机变量平方和的分布,常用于假设检验和置信区间,例如:方差的估计和检验。(Distribution of sum of squares of independent standard normal random variables, used in hypothesis testing and confidence intervals, e.g., variance estimation and testing.) |
Beta 分布 (Beta Distribution) | \(Beta(\alpha, \beta)\) | \(f(x) = \frac{1}{B(\alpha, \beta)} x^{\alpha-1} (1-x)^{\beta-1}\), \(0 \le x \le 1\), \(\alpha > 0, \beta > 0\) | \([0, 1]\) | \(\frac{\alpha}{\alpha+\beta}\) | \(\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}\) | 用于描述比例或概率的分布,例如:事件的成功概率的分布。(Distribution for proportions or probabilities, e.g., distribution of success probability of an event.) |
\(t\) 分布 (\(t\) Distribution) 或 学生 \(t\) 分布 (Student's \(t\) Distribution) | \(t(v)\) 或 \(t_v\) | \(f(t) = \frac{\Gamma(\frac{v+1}{2})}{\sqrt{v\pi}\Gamma(\frac{v}{2})} (1 + \frac{t^2}{v})^{-\frac{v+1}{2}}\), \(-\infty < t < \infty\), \(v\) 为自由度 | \((-\infty, \infty)\) | \(0\) (当 \(v>1\)) | \(\frac{v}{v-2}\) (当 \(v>2\)) | 用于小样本均值检验和置信区间,例如:小样本数据下的均值推断。(Used for hypothesis testing and confidence intervals for population means when sample size is small, e.g., mean inference with small sample data.) |
\(F\) 分布 (\(F\) Distribution) 或 费希尔-\(Snedecor\) \(F\) 分布 (Fisher-Snedecor \(F\) Distribution) | \(F(v_1, v_2)\) 或 \(F_{v_1, v_2}\) | \(f(x) = \frac{\Gamma(\frac{v_1+v_2}{2})}{\Gamma(\frac{v_1}{2})\Gamma(\frac{v_2}{2})} (\frac{v_1}{v_2})^{v_1/2} x^{v_1/2-1} (1 + \frac{v_1}{v_2} x)^{-\frac{v_1+v_2}{2}}\), \(x \ge 0\), \(v_1, v_2\) 为自由度 | \([0, \infty)\) | \(\frac{v_2}{v_2-2}\) (当 \(v_2>2\)) | \(\frac{2v_2^2(v_1+v_2-2)}{v_1(v_2-2)^2(v_2-4)}\) (当 \(v_2>4\)) | 用于方差分析和回归分析中的 \(F\) 检验,例如:比较两个总体的方差。(Used for \(F\)-tests in ANOVA and regression analysis, e.g., comparing variances of two populations.) |
Appendix C: 统计软件R与Python简介 (Introduction to Statistical Software R and Python)
Appendix C1: 概述 (Overview)
统计软件在概率统计与随机过程的学习和应用中扮演着至关重要的角色。它们不仅能够帮助我们高效地进行数据分析和模型建立,还能通过模拟和可视化等手段,加深对理论概念的理解。R
语言和 Python
语言是目前统计学、数据科学以及相关领域最流行的两种编程语言。本附录将简要介绍 R
和 Python
在概率统计与随机过程中的应用,包括它们各自的特点、常用的程序库以及一些基本操作,旨在帮助读者快速入门,并利用这些强大的工具进行学习和实践。
Appendix C2: R 语言简介 (Introduction to R)
R
语言是一个为统计计算和图形表示而设计的自由软件环境。它起源于 S
语言,由 Ross Ihaka
和 Robert Gentleman
在 1990
年代初期在新西兰奥克兰大学创建。R
拥有强大的统计分析和数据可视化能力,以及丰富的程序包(packages),涵盖了从基础统计方法到高级模型的所有领域。R
社区活跃,用户可以方便地找到各种学习资源和技术支持。
Appendix C2.1: R 的优势与特点 (Advantages and Features of R)
① 专为统计分析设计 (Designed for Statistical Analysis):R
语言的核心功能是统计计算,其语法和数据结构都非常适合统计分析任务。
② 丰富的程序包 (Extensive Packages):CRAN (Comprehensive R Archive Network)
提供了数以万计的程序包,覆盖了统计学、机器学习、生物信息学、金融学等众多领域,用户可以轻松找到所需的工具。
③ 强大的图形功能 (Powerful Graphics):R
语言的图形系统非常强大,可以生成各种高质量的统计图表,包括散点图、直方图、箱线图等,并支持高度定制化。
④ 开源免费 (Open Source and Free):R
是一个开源项目,用户可以免费使用、修改和分发,降低了学习和使用的门槛。
⑤ 活跃的社区 (Active Community):R
拥有一个庞大而活跃的社区,用户可以方便地获取帮助、交流经验和参与项目开发。
Appendix C2.2: R 常用程序库 (Common R Libraries)
在概率统计与随机过程的学习和应用中,以下 R
程序库非常常用:
① stats
: R
语言的基础统计程序包 (base package),包含了大量的基本统计函数,例如:
▮▮▮▮ⓑ 概率分布函数 (probability distribution functions, 例如 dnorm
, pnorm
, rnorm
等)。
▮▮▮▮ⓒ 基本统计量计算函数 (basic statistics calculation functions, 例如 mean
, var
, sd
, cor
等)。
▮▮▮▮ⓓ 各种统计检验函数 (statistical test functions, 例如 t.test
, chisq.test
, anova
等)。
▮▮▮▮ⓔ 线性模型函数 (linear model functions, 例如 lm
, glm
等)。
② probability
: 提供了概率论和统计学中常用的一些函数和工具,例如:
▮▮▮▮ⓑ 概率计算 (probability calculations)。
▮▮▮▮ⓒ 随机变量模拟 (random variable simulation)。
▮▮▮▮ⓓ 分布函数可视化 (distribution function visualization)。
③ MASS
(Modern Applied Statistics with S): 由 Venables
和 Ripley
编写的经典统计学著作《Modern Applied Statistics with S
》配套的程序包,包含了大量的现代统计方法和数据集,例如:
▮▮▮▮ⓑ 稳健统计方法 (robust statistical methods)。
▮▮▮▮ⓒ 生存分析 (survival analysis)。
▮▮▮▮ⓓ 多元统计分析 (multivariate statistical analysis)。
④ tseries
(Time Series Analysis): 专门用于时间序列分析 (time series analysis) 的程序包,提供了时间序列建模、分析和预测的各种工具,例如:
▮▮▮▮ⓑ 时间序列模型 (time series models, 例如 ARIMA
, GARCH
等)。
▮▮▮▮ⓒ 平稳性检验 (stationarity tests)。
▮▮▮▮ⓓ 自相关和偏自相关函数 (ACF and PACF)。
⑤ forecast
: 用于时间序列预测 (time series forecasting) 的程序包,提供了多种自动时间序列预测模型 (automatic time series forecasting models) 和评估方法,例如:
▮▮▮▮ⓑ ARIMA
模型自动选择 (automatic ARIMA
model selection)。
▮▮▮▮ⓒ 指数平滑模型 (exponential smoothing models)。
▮▮▮▮ⓓ 预测精度评估 (forecast accuracy evaluation)。
⑥ spatstat
(Spatial Statistics): 用于空间统计 (spatial statistics) 的程序包,虽然本书主要关注时间随机过程,但在某些情况下,空间随机过程的概念也可能相关。spatstat
提供了空间点过程分析、空间模式分析等工具。
Appendix C2.3: R 基本操作示例 (Basic R Operations Examples)
1
# 安装程序包 (Install packages)
2
install.packages("probability")
3
install.packages("MASS")
4
install.packages("tseries")
5
install.packages("forecast")
6
7
# 加载程序库 (Load libraries)
8
library(probability)
9
library(MASS)
10
library(tseries)
11
library(forecast)
12
library(stats) # stats 包通常默认加载
13
14
# 生成服从正态分布的随机数 (Generate random numbers from normal distribution)
15
set.seed(123) # 设置随机数种子以保证结果可重复 (Set seed for reproducibility)
16
random_normal <- rnorm(100, mean = 0, sd = 1) # 生成 100 个均值为 0,标准差为 1 的正态分布随机数 (Generate 100 standard normal random numbers)
17
print(head(random_normal)) # 打印前几个随机数 (Print the first few random numbers)
18
19
# 生成服从二项分布的随机数 (Generate random numbers from binomial distribution)
20
random_binomial <- rbinom(100, size = 10, prob = 0.5) # 生成 100 个试验次数为 10,成功概率为 0.5 的二项分布随机数 (Generate 100 binomial random numbers)
21
print(head(random_binomial))
22
23
# 生成服从泊松分布的随机数 (Generate random numbers from Poisson distribution)
24
random_poisson <- rpois(100, lambda = 5) # 生成 100 个均值为 5 的泊松分布随机数 (Generate 100 Poisson random numbers)
25
print(head(random_poisson))
26
27
# 基本统计量计算 (Basic statistics calculation)
28
mean_normal <- mean(random_normal) # 计算均值 (Calculate mean)
29
sd_normal <- sd(random_normal) # 计算标准差 (Calculate standard deviation)
30
var_normal <- var(random_normal) # 计算方差 (Calculate variance)
31
print(paste("Normal Mean:", mean_normal, "Standard Deviation:", sd_normal, "Variance:", var_normal))
32
33
# 数据可视化 (Data visualization)
34
hist(random_normal, main = "Histogram of Normal Random Numbers", xlab = "Value") # 直方图 (Histogram)
35
plot(density(random_normal), main = "Density Plot of Normal Random Numbers", xlab = "Value") # 密度图 (Density plot)
36
boxplot(random_normal, main = "Boxplot of Normal Random Numbers", ylab = "Value") # 箱线图 (Boxplot)
37
38
# 线性回归示例 (Linear Regression Example)
39
x <- 1:100
40
y <- 2*x + rnorm(100, 0, 20) # 生成线性相关数据并加入噪声 (Generate linearly related data with noise)
41
linear_model <- lm(y ~ x) # 拟合线性模型 (Fit linear model)
42
print(summary(linear_model)) # 打印模型摘要 (Print model summary)
43
plot(x, y, main = "Linear Regression Example") # 散点图 (Scatter plot)
44
abline(linear_model, col = "red") # 添加回归线 (Add regression line)
45
46
# 时间序列分析示例 (Time Series Analysis Example)
47
time_series_data <- ts(rnorm(200)) # 创建一个时间序列对象 (Create a time series object)
48
plot(time_series_data, main = "Example Time Series Data") # 绘制时间序列图 (Plot time series)
49
acf_result <- acf(time_series_data, main = "Autocorrelation Function") # 自相关函数 (Autocorrelation function)
50
pacf_result <- pacf(time_series_data, main = "Partial Autocorrelation Function") # 偏自相关函数 (Partial autocorrelation function)
Appendix C3: Python 语言简介 (Introduction to Python)
Python
是一种通用高级编程语言 (general-purpose high-level programming language),由 Guido van Rossum
在 1980
年代末设计,并于 1991
年首次发布。Python
以其清晰的语法 (clear syntax) 和强大的功能 (powerful capabilities) 而闻名,被广泛应用于网络开发 (web development)、软件开发 (software development)、数据科学 (data science)、机器学习 (machine learning)、人工智能 (artificial intelligence) 等多个领域。在概率统计与随机过程领域,Python
凭借其丰富的科学计算库和易用性,也成为一种重要的工具。
Appendix C3.1: Python 的优势与特点 (Advantages and Features of Python)
① 通用性强 (General-Purpose):Python
不仅适用于统计分析,还可以用于各种编程任务,例如Web 开发、脚本编写、自动化等。
② 易学易用 (Easy to Learn and Use):Python
语法简洁清晰,代码可读性高,非常适合初学者入门。
③ 丰富的科学计算库 (Extensive Scientific Computing Libraries):Python
拥有强大的科学计算生态系统,例如 NumPy
, SciPy
, pandas
, statsmodels
, matplotlib
等,为数据分析、统计建模和科学计算提供了全面的支持。
④ 跨平台性 (Cross-Platform):Python
可以在Windows、macOS、Linux 等多种操作系统上运行。
⑤ 庞大的社区和资源 (Large Community and Resources):Python
拥有一个庞大的开发者社区,提供了丰富的文档、教程和在线资源,用户可以方便地获取帮助和学习资料。
Appendix C3.2: Python 常用程序库 (Common Python Libraries)
在概率统计与随机过程的学习和应用中,以下 Python
程序库非常常用:
① NumPy
(Numerical Python): Python
数值计算 (numerical computing) 的基础库,提供了高性能的多维数组对象 (multidimensional array object) 和各种数学函数 (mathematical functions),是科学计算的核心库。在概率统计中,NumPy
主要用于:
▮▮▮▮ⓑ 高效的数值运算 (efficient numerical operations)。
▮▮▮▮ⓒ 随机数生成 (random number generation)。
▮▮▮▮ⓓ 线性代数运算 (linear algebra operations)。
② SciPy
(Scientific Python): 构建在 NumPy
之上的科学计算库 (scientific computing library),提供了更多的高级科学计算功能 (advanced scientific computing functions),包括:
▮▮▮▮ⓑ 统计函数 (statistical functions, scipy.stats
模块)。
▮▮▮▮ⓒ 优化 (optimization, scipy.optimize
模块)。
▮▮▮▮ⓓ 积分 (integration, scipy.integrate
模块)。
▮▮▮▮ⓔ 插值 (interpolation, scipy.interpolate
模块)。
▮▮▮▮ⓕ 信号处理 (signal processing, scipy.signal
模块)。
③ statsmodels
: 专注于统计建模 (statistical modeling) 和计量经济学 (econometrics) 的程序库,提供了各种统计模型 (statistical models)、假设检验 (hypothesis tests) 和模型诊断工具 (model diagnostics tools),例如:
▮▮▮▮ⓑ 线性模型 (linear models, OLS
, GLM
等)。
▮▮▮▮ⓒ 时间序列模型 (time series models, ARIMA
, VAR
等, statsmodels.tsa
模块)。
▮▮▮▮ⓓ 非参数统计 (nonparametric statistics)。
▮▮▮▮ⓔ 广义估计方程 (generalized estimating equations, GEE
)。
④ pandas
(Python Data Analysis Library): 用于数据处理和分析 (data manipulation and analysis) 的库,提供了强大的数据结构 (data structures),如 DataFrame
和 Series
,以及灵活的数据操作工具 (data manipulation tools),例如:
▮▮▮▮ⓑ 数据读取和写入 (data reading and writing, 支持多种格式)。
▮▮▮▮ⓒ 数据清洗和转换 (data cleaning and transformation)。
▮▮▮▮ⓓ 数据聚合和分组 (data aggregation and grouping)。
▮▮▮▮ⓔ 时间序列数据处理 (time series data handling)。
⑤ matplotlib
和 seaborn
: 用于数据可视化 (data visualization) 的库。matplotlib
是 Python
最基础的绘图库 (basic plotting library),提供了广泛的绘图功能;seaborn
则是在 matplotlib
基础上构建的高级绘图库 (high-level plotting library),提供了更美观、更便捷的统计图形绘制功能。
Appendix C3.3: Python 基本操作示例 (Basic Python Operations Examples)
1
# 安装程序包 (Install packages)
2
# 使用 pip 在命令行或终端中安装,例如:
3
# pip install numpy scipy statsmodels pandas matplotlib seaborn
4
5
# 导入程序库 (Import libraries)
6
import numpy as np
7
import scipy.stats as stats
8
import statsmodels.api as sm
9
import pandas as pd
10
import matplotlib.pyplot as plt
11
import seaborn as sns
12
13
# 设置随机数种子以保证结果可重复 (Set seed for reproducibility)
14
np.random.seed(123)
15
16
# 生成服从正态分布的随机数 (Generate random numbers from normal distribution)
17
random_normal = np.random.normal(loc=0, scale=1, size=100) # 生成 100 个均值为 0,标准差为 1 的正态分布随机数 (Generate 100 standard normal random numbers)
18
print(random_normal[:5]) # 打印前几个随机数 (Print the first few random numbers)
19
20
# 生成服从二项分布的随机数 (Generate random numbers from binomial distribution)
21
random_binomial = np.random.binomial(n=10, p=0.5, size=100) # 生成 100 个试验次数为 10,成功概率为 0.5 的二项分布随机数 (Generate 100 binomial random numbers)
22
print(random_binomial[:5])
23
24
# 生成服从泊松分布的随机数 (Generate random numbers from Poisson distribution)
25
random_poisson = np.random.poisson(lam=5, size=100) # 生成 100 个均值为 5 的泊松分布随机数 (Generate 100 Poisson random numbers)
26
print(random_poisson[:5])
27
28
# 基本统计量计算 (Basic statistics calculation)
29
mean_normal = np.mean(random_normal) # 计算均值 (Calculate mean)
30
std_normal = np.std(random_normal) # 计算标准差 (Calculate standard deviation)
31
var_normal = np.var(random_normal) # 计算方差 (Calculate variance)
32
print(f"Normal Mean: {mean_normal}, Standard Deviation: {std_normal}, Variance: {var_normal}")
33
34
# 数据可视化 (Data visualization)
35
plt.hist(random_normal, bins=20, density=True, alpha=0.7, color='blue') # 直方图 (Histogram)
36
sns.kdeplot(random_normal, color='red') # 密度图 (Density plot)
37
plt.boxplot(random_normal) # 箱线图 (Boxplot)
38
plt.title("Histogram and Density Plot of Normal Random Numbers")
39
plt.xlabel("Value")
40
plt.ylabel("Density/Frequency")
41
plt.show()
42
43
# 线性回归示例 (Linear Regression Example)
44
x = np.arange(1, 101)
45
y = 2*x + np.random.normal(0, 20, 100) # 生成线性相关数据并加入噪声 (Generate linearly related data with noise)
46
model = sm.OLS(y, sm.add_constant(x)) # 构建 OLS 模型 (Build OLS model)
47
results = model.fit() # 拟合模型 (Fit model)
48
print(results.summary()) # 打印模型摘要 (Print model summary)
49
50
plt.scatter(x, y) # 散点图 (Scatter plot)
51
plt.plot(x, results.fittedvalues, 'r-') # 添加回归线 (Add regression line)
52
plt.title("Linear Regression Example")
53
plt.xlabel("X")
54
plt.ylabel("Y")
55
plt.show()
56
57
# 时间序列分析示例 (Time Series Analysis Example)
58
time_series_data = pd.Series(np.random.randn(200)) # 创建一个时间序列对象 (Create a time series object)
59
plt.figure()
60
time_series_data.plot() # 绘制时间序列图 (Plot time series)
61
plt.title("Example Time Series Data")
62
plt.show()
63
64
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(8, 6))
65
sm.graphics.tsa.plot_acf(time_series_data, lags=20, ax=axes[0], title="Autocorrelation Function") # 自相关函数 (Autocorrelation function)
66
sm.graphics.tsa.plot_pacf(time_series_data, lags=20, ax=axes[1], title="Partial Autocorrelation Function") # 偏自相关函数 (Partial autocorrelation function)
67
plt.tight_layout()
68
plt.show()
Appendix C4: R 与 Python 的比较与选择 (Comparison and Selection of R and Python)
R
和 Python
都是在概率统计与随机过程领域非常强大的工具,它们各有优势,适用于不同的应用场景和用户需求。
① 统计分析的专业性 (Professionalism in Statistical Analysis):R
语言在统计分析领域具有更强的专业性,拥有更丰富的统计模型和方法实现,尤其在传统统计学领域,R
的程序包更加成熟和全面。对于需要进行深入统计研究和方法开发的场景,R
可能更具优势。
② 通用编程能力与扩展性 (General Programming and Extensibility):Python
作为一种通用编程语言,在通用性、灵活性和扩展性方面更强。Python
可以方便地与其他编程语言和系统集成,适用于构建复杂的应用系统和数据科学工作流 (data science workflows)。在机器学习、深度学习等领域,Python
拥有更为完善的生态系统。
③ 学习曲线 (Learning Curve):Python
语法相对简洁易懂,入门门槛 (entry threshold) 较低,对于编程初学者较为友好。R
语言则更专注于统计分析,语法和概念可能更贴合统计学专业人士的思维方式,但对于非统计专业背景的用户,可能需要一定的学习成本。
④ 数据处理能力 (Data Handling Capability):Python
的 pandas
库在数据清洗、数据整理和数据操作方面非常强大,尤其擅长处理结构化数据 (structured data)。R
在数据处理方面也不逊色,tidyverse
系列程序包提供了高效的数据处理工具,但在处理大规模数据时,Python
的性能可能更具优势。
选择建议 (Selection Suggestions):
⚝ 如果您主要从事统计学研究、教学或需要使用最前沿的统计方法,R
可能是更好的选择。R
社区在统计学领域深耕多年,提供了大量的专业程序包和资源。
⚝ 如果您需要构建包含统计分析模块的复杂应用系统,或者您的工作涉及数据科学、机器学习、Web 开发等多个领域,Python
可能更适合。Python
的通用性和集成能力更强,可以更好地满足多样化的需求。
⚝ 对于初学者,Python
可能更容易上手,并能更快地应用于实际问题中。但如果您专注于统计学领域,尽早学习 R
语言也是非常值得的。
实际上,R
和 Python
并非互相排斥,很多数据科学家和统计分析师都同时掌握这两种语言,并根据具体的任务和需求选择合适的工具。掌握 R
和 Python
这两种统计软件,将为概率统计与随机过程的学习和应用提供强大的助力。
Appendix D: 参考文献 (References)
列出本书编写过程中参考的书籍、论文、期刊等文献资料,方便读者进一步学习。
本书的参考文献主要涵盖概率论 (Probability Theory)、数理统计 (Mathematical Statistics) 和随机过程 (Stochastic Processes) 三个领域,旨在为不同层次的读者提供深入学习和研究的资源。以下参考文献列表按照主题分类,方便读者查阅。
D.1 概率论 (Probability Theory)
D.1.1 教材 (Textbooks)
① 《概率论与数理统计教程 (A Course in Probability and Statistics)》
▮ 作者:茆诗松,程依明,濮晓龙
▮ 出版社:高等教育出版社
▮ 出版年份:2011
▮ 推荐理由:国内经典的概率论与数理统计教材,内容系统全面,深入浅出,适合作为本科生和研究生入门教材。
② 《概率论基础教程 (A First Course in Probability)》
▮ 作者: Sheldon Ross (谢尔顿·罗斯)
▮ 出版社:人民邮电出版社
▮ 出版年份:2010 (中文版)
▮ 推荐理由: 经典概率论入门教材,以清晰的逻辑和丰富的例题著称,强调直观理解,适合初学者建立扎实的概率基础。
③ 《概率论及其应用 (An Introduction to Probability Theory and Its Applications)》
▮ 作者:William Feller (威廉·费勒)
▮ 出版社:人民邮电出版社
▮ 出版年份:2006 (中文版)
▮ 推荐理由:概率论领域的里程碑式著作,内容深刻而富有启发性,涵盖概率论的广泛主题,适合深入学习和研究。
④ 《概率与随机过程 (Probability and Stochastic Processes)》
▮ 作者:Grimmett, Geoffrey, Stirzaker, David
▮ 出版社:Oxford University Press
▮ 出版年份:2020
▮ 推荐理由: 现代概率论和随机过程的综合教材,数学严谨,覆盖面广,适合作为高年级本科生和研究生的参考书。
⑤ 《概率导论 (Introduction to Probability)》
▮ 作者:Bertsekas, Dimitri P., Tsitsiklis, John N.
▮ 出版社:Athena Scientific
▮ 出版年份:2008
▮ 推荐理由: 强调概念理解和应用,内容深入浅出,配有大量习题,适合自学和课堂教学。
D.1.2 专著 (Monographs)
① 《概率论中的强大数定律 (Strong Laws of Large Numbers in Probability Theory)》
▮ 作者:V. K. Rohatgi
▮ 出版社:Academic Press
▮ 出版年份:1976
▮ 推荐理由:深入探讨强大数定律的专著,理论严谨,适合研究人员参考。
② 《鞅论 (Martingale Theory)》
▮ 作者:David Williams
▮ 出版社:Cambridge University Press
▮ 出版年份:1991
▮ 推荐理由:鞅论的经典教材,系统介绍了鞅的基本理论和应用,是学习随机过程和金融数学的重要参考书。
D.2 数理统计 (Mathematical Statistics)
D.2.1 教材 (Textbooks)
① 《数理统计学教程 (Mathematical Statistics)》
▮ 作者:茆诗松,程依明,濮晓龙
▮ 出版社:高等教育出版社
▮ 出版年份:2011
▮ 推荐理由:与上述《概率论与数理统计教程》配套,系统深入地介绍了数理统计的基本理论和方法。
② 《统计推断 (Statistical Inference)》
▮ 作者:George Casella, Roger L. Berger
▮ 出版社:机械工业出版社
▮ 出版年份:2002 (中文版)
▮ 推荐理由:数理统计的经典教材,内容全面深入,理论严谨,是学习统计推断的权威参考书。
③ 《现代统计学方法 (Modern Statistical Methods)》
▮ 作者:Thomas P. Ryan
▮ 出版社:机械工业出版社
▮ 出版年份:2009 (中文版)
▮ 推荐理由: 侧重于现代统计方法的应用,涵盖回归分析、方差分析、实验设计等,注重实际问题解决。
④ 《应用回归分析 (Applied Regression Analysis and Generalized Linear Models)》
▮ 作者:John Fox
▮ 出版社:Sage Publications, Inc
▮ 出版年份:2015
▮ 推荐理由: 回归分析的经典教材,深入讲解线性回归和广义线性模型,注重模型诊断和实际应用。
⑤ 《非参数统计 (Nonparametric Statistical Methods)》
▮ 作者:Myles Hollander, Douglas A. Wolfe, Erica Chicken
▮ 出版社:Wiley
▮ 出版年份:2013
▮ 推荐理由: 非参数统计的权威教材,系统介绍了各种非参数统计方法及其应用。
D.2.2 专著 (Monographs)
① 《The Elements of Statistical Learning: Data Mining, Inference, and Prediction》
▮ 作者:Trevor Hastie, Robert Tibshirani, Jerome Friedman
▮ 出版社:Springer
▮ 出版年份:2009
▮ 推荐理由:机器学习和统计学习领域的经典著作,深入介绍了各种统计学习方法及其理论基础。
② 《All of Statistics: A Concise Course in Statistical Inference》
▮ 作者:Larry Wasserman
▮ 出版社:Springer
▮ 出版年份:2004
▮ 推荐理由: 统计推断的简明教程,内容精炼,涵盖数理统计的核心概念和方法。
D.3 随机过程 (Stochastic Processes)
D.3.1 教材 (Textbooks)
① 《随机过程 (Stochastic Processes)》
▮ 作者: 茆诗松
▮ 出版社: 高等教育出版社
▮ 出版年份: 2014
▮ 推荐理由: 国内经典的随机过程教材,系统介绍了随机过程的基本理论和方法,内容深入浅出,适合作为本科生和研究生入门教材。
② 《随机过程论 (Stochastic Processes)》
▮ 作者:Sheldon M. Ross (谢尔顿·罗斯)
▮ 出版社:中国统计出版社
▮ 出版年份:2002 (中文版)
▮ 推荐理由: 随机过程的经典教材,内容全面,涵盖马尔可夫链、泊松过程、布朗运动等重要主题,注重应用。
③ 《应用随机过程 (Applied Stochastic Processes)》
▮ 作者:Lothar Breiman
▮ 出版社:Dover Publications
▮ 出版年份:1992
▮ 推荐理由: 强调随机过程的应用,涵盖排队论、生物学、物理学等领域的应用案例。
④ 《随机动力系统导论 (Introduction to Stochastic Dynamics)》
▮ 作者:Jinqiao Duan
▮ 出版社:Cambridge University Press
▮ 出版年份:2015
▮ 推荐理由: 侧重于随机动力系统的介绍,涵盖随机微分方程、稳定性分析等,适合对随机系统建模感兴趣的读者。
⑤ 《时间序列分析及其应用 (Time Series Analysis: With Applications in R Examples)》
▮ 作者:Robert H. Shumway, David S. Stoffer
▮ 出版社:Springer
▮ 出版年份:2017
▮ 推荐理由: 时间序列分析的经典教材,系统介绍了时间序列模型的理论和方法,并结合R语言进行实例分析。
D.3.2 专著 (Monographs)
① 《布朗运动、鞅与随机微积分 (Brownian Motion, Martingales, and Stochastic Calculus)》
▮ 作者: Ioannis Karatzas, Steven E. Shreve
▮ 出版社:Springer
▮ 出版年份:1991
▮ 推荐理由: 随机微积分领域的权威著作,深入系统地介绍了布朗运动、鞅论和Itô积分理论。
② 《扩散过程与随机微分方程 (Diffusion Processes and Stochastic Calculus)》
▮ 作者:Marek Musiela, Marek Rutkowski
▮ 出版社:World Scientific Publishing Company
▮ 出版年份:2005
▮ 推荐理由: 深入探讨扩散过程和随机微分方程的专著,理论严谨,适合研究人员参考。
D.4 期刊 (Journals)
以下是一些概率统计与随机过程领域的重要学术期刊,读者可以通过阅读这些期刊了解最新的研究进展:
① 《概率论年鉴 (The Annals of Probability)》
▮ 出版社: Institute of Mathematical Statistics
▮ 推荐理由: 概率论领域顶级期刊,发表高质量的原创研究论文。
② 《统计学年鉴 (The Annals of Statistics)》
▮ 出版社: Institute of Mathematical Statistics
▮ 推荐理由: 统计学领域顶级期刊,发表高质量的原创研究论文。
③ 《随机过程及其应用 (Stochastic Processes and their Applications)》
▮ 出版社: Elsevier
▮ 推荐理由: 随机过程领域重要期刊,发表随机过程理论及其应用方面的研究论文。
④ 《统计年鉴 (Journal of the American Statistical Association, JASA)》
▮ 出版社: Taylor & Francis
▮ 推荐理由: 统计学综合性期刊,发表理论、方法和应用方面的研究论文。
⑤ 《Biometrika》
▮ 出版社: Oxford University Press
▮ 推荐理由: 生物统计学领域顶级期刊,发表生物统计方法及其应用方面的研究论文。
D.5 在线资源 (Online Resources)
① arXiv (https://arxiv.org/)
▮ 推荐理由: 预印本平台,可以找到最新的概率统计和随机过程研究论文。
② MathSciNet (https://mathscinet.ams.org/)
▮ 推荐理由: 数学评论数据库,可以检索和查找数学文献。 (需订阅)
③ zbMATH Open (https://zbmath.org/)
▮ 推荐理由: 数学文摘数据库,提供数学文献的摘要和评论。
④ 维基百科 (Wikipedia)
▮ 推荐理由: 快速查找概率统计和随机过程相关概念的定义和基本知识。
⑤ Stack Exchange (https://stats.stackexchange.com/) & (https://math.stackexchange.com/)
▮ 推荐理由: 在线问答社区,可以提问和查找概率统计和数学相关的问题解答。
提示: 本参考文献列表仅为示例,读者可以根据自己的兴趣和研究方向进一步扩展阅读。随着学科发展,新的优秀教材和研究成果不断涌现,建议读者保持学习的热情,持续关注最新的学术动态。
Appendix E: 术语表 (Glossary)
提供本书中重要术语的中英文对照和简要解释,方便读者查阅。
Appendix E1: 概率论 (Probability Theory)
① 样本空间 (Sample Space):随机试验所有可能结果的集合。例如,掷骰子的样本空间是 \(\{1, 2, 3, 4, 5, 6\}\)。
② 事件 (Event):样本空间的子集,表示试验结果的某种集合。例如,掷骰子事件“结果是偶数”对应样本空间的子集 \(\{2, 4, 6\}\)。
③ 概率 (Probability):衡量事件发生可能性大小的数值,取值范围在 0 到 1 之间。概率为 0 表示事件不可能发生,概率为 1 表示事件必然发生。
④ 条件概率 (Conditional Probability):在已知某事件 B 发生的条件下,事件 A 发生的概率,记为 \(P(A|B)\)。它反映了事件 B 的发生对事件 A 发生概率的影响。
⑤ 独立性 (Independence):两个事件 A 和 B 互不影响,即事件 A 的发生不影响事件 B 发生的概率,反之亦然。数学上定义为 \(P(A \cap B) = P(A)P(B)\)。
⑥ 随机变量 (Random Variable):一个将随机试验的结果映射到实数的函数。它可以是离散型(取值可数)或连续型(取值不可数)。
⑦ 分布函数 (Distribution Function):描述随机变量 X 的概率分布的函数 \(F(x) = P(X \leq x)\)。对于任何实数 \(x\),分布函数给出随机变量 X 取值小于等于 \(x\) 的概率。
⑧ 概率质量函数 (Probability Mass Function, PMF):用于描述离散型随机变量的概率分布。对于离散型随机变量 X,其概率质量函数 \(p(x) = P(X = x)\) 表示 X 取特定值 \(x\) 的概率。
⑨ 概率密度函数 (Probability Density Function, PDF):用于描述连续型随机变量的概率分布。对于连续型随机变量 X,其概率密度函数 \(f(x)\) 满足 \(P(a \leq X \leq b) = \int_{a}^{b} f(x) dx\)。概率密度函数在某一点的值本身不是概率,但其积分表示概率。
⑩ 期望 (Expectation):随机变量的平均取值,也称为均值或数学期望。对于离散型随机变量 \(X\),期望 \(E(X) = \sum x p(x)\);对于连续型随机变量 \(X\),期望 \(E(X) = \int_{-\infty}^{\infty} x f(x) dx\)。
⑪ 方差 (Variance):衡量随机变量取值离散程度的指标,定义为 \(Var(X) = E[(X - E(X))^2]\)。方差越大,随机变量的取值越分散。
⑫ 协方差 (Covariance):衡量两个随机变量 X 和 Y 线性相关程度的指标,定义为 \(Cov(X, Y) = E[(X - E(X))(Y - E(Y))]\)。正协方差表示正相关,负协方差表示负相关,零协方差表示不相关。
⑬ 相关系数 (Correlation Coefficient):标准化后的协方差,取值范围在 -1 到 1 之间,更直观地表示两个随机变量的线性相关程度。定义为 \(\rho(X, Y) = \frac{Cov(X, Y)}{\sqrt{Var(X)Var(Y)}}\)。
⑭ 大数定律 (Law of Large Numbers):描述大量重复随机试验结果的平均值的稳定性规律。它表明,随着试验次数的增加,样本均值会趋近于总体期望值。
⑮ 中心极限定理 (Central Limit Theorem, CLT):指出在一定条件下,大量独立同分布的随机变量之和的分布近似于正态分布。这是统计推断的理论基础。
Appendix E2: 数理统计 (Mathematical Statistics)
① 总体 (Population):研究对象的全体,它可以是人、事物或观测值的集合。
② 样本 (Sample):从总体中随机抽取的一部分个体,用于推断总体的特征。
③ 统计量 (Statistic):样本的函数,不包含任何未知参数,用于对总体参数进行估计和检验。例如,样本均值、样本方差等。
④ 参数 (Parameter):描述总体特征的数值,通常是未知的,需要通过样本数据进行估计。例如,总体均值、总体方差等。
⑤ 估计 (Estimation):利用样本数据对总体未知参数进行推断的过程。包括点估计(用一个数值估计参数)和区间估计(用一个区间估计参数)。
⑥ 假设检验 (Hypothesis Testing):根据样本数据,判断关于总体参数的某种假设是否成立的统计推断方法。
⑦ 显著性水平 (Significance Level):在假设检验中,拒绝原假设但原假设实际上为真(犯第一类错误)的最大允许概率,通常用 \(\alpha\) 表示,常用取值为 0.05 或 0.01。
⑧ p值 (p-value):在原假设成立的条件下,观察到样本结果或更极端结果的概率。p值越小,拒绝原假设的证据越强。
⑨ 置信区间 (Confidence Interval):由样本数据计算出的一个区间,以一定的置信水平包含总体参数真值的概率。例如,95% 置信区间表示在重复抽样下,100 次抽样中约有 95 次计算出的区间会包含总体参数真值。
⑩ 回归分析 (Regression Analysis):研究变量之间关系的一种统计方法,用于建立变量间的数学模型,并进行预测和控制。常见的有线性回归、多元回归和非线性回归。
⑪ 方差分析 (Analysis of Variance, ANOVA):检验多个总体均值是否相等的统计方法,通过分析数据总变异的来源,判断不同因素对结果的影响是否显著。
Appendix E3: 随机过程 (Stochastic Processes)
① 随机过程 (Stochastic Process):一连串随时间演变的随机变量的集合,可以表示为 \(\{X(t), t \in T\}\),其中 \(t\) 是时间参数,\(T\) 是时间参数集,\(X(t)\) 是在时间 \(t\) 的随机变量。
② 状态空间 (State Space):随机过程可能取值的集合。状态空间可以是离散的或连续的。
③ 时间参数集 (Index Set/Parameter Set):时间 \(t\) 的取值范围,可以是离散的(例如,整数集 \(\mathbb{Z}\) 或自然数集 \(\mathbb{N}\))或连续的(例如,实数集 \(\mathbb{R}\) 或非负实数集 \([0, \infty)\))。
④ 轨道 (Sample Path):随机过程的一次实现,即对于固定的随机试验结果,随机过程 \(X(t)\) 随时间 \(t\) 变化的函数曲线。
⑤ 平稳过程 (Stationary Process):其统计特性不随时间平移而变化的随机过程。分为严平稳过程(所有有限维分布都随时间平移不变)和宽平稳过程(均值和自相关函数随时间平移不变)。
⑥ 泊松过程 (Poisson Process):描述单位时间内随机事件发生次数的计数过程。它具有独立增量性和平稳增量性,常用于模拟稀有事件的发生,如顾客到达、放射性衰变等。
⑦ 马尔可夫链 (Markov Chain):具有马尔可夫性质的随机过程。马尔可夫性质指未来状态的概率分布只依赖于当前状态,而与过去状态无关(无后效性)。分为离散时间马尔可夫链 (DTMC) 和连续时间马尔可夫链 (CTMC)。
⑧ 转移概率 (Transition Probability):在马尔可夫链中,从一个状态转移到另一个状态的条件概率。对于离散时间马尔可夫链,转移概率 \(p_{ij} = P(X_{n+1} = j | X_n = i)\)。
⑨ 极限分布 (Limiting Distribution):当时间趋于无穷时,马尔可夫链的状态分布趋于稳定的分布。也称为稳态分布或平稳分布。
⑩ 布朗运动 (Brownian Motion):一种重要的连续时间、连续状态空间的随机过程,常用于模拟随机现象,如股票价格波动、微粒的随机运动等。具有独立增量性、平稳增量性和轨道连续性。
⑪ 时间序列 (Time Series):按时间顺序排列的一系列观测值。时间序列分析是对时间序列数据进行建模、预测和控制的统计方法。
⑫ 自相关函数 (Autocorrelation Function, ACF):描述时间序列在不同时间点观测值之间相关性的函数。对于平稳时间序列 \(\{X_t\}\),自相关函数 \(\rho(k) = Corr(X_t, X_{t+k})\) 衡量时间间隔为 \(k\) 的观测值之间的线性相关程度。