MachineLearning/TJXXFF

统计学习方法-李航

购书

符号表

R 实数集
Rn n维实数向量空间,n维欧式空间
H 希尔伯特空间
X 输入空间
Y 输出空间
x ∈ X 输入,实例
y ∈ Y 输出,标记
X 输入随机变量
Y 输出随机变量
T = {(x1,y1),(x2,y2),…,(xn,yn)} 训练数据集
N 样本容量
(xi,yi) 第i个训练数据点
x=(x(1),x(2),…,x(n))T 输入向量,n维实数向量
xi(j) 输入向量xi的第j分量
P(X), P(Y) 概率分布
P(X,Y) 联合概率分布
F 假设空间
f ∈ F 模型,特征函数
θ, ω 模型参数
ω=(ω1,ω2,…,ωn)T 权值向量
b 偏置
J(f) 模型的复杂度
Remp 经验风险或经验损失
Rexp 风险函数或期望损失
L 损失函数,拉格朗日函数
η 学习率
\(\Arrowvert\bullet\Arrowvert_1\) L1 范数
\(\Arrowvert\bullet\Arrowvert_2\) L2 范数
(x⋅x’) 向量x与x’的内积
H(X), H(p)
H(Y|X) 条件熵
S 分离超平面
α=(α1,α2,…,αn)T 拉格朗日乘子,对偶问题变量
αi 对偶问题的第i个变量
K(x,z) 核函数
sign(x) 符号函数
I(x) 指示函数
Z(x) 规范化因子

第1章 统计学习方法概论

统计学习

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。

统计学习的对象是数据(data)。它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。

统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。这里的同类数据是指具有某种共同性质的数据。

统计学习由监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi-supervised learning)和强化学习(reinforcement learning)等组成。

监督学习可以概括如下:

  • 从给定的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分布产生的;
  • 应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最优的预测;
  • 最优模型的选取由算法实现。

统计弱学方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称其为统计学习方法的三要素,简称为模型(model)、策略(strategy)和算法(algorithm)。

统计学习研究一般包括统计学习方法(statistical learning method)、统计学习理论(statistical learning theory)及统计学习应用(application of statistical learning)三个方面。

  • 统计学习方法的研究旨在开发新的学习方法;
  • 统计学习理论的研究在于探求统计学习方法的有效性与效率,以及统计学习的基本理论问题;
  • 统计学习应用的研究主要考虑统计学习方法应用到实际问题中去,解决实际问题。

统计学习是计算机科学发展的一个重要组成部分。可以认为计算机科学由三维组成:系统、计算、信息。统计学习主要属于信息这一维,并在其中起着核心作用。