归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,归纳偏好对应了算法本身所做出的关于“什么样的模型更好”的假设
有效的机器学习算法必然有归纳偏好,否则无法产生确定的学习结果,比如对于下图,三个假设对于同一个新样本,会产生不同的结果。
对于下图,每个训练样本是图中的一个点,A,B都是与训练集一致的模型,算法应该偏好那种模型呢?
奥卡姆剃刀原则:若有多个假设与观察一致,选最简单那个
按照奥卡姆剃刀原则,并且假设我们认为“更平滑”意味着“更简单”,我们应该偏好A
奥卡姆剃刀不是唯一的可行原则,归纳偏好的设置应尽量与问题本身相匹配
“没有免费的午餐”定理(NFL):没有先验知识的情况下,不能说明哪个算法更好
比如说我们之前选择偏好A,在图(a)所示情况下,A的测试样本更一致,有更好的泛化效果,但是在(b)这种样本情况下,显然B更好。也就是说,我们不知道样本是哪种分布时,并不能说A,B谁更好。
证明:
X X :样本空间,离散的