1.1引言
机器学习是这样一门学科,它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
经验的存在形式就是数据,而机器学习就是让计算机从数据中产生出模型的算法,即学习算法。有了学习算法,我们就可以基于这些数据产生相应的模型。
模型本书用"模型"泛指从数据中学得的结果。有文献用"模型"指全局性结果(例如一棵决策树),而用"模式"指局部性结果(例如一条规则)
[Mitchell, 1997J ]给出了一个更形式化的定义:假设用P来评估计算机程序在某任务类T上的性能,若一个程序通过利用经验E在T任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。
1.2基本术语
要进行机器学习,就先要有数据。
- 数据集(data set):记录的集合
- 示例(instance)或样本(sample):每一条记录都是关于一个事件或对象的描述
- 属性(attribute)或特征(feature):反映事件或对象在某方面的表现或性质的事项,例如色泽,根蒂,敲声
- 属性值(attribute value):属性上的取值,例如青绿
- 样本空间(sample space)或属性空间(attribute space)或输入空间:属性张成的空间。如色泽、根蒂、敲声张成的用于描述西瓜的三维空间,每个西瓜都能在这个空间找到自己的坐标位置。
- 特征向量(feature vector):空间中的每个示例(由于空间中的每个点对应一个坐标向量)
D={x1,x2,…,xm} 表示包含 m 个示例的数据集。
每个示例有d个属性描述(如上面西瓜数据使用了3个属性),则每个示例xi=(xi1;xi2;…;xid)是d维样本空间X中的一个向量,xi∈X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”(dimensionality)
- 学习(learning)或训练(training):从数据中学得模型的过程,这个过程通过执行每个学习算法来完成
- 训练数据(training data):训练过程中使用的数据
- 训练样本(training sample):训练数据中的每一个样本
- 训练集(traing set):训练样本的集合
- 假设(hypothesis):学得模型对应了关于数据的某种潜在规律
- 真相(ground-truth):数据的潜在规律
为了建立预测的模型,光有前面的示例数据是不行的,还需要得到训练样本的“结果”信息。
-
标记(label):示例的结果的信息
- 样例(example):拥有了标记信息的示例(一条记录)
- (xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记
- 标记空间(label space)或输出空间:所有标记的集合,Y
-
分类(classification)任务:预测的是离散值,如好瓜,坏瓜,的学习任务
- 二分类(binary classification)任务:任务只有两个分类,通常令Y={−1,+1}或{0,1}
- 正类(positive class)
- 反类(negative class)
- 多分类(multi-class classfication)任务:任务有多个类别,|Y|>2
-
回归(regression)任务:预测的是连续值,如西瓜成熟度0.95、9.37的学习任。Y=R,R为实数集。
- 测试(testing):学得模型后,使用其进行预测的过程。(已知x去求得y的过程)
- 测试样本(testing sample):被测试的样本
-
聚类(clustering):对训练集中的数据进行分组
- 簇(cluster):聚类所分的组,每组称为一个簇。
-
监督学习(supervised learning):训练数据拥有标记信息的学习任务,代表:回归、分类。
-
无监督学习(unsupervised learning):训练数据无标记信息的学习任务,代表是聚类
- 泛化(generalization)能力:学得模型适用于新样本的能力
1.3假设空间
- 归纳(induction):从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律
- 归纳有广义和狭义之分,广义的归纳学习大体相当于从样例中学习, 而狭义的归纳学习则要求从训练数据中学得概念(concept) ,因此亦称为"概念学习"或"概念形成"。
- 演绎(deduction):从一般到特殊的“特化”过程,即从基础原理推演出具体状况
别忘了我们学习的目的是"泛化",即通过对训练集中瓜的学习以获得对没见过的瓜进行判断的能力。“记住"训练样本,就是所谓的"机械学习” [Cohen and Feigenbaum. 1983]. 或称"死记硬背式”学习。
我们可以把学习过程看做一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设,即能够将训练集中的瓜正确判断正确的假设。假设的表示一旦确定,假设空间极其规模大小就确定了。
显示问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合,我们称之为版本空间(version space)。
1.4归纳偏好
- 归纳偏好(inductive bias)简称偏好:机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好,否则它将被假设空间中刊社在训练集上等效的假设所迷惑,而无法产生确定的学习结果。
- 归纳偏好可看作是学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
- 奥卡姆剃刀(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
- "没有免费的午餐"定理 (No Free Lunch Theorem,简称 NFL 定理) [Wolpert, 1996; Wolpert and Macready, 1995].无论学习算法La 多聪明、学习算法Lb 多笨拙,他们的期望性能相同。(就是教我们具体问题具体分析,谈论一个算法的好坏离不开具体的学习问题)
- 学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。
1.5发展历程
机器学习是人工智能研究发展到一定阶段的必然产物。
年代 |
时期 |
理论 |
代表作 |
1950~1970 |
推理期 |
赋予机器逻辑推理能力,机器就具有智能 |
“逻辑理论家”程序 |
1970中期 |
知识期 |
要使机器具有智能,就必须设法使机器拥有知识 |
知识工程 |
1980 |
学习期 |
机器自己学习知识 |
归纳逻辑程序设计(Inductive Logic Programming,ILP) |
机器学习分类:
- 从样例中学习
- 在问题求解和规划中学习
- 通过观察和发现学习
- 从指令中学习
从样例中学习主流:
- 符号主义学习
- 决策树:以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判定的树形流程。
- 基于逻辑的学习:著名代表是归纳逻辑程序设计(ILP),可看做机器学习与逻辑程序设计的交叉,它使用一阶逻辑(谓词逻辑)来进行知识表示,通过修改和扩充逻辑表达式来完成对数据的归纳。
- 基于神经网络的连接主义学习
- 深度学习,狭义的说就是“很多层”的神经网络
- 统计学习
- 代表性技术:支持向量机(Support Vector Machine,简称SVM)
1.6应用现状
主要包括:NLP自然语言处理,CV计算机视觉,数据挖掘data mining。
手写识别
垃圾邮件分类
搜索引擎
图像处理
个人定制
推荐系统
研究大脑
还有一些算法也属于机器学习领域,诸如:
- 半监督学习: 介于监督学习于无监督学习之间
- 推荐算法: 没错,就是那些个买完某商品后还推荐同款的某购物网站所用的算法。
- 强化学习: 通过观察来学习如何做出动作,每个动作都会对环境有所影响,而环境的反馈又可以引导该学习算法。
- 迁移学习
//可以配合吴恩达教授的视频观看,B站上有资源。
很多都是《周志华-机器学习》即西瓜书上的知识点,这是笔者关于学习机器学习过程做的一些笔记。
参考博文链接:https://blog.csdn.net/alistair_chow/article/details/77369490
和https://blog.csdn.net/qq_38962336/article/details/106387952?spm=1001.2014.3001.5502