【AI小白】机器学习算法三要素

AI小白系列教程第三讲

简介

本节我们会强调“机器学习算法 = 模型 + 策略 + 算法”这个概念，并让读者对模型、策略、算法有深入理解。

正文

在第一讲何为AI中我们了解了什么是人工智能、什么是机器学习。

复习 – 机器学习：机器学习是一门根据数据，自己学习算法的学问

在第二讲机器学习基本术语中，我们了解了机器学习的基本术语以及应用机器学习的步骤。

复习 – 机器学习步骤：收集数据并整理、数据预处理（特征工程）、训练算法、测试算法、应用算法

经过两讲的铺垫，我们可以开始学习机器学习算法了吧？

抱歉，还不可以。

在正式学习机器学习算法之前，我们要明确这样一个概念：

机器学习算法 = 模型 + 策略 + 算法

机器学习算法是万变不离其宗的，当你对 “机器学习算法 = 模型 + 策略 + 算法” 有了深入理解后，遇见问题不再是套用经典机器学习算法，而是可以自己灵活运用机器学习算法的基本思想，对于独特的问题给出独特的算法。

然而让人头痛的是，在机器学习以及AI领域，常有术语乱用、混用的现象，机器学习领域同一个词语在不同的文献中意义不同。

因此，希望读者不要只单纯记住模型、策略、算法这三个词，而是明确大多数机器学习算法都可拆分为三个部分，且对每个部分有深入理解。

1. 模型

1.1 模型定义

定义：模型是所要学习的条件概率分布或决策函数

对于初学者来说，上述定义可能会生涩难懂，本节我们会从另一个角度来理解何为模型，至于什么是条件概率分布和决策函数，我们会在以后的文章中讲到。

一个不严谨但浅显易懂的解释：模型是表达特征与标签或特征与特征之间关系的方法。

在监督学习问题中，我们想了解自变量X与因变量y之间的关系。知道了自变量X（特征），用什么方法来预测y（标签）？这个方法就是模型。在非监督学习问题中，如何表示自变量X（特征）之间的关系就是模型。（何为监督学习，何为非监督学习，见机器学习基本术语）

下面我们主要讨论监督学习问题。

我们来讨论预测北京房价的问题，假设已知房子的面积以及房屋离市中心的距离，求这套房子的价格。

最简单的预测方法是y = w1*x1 + w2*x2 + b这种情况。这就是一个模型，y代表房价，是因变量。x1、x2代表距离和面积是自变量，w1、w2、b是模型参数。

再具体一点，我们称这种通过特征的线性组合来进行预测的函数为线性模型。

y = -5*x1 + 6*x2 + 30是一个具体的线性模型， y = -7*x1 + 2*x2 + 10 又是一个具体的线性模型。

除了线性模型，我们也可以用判断语句（决策树模型）：

if 房子离市中心的距离<5km:
    房价 = 10万*房屋面积
elif 房子离市中心距离在5-10km之间：
    房价 = 8万*房屋面积
else:
    房价 = 6万*房屋面积

更多的模型我们会在之后的课程中讲到

1.2 两种不同的概念（泛化与具体）

如果较真的话，机器学习领域有两个不同的概念都叫模型，不过我们在平常使用“模型”这个词的时候，两个概念是混着用，且理解上不会产生困难。

一种是泛化的，参数不确定的，比如线性模型，一般情况下就是通指

其中的参数b、w1、w2等的取值都不确定。所有可能的集合为模型的假设空间。

另一种是参数取值确定的，这时参数一般就是从数据中学到的了。比如学习了北京数百个房屋数据，发现最符合真实结果的线性模型是 “房价 = 8*房屋面积 – 10*离市中心公里数 + 20 ”，这里面参数的取值都是具体的。

以后我们谈及“模型”时，其是指一类模型，比如线性模型、决策树模型，还是具体的一个公式，我们可以根据上下文语义自己推出。一般都是指具体的模型。

由此可见，在监督学习问题中，模型是指知道X预测y的方法（拓展到非监督问题上，模型是表达特征之间关系的方法）。如果细分，可以将“模型”分为两种概念，一种是泛化的，通指一大类结果，比如所有决策树的集合、所有线性模型的集合。另一种则是通过学习数据获得的具体的规则，比如参数已经确定的线性模型。

2. 策略

前面我们提到，模型的假设空间指所有参数可能取值的集合。

比如对于前面提到的房价预测问题，我们选用线性模型

y = w1*x1 + w2*x2 + b

这里参数w1，w2和b的取值有无限多种可能。

如此多的可能，我们如何评判一个模型对于预测房价这个问题的好坏？以什么为标准选择一个最好的模型？这就是我们机器学习算法的第二个部分——策略

2.1 损失函数

损失函数：度量模型预测结果好坏的函数

对于回归问题，最常见的评判一个模型好坏的标准（损失函数）是平方损失函数

即模型对样本的预测值与真实值的差的平方。

上面的公式是对一个样本，如果是对全部样本的话，则是

除此之外还有绝对损失函数（不常用）

对于损失函数的一个直观的理解：以已知房屋面积来预测房价为例，我们用损失函数是在衡量图中红色线的距离。我们希望损失函数最小，即红色线最短。这样，预测的结果与真实结果最接近。

对于分类问题，常见的损失函数有对数损失等。

各种各样的损失函数我们会在以后的教程中一一见到。

2.2 策略

对于房价预测问题，假设我们采用平方损失（真实值与模型预测值差的平方），该损失越小表明对应的模型效果越好。

既然如此，我们的策略就是最小化平方损失。

至于如何最小化就是算法的问题了。

有的时候我们的损失函数越大代表模型越好，这时，我们的策略就是最大损失函数。

值得注意的是损失函数大多数情况下有如下两个特点：

取值连续
对于模型的参数可导

分类问题中，预测结果的准确率是评判一个模型好坏的标准，但其不是损失函数。因为其不连续、对模型的参数更不可导。（假设我们有100个样本，则准确率取值只有0%,1%……100%有限种取值，是不连续的）

绝对损失是一个损失函数，但是我们不常用，因为其对参数不可导，这就使某些问题的求解很难实现。

3. 算法

在前面的讨论中，我们确定了模型，即用什么方式表达特征与标签之间的关系（线性、逻辑判断还是其他方法），又选择了一个策略，即评判模型好坏的标准。下一步就是使用算法来确定我们的模型参数具体的取值了，即从模型的假设空间中选择一个最优的模型。

算法是指学习模型的具体计算方法。

算法分为两类，一类为可直接求解的算法，另一类为需要迭代求解的算法。

具体算法我们将会在以后的内容中讲到。

总结与延伸

机器学习算法 = 模型 + 策略 + 算法
模型指表达特征与标签或特征与特征之间关系的方法（所要学习的条件概率分布或决策函数）
策略是评判一个模型好坏的指标。常常是连续的、对模型的参数可导。
算法是学习模型的具体计算方法。

读物推荐

统计学习三要素：《统计学习方法》（李航）1.3节

作者：M小白

未完待续…

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

文章推荐:

【AI小白】机器学习算法三要素

简介