机器学习概述

机器学习作为一门交叉学科,目前为止没有非常权威的定义,或者说堪称权威的人下的定义太多,目前没有一个被大家公认的定义标准。最经典的也是T.Mitchell在他的那本《machine learning》中提到的:“利用经验改善系统自身的性能。”经典到过于简短。中科院的王珏研究员给出了如下说明:“令W是这个给定世界的有限或无限所有对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集Q∈W。机器学习的任务就是根据这个世界的对象子集Q,计算这个世界的统计分布。这样,在统计意义下,这个分布对这个世界的绝大多数对象是正确的。这就是这个世界的一个模型。”其实,人类认识的世界的方法就是通过有限的特征去猜测和拟合无限维特征构成的真实世界。所以以上的描述相对于机器学习可能又太大了一些。不过从其本质出发,机器学习其实就是人类研究世界、认识世界的方法得到机器更强的计算和存储能力扩展后的延伸。从这个角度来说之前的说明倒也贴近机器学习的最终追求。

机器学习研究的问题大体可以分为以下几类:分类、回归、聚类。这些其实也是人类认识世界主要通过的一些途径。

分类很好理解,生物学上把生物分为动物、植物、微生物,动物之下又分脊椎动物和无脊椎动物,脊椎动物又可以分为哺乳动物、鸟类、爬行动物、两栖类、鱼类……通过一层层的划分,将拥有更多共性的对象放到一起,可以方便知识的积累和研究的深入……而在机器学习上所说的分类问题,与平时说的分类问题类似,就是将一个对象分入事先划分好的类别中。比如对一个新的物种,判断它是属于动物还是植物,这就可以算一个机器学习上的分类问题。

而回归则是数学上的一个概念,学过统计学的同学应该都接触过。简单的说就是确定两种或两种以上变量间相互依赖的定量关系的一种统计方法。最简单的就是以前书本上的一元线性函数回归分析:已知y=ax+b,并且知道一系列的样本点(x1,y1)(x2,y2)……要求通过这些样本点推出a和b的值,从而得到y根据x变化的规律。回归分析的特点是要事先知道几个变量中服从哪一种大致规律(比如一元线性函数,或者一元二次函数,或者多元一次函数等等),如果这个大致的规律没有猜对,之后无论用什么方法对参数进行拟合都不会得到合适的结果。

聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。它有点像分类,它和分类不同的地方在于,分类是已经事先有了分好的类别,这就意味着这些类别也已经有大量已知的特征去刻画。而聚类则是事先不知道这些分类的特征,只拿到一堆混杂的样本,利用这些样本之间的关系,自动划分出几个类别。然后如果有需要可能会再对这些类别进行分析,对于稳定的聚类的结果可以作为之后分类方法的输入。类似于一杯水里混合了许多互不相溶的液体,这时可以用滤纸、分液法等方法对里面的液体进行分离,但是在分离之前,你并不知道最后会分出几种液体,分出的液体应该是什么样的你也不会知道。但是聚类之后的结果,你可以再进行研究,去定义这些新的分类。

机器学习的大部分问题就都可以归结到这三类问题中,比如排序问题、最后可以归结到分类上。而分类、回归、聚类的方法之间也不存在排他的界限,比如回归的结果可以作为分类的依据。聚类的方法可以作为分类的一个输入。等等。

This entry was posted in machine learning and tagged . Bookmark the permalink.

Leave a Reply

Your email address will not be published. Required fields are marked *