文章目录

一、kNN概念描述

kNN算法又称为k最近邻(k-nearest neighbor classification)分类算法。所谓的k最近邻，就是指最接近的k个邻居（数据），即每个样本都可以由它的K个邻居来表达。

kNN算法的核心思想是，在一个含未知样本的空间，可以根据离这个样本最邻近的k个样本的数据类型来确定样本的数据类型。

该算法涉及3个主要因素：训练集、距离与相似的衡量、k的大小；

主要考虑因素：距离与相似度的；

右图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？

如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

KNN算法不仅可以用于分类，还可以用于过渡，比如在两个色度之间取过渡色。

KNN算法当前主要使用加权投票法，即根据距离的远近，对近邻的投票进行加权，距离越近则权重越大（权重为距离平方的倒数）。

优点：易于实现，无需估计参数，无需训练，支持增量学习，能对超多边形的复杂决策空间建模；

缺点：就是计算量较大，分析速度慢；