机器学习:kNN近邻算法

  • 时间:
  • 浏览:0
  • 来源:决战梭哈棋牌APP下载_决战梭哈棋牌APP官网

2)按照距离的递增关系进行排序;

1)计算测试数据与各个训练数据之间的距离;

K最近邻(k-Nearest Neighbor,KNN)分类算法,是有有4个 理论上比较心智成熟 图片 是什么是什么图片 图片 的句子是什么是什么期期的依据 ,也是最简单的机器学习算法之一。该依据 的思路是:机会有有4个 样本在特性空间中的k个最累似 (即特性空间中最邻近)的样本中的大多数属于某有有4个 类别,则该样本也属于你这人类别。KNN算法中,所选着的邻居全部都会机会正确分类的对象。该依据 在定类决策上只依据 最邻近的有有4个 机会有2个样本的类别来决定待分样本所属的类别。 KNN依据 其实从原理上也依赖于极限定理,但在类别决策时,只与极血块的相邻样本有关。机会KNN依据 主要靠符近有限的邻近的样本,而全部都会靠判别类域的依据 来选着所属类别的,已经 对于类域的交叉或重叠较多的待分样本集来说,KNN依据 较一些依据 更为适合。

在KNN中,通过计算对象间距离来作为各个对象之间的非累似 性指标,解决了对象之间的匹配间题,在这里距离一般使用欧氏距离或曼哈顿距离:

接下来对KNN算法的思想总结一下:也不在训练集中数据和标签已知的情況下,输入测试数据,将测试数据的特性与训练集中对应的特性进行相互比较,找到训练集中与之最为累似 的前K个数据,则该测试数据对应的类别也不K个数据中经常出显次数最多的那个分类,其算法的描述为:

上图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?机会K=3,机会红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,机会K=5,机会蓝色四方形比例为3/5,已经 绿色圆被赋予蓝色四方形类。

4)选着前K个点所在类别的经常出显频率;

KNN算法不仅还才能 用于分类,还还才能 用于回归。通过找出有有4个 样本的k个最近邻居,将有有哪些邻居的属性的平均值赋给该样本,就还才能 得到该样本的属性。更有用的依据 是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。

output:

5)返回前K个点中经常出显频率最高的类别作为测试数据的预测分类。

一起去,KNN通过依据 k个对象中占优的类别进行决策,而全部都会单一的对象类别决策。这两点也不KNN算法的优势。

3)选着距离最小的K个点;