请选择 进入手机版 | 继续访问电脑版
 找回密码
 立即注册
首页 社区 AI 常见的几种聚类方法

常见的几种聚类方法

猿梦 2022-11-24 21:56:15
桌子谢紫萍跑进来¥俺朋友们不得了¥作为无监督学习的一个重要方法,聚类的思想就是把属性相似的样本归到一类。对于每一个数据点,我们可以把它归到一个特定的类,同时每个类之间的所有数据点在某种程度上有着共性,比如空间位置接近等特性。多用于数据挖掘、数据分析等一些领域。下面简单介绍一下几种比较常见的聚类算法。K-means聚类方法大家应该都听说过,在各种机器学习书籍教程中也是无监督学习部分非常经典的例子。其核心主要为两个部分:其一是K,K在这里代表着类的数目,我们要把数据聚为多少类。其二是means,表示在每一次计算聚类中心的时候采取的是计算平均值。我们假设样本总数为n,K-means聚类法可以简单表示为一下几个步骤:1. 在样本中随机选取K个点,作为每一类的中心点。2. 计算剩下 n-K 个样本点到每个聚类中心的距离(距离有很多种,假设这里采用欧式距离)。对于每一个样本点,将它归到和他距离最近的聚类中心所属的类。3. 重新计算每个聚类中心的位置:步骤 2 中得到的结果是 n 个点都有自己所属的类,将每一个类内的所有点取平均值(这里假设是二维空间,即对 x 和 y 坐标分别取平均),计算出新的聚类中心。4. 重复步骤 2 和 3 的操作,直到所有的聚类中心不再改变。分析一下,算法本身的思想并不难。但是K值如何选择就见仁见智了,这里可以引入类内距离 J,每一类都会对应一个 J 值,其计算就是把类内所有点之间的距离累加起来。我们肯定希望 J 越小越好,因为小的类内间距代表这一类样本的相似程度更高(离得更近)。如果 K 很小,则聚类可能不彻底,即隔着很远的两波点也被聚为一类,会使 J 变得很大;相反的,过大的 K 虽然会降低类内间距 J ,但有时候分得过细会对数据的泛化性造成损害,没有必要弄这么多类。因此 K 的选择应该是具体问题具体分析。还有一个问题就是初始聚类中心的选择。不当的初始化会给算法的收敛带来更多的计算开销。试想一下,如果一开始把离得很近的 K 个点都设为聚类中心,那么算法的迭代次数会更多一些。HAC也是一种比较经典的聚类方法,其主要思想是先把每一个样本点归为一类,再通过计算类间的距离,来对最相似或者距离最近的类进行归并,合成位一个新的类。反复循环,直到满足特定的迭代条件即可。HAC的核心思想主要分为如下几个步骤:1. 将每个样本点都视作一类,一共有n个类。2. 计算所有类之间两两的类间距离(类间距离计算方式多种多样,可以取最近、最远、找重心等等,这里不做详述),然后把距离最近的两个类进行合并,组成一个新的更大的类。3. 重复步骤 2 中的操作,直到达到特定的迭代条件(例如当前类的数目是初始时的 10% ,即 90% 的类都得到了合并;最小的类间距离大于预先设定的阈值等等),算法结束。和K-means算法中的 K 值选取一样,HAC中如何选择迭代的终止条件也是一个比较复杂的问题,需要根据一定的经验,并且具体问题具体分析。这种方法的核心思想是先计算出聚类中心,再把所有的样本点按照就近原则,归到离自身最近的聚类中心所对应的类。最大最小是指在所有的最小距离中选取最大的。其主要的算法步骤如下:1. 随机选择一个点,作为第一个类的聚类中心 Z1。2. 选择与步骤 1 中距离最远的样本点,作为第二个类的聚类中心 Z2。3. 逐个计算每个点到所有聚类中心的距离,并把所有的最短的距离记录下来。4. 在这些最短距离中挑选最大的值,如果这个最大值大于  ,其中  ,那么将这个最大距离所对应的另一个样本点作为新的聚类中心;否则整个算法结束。5. 重复步骤 3 和 4 的操作,直到 4 中不再出现新的聚类中心。6. 将所有的样本归到与他自身最近的聚类中心。参考:p/4f032dccdcefp/bbac132b15a5u0/article/details/

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册