网站建设网站模板,厦门网站建设网站制作,网站制作方案有哪些,昌江县住房和城乡建设局网站核心思想
这篇论文的核心思想是提出一种全新的、数据驱动的自主模糊聚类#xff08;Autonomous Fuzzy Clustering, AFC#xff09;算法。其核心创新在于#xff0c;它巧妙地结合了模糊聚类的灵活性和基于中位数#xff08;medoids#xff09;聚类的可解释性#xff0c;并…
核心思想
这篇论文的核心思想是提出一种全新的、数据驱动的自主模糊聚类Autonomous Fuzzy Clustering, AFC算法。其核心创新在于它巧妙地结合了模糊聚类的灵活性和基于中位数medoids聚类的可解释性并通过一个自适应的高斯核来控制模糊程度从而实现了两大目标
自主确定聚类数量C无需用户预先指定聚类数算法能根据数据的内在结构局部模式自动推断出最优的聚类数量。获得高质量的初始划分避免了传统模糊C均值FCM等算法因随机初始化而陷入局部次优解的问题提供了一个稳健且高质量的初始聚类中心集。
该算法通过一个巧妙的“微聚类”microcluster机制将所有数据点视为一个微聚类利用高斯核计算它们之间的相互隶属度然后通过计算每个数据点的“累积隶属度”cumulative membership并寻找其局部最大值来一次性地、自主地选出初始的聚类中位数。目标函数
AFC算法的目标函数是整个优化过程的基石它定义了算法需要最小化的准则。
其目标函数如下
J(U,P)∑k1K∑i1Cμˉi,k∥xk−pi∥2J(U, P) \sum_{k1}^{K} \sum_{i1}^{C} \bar{\mu}_{i,k} \|x_k - p_i\|^2J(U,P)k1∑Ki1∑Cμˉi,k∥xk−pi∥2
其中
J(U,P)J(U, P)J(U,P) 是需要最小化的目标函数值。U[μˉi,k]i1:C,k1:KU [\bar{\mu}_{i,k}]_{i1:C, k1:K}U[μˉi,k]i1:C,k1:K 是模糊隶属度矩阵。μˉi,k\bar{\mu}_{i,k}μˉi,k 表示数据样本 xkx_kxk 属于由中位数 pip_ipi 代表的第 iii 个聚类的归一化隶属度。P[pi]i1:CP [p_i]_{i1:C}P[pi]i1:C 是中位数矩阵。pip_ipi 是第 iii 个聚类的中位数它必须是数据集中的一个实际存在的样本点。KKK 是数据集中的总样本数。CCC 是聚类的数量在算法开始时是未知的。∥xk−pi∥2\|x_k - p_i\|^2∥xk−pi∥2 是数据样本 xkx_kxk 与聚类中位数 pip_ipi 之间的欧几里得距离的平方。
这个目标函数可以理解为加权的平方误差和。算法的目标是找到一组中位数 PPP 和对应的隶属度 UUU使得所有样本到其所属聚类中心的加权距离平方和最小。目标函数的优化过程
AFC算法对目标函数的优化过程分为两个主要阶段
第一阶段自主初始化 (核心创新)
这一阶段不直接优化上述目标函数而是为第二阶段提供一个极佳的起点。其核心思想是
计算自适应核宽 σG\sigma_GσG根据所有数据点间的相互距离和用户设定的“粒度级别”GGG通过公式(5)计算出一个全局的高斯核宽度 σG\sigma_GσG。这个 σG\sigma_GσG 控制了“影响范围”是算法数据驱动特性的体现。构建微聚类隶属度矩阵 UmicroU_{micro}Umicro将每个数据点 xkx_kxk 都视为一个微聚类的中位数利用高斯函数计算它对所有其他数据点 xjx_jxj 的隶属度
μ(xk,xj,σG)e−∥xk−xj∥2/σG2\mu(x_k, x_j, \sigma_G) e^{-\|x_k - x_j\|^2 / \sigma_G^2}μ(xk,xj,σG)e−∥xk−xj∥2/σG2
然后进行归一化得到微聚类隶属度矩阵 UmicroU_{micro}Umicro。计算累积隶属度 λ(xk)\lambda(x_k)λ(xk)对于每个数据点 xkx_kxk计算它作为微聚类中位数时对所有 KKK 个样本包括自己的隶属度之和
λ(xk)∑j1Kμˉk,j′\lambda(x_k) \sum_{j1}^{K} \bar{\mu}_{k,j}λ(xk)j1∑Kμˉk,j′
这个 λ(xk)\lambda(x_k)λ(xk) 可以看作是该点作为“局部模式代表”的综合吸引力或代表性强度。自主选择初始中位数 P0P^0P0找出所有满足 条件1 的数据点
如果 λ(xk)max∥xk−xj∥≤σG;k≠j(λ(xj)), 则 xk∈{p}C0\text{如果 } \lambda(x_k) \max_{\|x_k - x_j\| \leq \sigma_G; k \neq j} (\lambda(x_j)) \text{, 则 } x_k \in \{p\}_C^0如果 λ(xk)∥xk−xj∥≤σG;kjmax(λ(xj)), 则 xk∈{p}C0
这意味着xkx_kxk 的累积隶属度在其以 σG\sigma_GσG 为半径的邻域内是最大的。这些点就是局部模式的峰值被选为初始聚类中位数 P0P^0P0。此时聚类数 CCC 也就被自主确定了。
第二阶段迭代优化
在获得高质量的初始中位数 P0P^0P0 后算法进入标准的交替优化过程以最小化目标函数 J(U,P)J(U, P)J(U,P)。
更新中位数 PtP^tPt (固定 Ut−1U^{t-1}Ut−1)对于每个聚类 iii在所有数据样本中寻找一个新的中位数 pitp_i^tpit使得该聚类内所有样本的加权距离平方和最小
pitargminz∈{x}(∑k1Kμˉi,kt−1∥xk−z∥2)p_i^t \arg \min_{z \in \{x\}} \left( \sum_{k1}^{K} \bar{\mu}^{t-1}_{i,k} \|x_k - z\|^2 \right)pitargz∈{x}min(k1∑Kμˉi,kt−1∥xk−z∥2)
由于中位数必须是实际数据点因此这是一个在有限集合 {x}\{x\}{x} 上的搜索问题。更新隶属度 UtU^tUt (固定 PtP^tPt)根据新的中位数位置 PtP^tPt重新计算所有样本的归一化隶属度
μˉi,ktμ(pit,xk,σG)∑j1Cμ(pjt,xk,σG)\bar{\mu}^t_{i,k} \frac{\mu(p_i^t, x_k, \sigma_G)}{\sum_{j1}^{C} \mu(p_j^t, x_k, \sigma_G)}μˉi,kt∑j1Cμ(pjt,xk,σG)μ(pit,xk,σG)
这里使用的仍然是第一阶段计算出的、固定的 σG\sigma_GσG。收敛判断重复步骤1和2计算新的目标函数值 J(Ut,Pt)J(U^t, P^t)J(Ut,Pt)。当目标函数值的变化小于预设阈值或达到最大迭代次数时停止迭代。主要贡献点
数据驱动的自主聚类这是最核心的贡献。算法通过“累积隶属度”和局部最大值搜索完全自主地确定了聚类数量 CCC无需任何复杂的迭代搜索或外部参数调整解决了FCM等算法的一大痛点。稳健的高质量初始化提出的初始化方法基于数据的全局结构避免了随机初始化的不稳定性为后续优化提供了极佳的起点提高了算法的鲁棒性和收敛速度。可解释的聚类中心采用中位数实际数据点而非均值虚拟点作为聚类中心使得聚类结果更具可解释性尤其适用于需要理解“典型样本”是什么的应用场景。数据驱动的模糊度控制用一个从数据中自适应计算的高斯核宽度 σG\sigma_GσG 来控制模糊度取代了传统FCM中需要手动设定的模糊加权指数 mmm使算法更加自主。高效的流式数据扩展提出了一种“逐块”chunk-by-chunk的流式数据聚类机制。它能高效地处理数据流通过融合新旧聚类中心并移除冗余实现了对概念漂移和概念突变的自适应。计算效率对于静态数据其时间复杂度为 O(K2HCK)O(K^2 HCK)O(K2HCK)其中 K2K^2K2 项来自初始化HCKHCKHCK 项来自迭代优化整体效率较高。实验结果
论文在16个基准数据集包括合成数据、真实世界数据和图像数据上进行了大量实验结果证明了AFC算法的有效性。
静态数据聚类在6个合成数据集和8个真实世界数据集上AFC算法G4G4G4在总体排名Table V上优于12种最先进的对比算法如FCM, K-means, DBSCAN, AP等。它在Calinski Harabasz指数CHI、Davies-Bouldin指数DBI和轮廓系数SC等质量指标上表现最佳表明其聚类结果紧凑且分离度好。流式数据聚类在8个真实世界数据集上AFC算法与5种在线聚类算法如EC, OKM相比同样取得了优异的性能Table VI在CHI和SC等指标上排名第一或前三证明了其在处理数据流时的有效性。大规模高维数据在MNIST和FMNIST两个大规模高维数据集上AFC算法的计算效率远高于对比算法ADP同时聚类质量CHI也显著更好。参数 GGG 的影响实验表明粒度级别 GGG 控制着聚类的精细程度。较小的 GGG如1,2导致粗粒度、少聚类较大的 GGG如5,6导致细粒度、多聚类。推荐值 G4G4G4 或 555 能在多数情况下取得良好平衡。算法实现过程详解
以下是AFC算法静态数据的详细实现步骤对应论文中的 Algorithm 1
输入静态数据集 {x}{x1,x2,...,xK}\{x\} \{x_1, x_2, ..., x_K\}{x}{x1,x2,...,xK} 和粒度级别 GGG。计算自适应核宽 σG\sigma_GσG
根据公式(5)利用所有数据点对之间的距离和用户设定的 GGG计算出 σG2\sigma_G^2σG2。这个值在整个算法过程中保持不变。
构建微聚类隶属度矩阵 UmicroU_{micro}Umicro
对于每个数据点 xkx_kxk作为微聚类中位数计算它对所有 KKK 个数据点 xjx_jxj 的高斯隶属度 μ(xk,xj,σG)\mu(x_k, x_j, \sigma_G)μ(xk,xj,σG)。对每个 xjx_jxj将其对所有微聚类的隶属度进行归一化得到 μˉk,j′\bar{\mu}_{k,j}μˉk,j′。最终形成一个 K×KK \times KK×K 的矩阵 UmicroU_{micro}Umicro。
计算累积隶属度 λ(xk)\lambda(x_k)λ(xk)
对 UmicroU_{micro}Umicro 的每一行对应一个微聚类中位数 xkx_kxk求和得到该点的累积隶属度 λ(xk)\lambda(x_k)λ(xk)。
自主选择初始中位数 P0P^0P0
遍历所有数据点 xkx_kxk检查其是否满足条件1即在以 σG\sigma_GσG 为半径的邻域内其 λ(xk)\lambda(x_k)λ(xk) 是否是最大的。将所有满足条件的 xkx_kxk 收集起来构成初始聚类中位数集合 P0{p10,p20,...,pC0}P^0 \{p^0_1, p^0_2, ..., p^0_C\}P0{p10,p20,...,pC0}。此时聚类数 CCC 被确定。
初始化隶属度矩阵 U0U^0U0
使用初始中位数 P0P^0P0 和固定的 σG\sigma_GσG根据公式(3)计算所有样本的归一化隶属度得到 U0U^0U0。
迭代优化
初始化t1t 1t1计算初始目标函数值 J(U0,P0)J(U^0, P^0)J(U0,P0)。循环
步骤1 (更新 PtP^tPt)对每个聚类 iii根据公式(9)在原始数据集 {x}\{x\}{x} 中搜索一个新的中位数 pitp_i^tpit使得该聚类的加权距离平方和最小。步骤1 (更新 UtU^tUt)根据新的中位数 PtP^tPt根据公式(10)重新计算所有样本的归一化隶属度 UtU^tUt。步骤2 (收敛判断)计算新的目标函数值 J(Ut,Pt)J(U^t, P^t)J(Ut,Pt)。如果 JJJ 的变化足够小收敛则跳出循环否则令 tt1t t 1tt1返回步骤1。输出最终的聚类中位数矩阵 PPP 和隶属度矩阵 UUU。
综上所述这篇论文提出了一种思想新颖、实现巧妙的自主模糊聚类算法。它通过“累积隶属度”这一核心概念成功地将模糊聚类的优势与自主性、可解释性相结合为解决聚类分析中的核心难题提供了新的思路。
问题分析
公式 (5) 是论文中用于计算自适应核宽度 σG2\sigma_G^2σG2 的核心公式它是 AFC 算法中的一个关键步骤。该公式通过数据点之间的相互距离和用户设定的“粒度级别” GGG 来计算高斯核的宽度从而控制隶属度函数的模糊程度。以下是对其数学原理的详细分析公式回顾
公式 (5) 表达如下
σg21∑i1K−1∑ji1Kwg,i,j∑i1K−1∑ji1Kwg,i,j∥xi−xj∥2
\sigma_g^2 \frac{1}{\sum_{i1}^{K-1} \sum_{ji1}^{K} w_{g,i,j}} \sum_{i1}^{K-1} \sum_{ji1}^{K} w_{g,i,j} \|x_i - x_j\|^2
σg2∑i1K−1∑ji1Kwg,i,j1i1∑K−1ji1∑Kwg,i,j∥xi−xj∥2
其中
g1,2,…,Gg 1, 2, \dots, Gg1,2,…,G表示粒度级别的索引GGG 是用户选择的非负整数。wg,i,jw_{g,i,j}wg,i,j 是一个权重函数定义为
wg,i,j{1,如果 ∥xi−xj∥≤σg−1,0,否则.
w_{g,i,j}
\begin{cases}
1, \text{如果 } \|x_i - x_j\| \leq \sigma_{g-1}, \\
0, \text{否则}.
\end{cases}
wg,i,j{1,0,如果 ∥xi−xj∥≤σg−1,否则.σ022K(K−1)∑i1K−1∑ji1K∥xi−xj∥2\sigma_0^2 \frac{2}{K(K-1)} \sum_{i1}^{K-1} \sum_{ji1}^{K} \|x_i - x_j\|^2σ02K(K−1)2∑i1K−1∑ji1K∥xi−xj∥2这是初始核宽度的计算公式。数学原理分析
1. σ02\sigma_0^2σ02 的计算
σ02\sigma_0^2σ02 是所有数据点对之间欧几里得距离平方的平均值乘以一个常数因子 2K(K−1)\frac{2}{K(K-1)}K(K−1)2。它的作用是提供一个全局尺度衡量数据集的整体分布范围。具体来说
σ022K(K−1)∑i1K−1∑ji1K∥xi−xj∥2
\sigma_0^2 \frac{2}{K(K-1)} \sum_{i1}^{K-1} \sum_{ji1}^{K} \|x_i - x_j\|^2
σ02K(K−1)2i1∑K−1ji1∑K∥xi−xj∥2
这里的分母 K(K−1)K(K-1)K(K−1) 是所有可能的数据点对的数量无序对因此 σ02\sigma_0^2σ02 可以看作是对数据点间平均距离平方的一种归一化估计。σ02\sigma_0^2σ02 是整个算法的起点后续的 σg2\sigma_g^2σg2 都是基于它递归计算的。
2. 递归计算 σg2\sigma_g^2σg2
对于 g0g 0g0σg2\sigma_g^2σg2 的计算依赖于前一步的 σg−12\sigma_{g-1}^2σg−12。具体来说公式 (5) 中的 wg,i,jw_{g,i,j}wg,i,j 使用了 σg−1\sigma_{g-1}σg−1 作为阈值来决定是否将数据点对 (xi,xj)(x_i, x_j)(xi,xj) 的距离平方纳入加权平均的计算。wg,i,jw_{g,i,j}wg,i,j 的作用是
如果两个数据点 xix_ixi 和 xjx_jxj 的距离小于或等于 σg−1\sigma_{g-1}σg−1则认为它们在当前粒度级别 ggg 下是“邻近”的权重为 1。否则权重为 0表示这两个点在当前粒度级别下不相关。
因此σg2\sigma_g^2σg2 的计算可以理解为
σg2邻近点对的距离平方之和邻近点对的数量
\sigma_g^2 \frac{\text{邻近点对的距离平方之和}}{\text{邻近点对的数量}}
σg2邻近点对的数量邻近点对的距离平方之和
其中“邻近点对”是指满足 ∥xi−xj∥≤σg−1\|x_i - x_j\| \leq \sigma_{g-1}∥xi−xj∥≤σg−1 的点对。
3. 自适应性与粒度控制
通过递归地计算 σg2\sigma_g^2σg2算法能够根据数据的局部结构动态调整核宽度。具体来说
当 g1g 1g1 时σ12\sigma_1^2σ12 基于 σ02\sigma_0^2σ02 计算此时的邻近关系较为宽松因为 σ02\sigma_0^2σ02 是全局尺度。随着 ggg 的增加σg−1\sigma_{g-1}σg−1 逐渐减小邻近点对的定义变得越来越严格这使得 σg2\sigma_g^2σg2 能够捕捉到更精细的局部模式。
用户可以通过选择不同的 GGG 来控制聚类结果的精细程度
较小的 GGG 导致较大的 σg2\sigma_g^2σg2聚类结果较粗略。较大的 GGG 导致较小的 σg2\sigma_g^2σg2聚类结果更精细。4. 高斯核宽度的意义
在 AFC 算法中高斯核宽度 σG2\sigma_G^2σG2 最终用于计算隶属度函数
μ(pi,xk,σG)e−∥pi−xk∥2σG2
\mu(p_i, x_k, \sigma_G) e^{-\frac{\|p_i - x_k\|^2}{\sigma_G^2}}
μ(pi,xk,σG)e−σG2∥pi−xk∥2
其中pip_ipi 是聚类中心中位数xkx_kxk 是数据点。σG2\sigma_G^2σG2 控制了隶属度函数的“影响范围”。较大的 σG2\sigma_G^2σG2 表示每个聚类中心的影响范围较大数据点更容易被分配到多个聚类较小的 σG2\sigma_G^2σG2 则表示影响范围较小聚类结果更加明确。通过从数据中自适应地计算 σG2\sigma_G^2σG2AFC 算法避免了手动调参的困难同时能够更好地适应数据的内在结构。
5. 递归过程的稳定性
由于 σg2\sigma_g^2σg2 是基于前一步的 σg−12\sigma_{g-1}^2σg−12 计算的这种递归方式确保了计算的稳定性和一致性。每一步的 σg2\sigma_g^2σg2 都是从数据中提取的统计量而不是人为设定的参数因此具有很强的数据驱动特性。总结
公式 (5) 的数学原理在于通过递归的方式利用数据点之间的距离信息和用户设定的粒度级别 GGG自适应地计算出适合当前数据分布的高斯核宽度 σG2\sigma_G^2σG2。这一过程的核心思想是
全局到局部的过渡从全局尺度 σ02\sigma_0^2σ02 开始逐步细化到更局部的结构。数据驱动的自适应性通过递归计算算法能够自动调整核宽度无需人工干预。粒度控制用户可以通过调整 GGG 来控制聚类结果的精细程度从而灵活应对不同复杂度的数据分布。
这种设计不仅提高了算法的鲁棒性和通用性还使得 AFC 算法能够在多种场景下静态数据和流式数据表现出优异的性能。