城阳天河小学网站建设,私人网站如何建,做网站前置审批,一个新网站要怎么做seo矩阵的相似性度量的常用方法
1#xff0c;欧氏距离
欧式距离是最易于理解的一种距离计算方法#xff0c;源自欧式空间中两点间的距离公式。
(1)二维平面上的点 a ( x 1 , y 1 ) a(x_1,y_1) a(x1,y1)和点 b ( x 2 , y 2 ) b(x_2,y_2) b(x2,y2)的欧式距离为 d ( x …矩阵的相似性度量的常用方法
1欧氏距离
欧式距离是最易于理解的一种距离计算方法源自欧式空间中两点间的距离公式。
(1)二维平面上的点 a ( x 1 , y 1 ) a(x_1,y_1) a(x1,y1)和点 b ( x 2 , y 2 ) b(x_2,y_2) b(x2,y2)的欧式距离为 d ( x 1 − x 2 ) 2 ( y 1 − y 2 ) 2 d\sqrt{(x_1-x_2)^2(y_1-y_2)^2} d(x1−x2)2(y1−y2)2
(2)三维平面上的点 a ( x 1 , y 1 , z 1 ) a(x_1,y_1,z_1) a(x1,y1,z1)和点 b ( x 2 , y 2 , z − 2 ) b(x_2,y_2,z-2) b(x2,y2,z−2)的欧式距离为 d ( x 1 − x 2 ) 2 ( y 1 − y 2 ) 2 ( z 1 − z 2 ) 2 d\sqrt{(x_1-x_2)^2(y_1-y_2)^2(z_1-z_2)^2} d(x1−x2)2(y1−y2)2(z1−z2)2
不失一般性 D ( X i , X j ) ∑ l 1 d ( x i l − x j l ) 2 D(X_i,X_j)\sqrt{\sum_{l1}^d(x_{il}-x_{jl})^2} D(Xi,Xj)∑l1d(xil−xjl)2
其中D表示样本间的距离 X i , X j X_i,X_j Xi,Xj代表一个向量或称为样本点或者样本l是样本特征的维数 x i l , x j l x_{il},x_{jl} xil,xjl表示一个变量或成为属性d表示样本的总维数即样本特征的总数量下同。
2切比雪夫距离
在二维空间中切比雪夫距离的典型应用是解决国际象棋中的国王从一个格子走到另一个格子最少需要几步的问题。这种距离在模糊C-Means方法中得到了有效应用。切比雪夫距离的公式可以表示为 D ( X i , X j ) m a x l ( ∣ x i l − x j l ∣ ) D(X_i,X_j)max_l(|x_{il}-x_{jl}|) D(Xi,Xj)maxl(∣xil−xjl∣)
此公式的另一种表示形式为 D ( X i , X j ) lim p → ∞ ∑ l 1 d ( x i l − x j l ) 2 p D(X_i,X_j)\lim_{p\rightarrow\infty}\sqrt[p]{\sum_{l1}^d(x_{il}-x_{jl})^2} D(Xi,Xj)limp→∞p∑l1d(xil−xjl)2
3曼哈顿距离
在城市生活中只能沿着街道从一个地方走到另一个地方为此人们将生活中熟悉的城市街区距离形象地称为曼哈顿距离。该距离的表示公式为 D ( X i , X j ) ∑ l 1 d ( ∣ x i l − x j l ∣ ) D(X_i,X_j)\sum_{l1}^d(|x_{il}-x_{jl}|) D(Xi,Xj)∑l1d(∣xil−xjl∣)
曼哈顿距离在基于自适应谐振理论的同步聚类中有较好的应用但是需要注意的是这种距离不再符合在特征空间中的转化和旋转的不变性。
4闵可夫斯基距离
闵可夫斯基距离是一种p范数的形式公式可以表示为 D ( X i , X j ) ∑ l 1 d ( x i l − x j l ) 2 p D(X_i,X_j)\sqrt[p]{\sum_{l1}^d(x_{il}-x_{jl})^2} D(Xi,Xj)p∑l1d(xil−xjl)2
从式中可以看出若p为无穷大时这种距离可以称为切比雪夫距离若p2时就是欧几里得距离那么当p1时就是曼哈顿距离。
5马氏距离
马氏距离是一种关于协方差矩阵的距离度量表示方法其公式为 D ( X i , X j ) ( X i − X j ) T S − 1 ( X i − X j ) D(X_i,X_j)\sqrt{(X_i-X_j)^TS^{-1}(X_i-X_j)} D(Xi,Xj)(Xi−Xj)TS−1(Xi−Xj)
其中T表示转置S为样本协方差矩阵。马氏距离的优点是距离与属性的量纲无关并排除了属性之间的相关性干扰若各个属性之间独立同分布则协方差矩阵为单位矩阵。这样平方马氏距离也就转化成了欧氏距离。
6对称点距离
当聚类存在对称模式时就可以使用对称点距离。其距离公式为 D ( X i , X r ) m a x j 1 , 2 , … , N , j ≠ i ∣ ∣ ( X i − X r ) ( X j − X r ) ∣ ∣ ∣ ∣ ( X i − X r ) ∣ ∣ ∣ ∣ ( X j − X r ) ∣ ∣ D(X_i,X_r)max_{j1,2,…,N,j≠i}\frac{||(X_i-X_r)(X_j-X_r)||}{||(X_i-X_r)||||(X_j-X_r)||} D(Xi,Xr)maxj1,2,…,N,ji∣∣(Xi−Xr)∣∣∣∣(Xj−Xr)∣∣∣∣(Xi−Xr)(Xj−Xr)∣∣
对称点距离就是该点到对称点和其他点距离的最小值。
7相关系数
距离度量也可以源于相关系数如皮尔逊相关系数的定义为 ρ x i x j C o v ( X i , X j ) D ( X i ) D ( X j ) ρ_{x_ix_j}\frac{Cov(X_i,X_j)}{\sqrt{D(X_i)}\sqrt{D(X_j)}} ρxixjD(Xi) D(Xj) Cov(Xi,Xj)
8余弦相似度
最后一种直接计算相似性的方法是余弦相似度。其表示形式为 S ( X i , X j ) c o s α X i T X j ∣ ∣ X i ∣ ∣ ∣ ∣ X j ∣ ∣ S(X_i,X_j)cosα\frac{X_i^TX_j}{||X_i||\ ||X_j||} S(Xi,Xj)cosα∣∣Xi∣∣ ∣∣Xj∣∣XiTXj
这里S表示样本之间的相似性以下同。在特征空间中两个样本越相似则他们越趋向于平行那么他们的余弦值也就越大。
附为什么大模型每个层之间要加入Layer Normalization原因就是因为神经网络的基本计算就是点积相似度计算而点积相似度的取值范围是没有约束的这导致神经网络结构很难学习因为variance太大了。所以引入Layer Normalization之后可以让点积相似度变成了余弦相似度。当然中间有一个系数就是根号的输入向量的维度这也就是为什么transformer架构中为什么要除以根号的输入向量的维度的原因因为除以根号的输入向量的维度之后Norm之后的向量神经元的点积相似度就等于余弦相似度了。所以让没有取值范围约束的点积相似度有了约束【-11】从而可以让神经网络稳定的训练。
需要注意的是最后三类相似度计算方法不再符合对称性非负性与反身性的要求即属于非可度量的范畴。连续性变量的相似性度量方法在不同聚类算法中的应用如下图所示。