`
thd52java
  • 浏览: 70578 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Mahout系列----谱聚类

阅读更多

1.构造亲和矩阵W
2.构造度矩阵D
3.拉普拉斯矩阵L

4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量

5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类


亲和矩阵 :W_ij=exp(-(d(s_i,s_j)/2o^2))             d(s_i,s_j)  = ||s_i,s_j||.    o 为事先设定的参数。

度矩阵:D_ii  =sum(w_i) 

规范相似矩阵:D^(-1/2)*W*D^(1/2) ,即:W(i,j)/(D(i,i))^1/2*(D(j,j))^1/2

计算(D-W)*x=lamd*D*x  的第二小特征值

 

 

Mahout 流程:

          

           亲和矩阵格式
           i,j,value
           AffinityMatrixInputJob 输出格式
           i  vector


           构造度矩阵(亲和矩阵,i行元素求和作为返回向量i列的值)
           MatrixDiagonalizeJob


     

          VectorCache 将向量存储在HDFS中
          VectorMatrixMultiplicationJob 向量矩阵相乘
         

          求矩阵的特征值:SSVDSolver  (分布式SVD),默认是DistributedLanczosSolver(兰索斯分解器)

         

         将U矩阵归一化

         UnitVectorizerJob.runJob(data, unitVectors);

               UnitVectorizerJob 归一化矩阵
             输入矩阵V,输入矩阵U
           v_ij = u_ij / sqrt(sum_j(u_ij * u_ij)

 

               归一化后的U矩阵中i行的最大值作为特征向量的i列的值,以该向量作为种子生成初始中心。

         Kmeans 聚类,生成最终的簇。


1
1
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics