1.构造亲和矩阵W
2.构造度矩阵D
3.拉普拉斯矩阵L
4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量
5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类
亲和矩阵 :W_ij=exp(-(d(s_i,s_j)/2o^2)) d(s_i,s_j) = ||s_i,s_j||. o 为事先设定的参数。
度矩阵:D_ii =sum(w_i)
规范相似矩阵:D^(-1/2)*W*D^(1/2) ,即:W(i,j)/(D(i,i))^1/2*(D(j,j))^1/2
计算(D-W)*x=lamd*D*x 的第二小特征值
Mahout 流程:
亲和矩阵格式
i,j,value
AffinityMatrixInputJob 输出格式
i vector
构造度矩阵(亲和矩阵,i行元素求和作为返回向量i列的值)
MatrixDiagonalizeJob
VectorCache 将向量存储在HDFS中
VectorMatrixMultiplicationJob 向量矩阵相乘
求矩阵的特征值:SSVDSolver (分布式SVD),默认是DistributedLanczosSolver(兰索斯分解器)
将U矩阵归一化
UnitVectorizerJob.runJob(data, unitVectors);
UnitVectorizerJob 归一化矩阵
输入矩阵V,输入矩阵U
v_ij = u_ij / sqrt(sum_j(u_ij * u_ij)
归一化后的U矩阵中i行的最大值作为特征向量的i列的值,以该向量作为种子生成初始中心。
Kmeans 聚类,生成最终的簇。
相关推荐
mahout聚类算法的介绍,例如:Canopy,KMeans,Fuzzy-KMeans,Spectral Clustering等参数介绍和适用场景介绍
适合centos7平台,Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源...Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
kmeans聚类算法 基于划分的方法单机版基于学习
Mahout 演示欢迎来到驯象... K均值聚类-. 模糊 KMeans 聚类-. 冠层聚类(文档聚类) -. K均值聚类-. 模糊 KMeans 聚类使用 Maven 构建mvn 全新安装执行java -jar mahout-demo-0.0.1-SNAPSHOT-jar-with-dependencies.jar
机器学习、推荐算法.提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等
分布式数据挖掘工具,实现了在hadoop分布式环境下的各种数据挖掘算法,比如kmeans,聚类等
Mahout支持K-Means等聚类算法,在此zip包中已经有打好jar包的资源,不需要用户再打jar包,可以直接使用。
Mahout作为Apache的开源机器学习项目,把推荐系统、分类和聚类等领域的核心算法浓缩到了可扩展的现成的库中。使用Mahout,你可以立即在自己的项目中应用亚马逊、Netflix及其他互联网公司所采用的机器学习技术。, ...
mahout是一款开源的机器学习算法,主要包括协同过滤推荐、聚类、分类等三大块内容。 推荐可以基于用户的推荐和基于物品的推荐,可以给用户推荐一些数据,智能化数据。 mahout描述 相关阅读 联系方式 以上观点纯属...
mahout0.9 的jar包,支持hadoop2(此为第一部分)
mahout聚类算法学习必备,这只是一个最主要的kmeans算法,希望能帮到你们
因此以反映上市公司盈利能力、偿债能力、成长能力、资产管理质量及股东获利能力5个方面共15项财务指标作为股票投资价值的衡量指标,首次尝试使用面向大数据的并行聚类算法Mahout中的K-means聚类算法和模糊K-means...
它实现的算法都被归入机器学习或者集体智慧的范畴,但是在这里Mahout主要注重协同过滤/推荐引擎、聚类和分类。 Mahout是可伸缩的。Mahout致力于实现海量数据,单机无法处理情况下的机器学习工具。在目前阶段,这种...
以淘宝网上海量的购买用户聚类作为应用背景,通过使用Hadoop平台的数据挖掘组件Mahout对用户聚类进行了实例研究,并给出了使用Mahout进行挖掘的一般步骤。结果表明,基于MapReduce的聚类算法在大规模数据集上具有较...
完全版的。Mahout 是一个开源的机器学习库,现在它主要包含的内容是协同过滤(collaborative filtering)、聚类和分类。Mahout用Java实现,并且是scalable的,和Hadoop结合紧密。
新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,...
该数据包含两列,数据之间用空格进行划分,主要用来进行聚类分析,可以直接作为mahout机器学习平台的实验数据
基于java讲解了mahout的主要的三种算法,聚类,分类,相似度,非常适合初学者的学习
Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,提供一些可扩展...Mahout包含许多实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用 Apache Hadoop 库,Mahout 可以有效地扩展到云中。
非常好的分布式数据挖掘资料,讲的很详细!非常不错的!