Mahout系列----谱聚类 - - ITeye博客

`

thd52java

浏览: 70578 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

wt_7628

liukp981

Char_CN

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

thd52java： 0.5的。
Mahout系列之----kmeans 聚类
yeelor：这是用的mahout的哪个版本呢
Mahout系列之----kmeans 聚类
hailongshih： lz用哪个版本jar包,试过3.0.3 3.0.2都不行
实现像百度一样的自动补全功能
thd52java： netkiller.github.com 写道开眼了，不过很多 ...
树的种类

Mahout系列----谱聚类

博客分类：

MAHOUT

谱聚类 mapreduce

阅读更多

1.构造亲和矩阵W
2.构造度矩阵D
3.拉普拉斯矩阵L

4.计算L矩阵的第二小特征值(谱)对应的特征向量Fiedler 向量

5.以Fiedler向量作为kmean聚类的初始中心,用kmeans聚类

亲和矩阵：W_ij=exp(-(d(s_i,s_j)/2o^2)) d(s_i,s_j) = ||s_i,s_j||. o 为事先设定的参数。

度矩阵：D_ii =sum(w_i)

规范相似矩阵：D^(-1/2)*W*D^(1/2) ，即：W(i,j)/（D(i,i)）^1/2*(D(j,j))^1/2

计算(D-W)*x=lamd*D*x 的第二小特征值

Mahout 流程：

           亲和矩阵格式
           i,j,value
           AffinityMatrixInputJob 输出格式
           i vector

           构造度矩阵（亲和矩阵，i行元素求和作为返回向量i列的值）
           MatrixDiagonalizeJob



          VectorCache 将向量存储在HDFS中
          VectorMatrixMultiplicationJob 向量矩阵相乘

求矩阵的特征值：SSVDSolver （分布式SVD），默认是DistributedLanczosSolver(兰索斯分解器)

将U矩阵归一化

UnitVectorizerJob.runJob(data, unitVectors);

               UnitVectorizerJob 归一化矩阵
             输入矩阵V，输入矩阵U
           v_ij = u_ij / sqrt(sum_j(u_ij * u_ij)

归一化后的U矩阵中i行的最大值作为特征向量的i列的值，以该向量作为种子生成初始中心。

Kmeans 聚类，生成最终的簇。

1
顶

1
踩

分享到：

Mahout系列----MinHash聚类 | 自动抽取新闻网页中的主要内容

2013-12-05 09:30
浏览 1860
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mahout聚类算法: mahout聚类算法的介绍,例如：Canopy，KMeans，Fuzzy-KMeans,Spectral Clustering等参数介绍和适用场景介绍

mahout-0.11.0.tar.gz: 适合centos7平台，Mahout 是 Apache Software Foundation（ASF）旗下的一个开源...Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

maven_mahout_template-mahout-0.6: kmeans聚类算法基于划分的方法单机版基于学习

mahout-demo:mahout 演示展示了它是如何工作的: Mahout 演示欢迎来到驯象... K均值聚类-. 模糊 KMeans 聚类-. 冠层聚类（文档聚类） -. K均值聚类-. 模糊 KMeans 聚类使用 Maven 构建mvn 全新安装执行java -jar mahout-demo-0.0.1-SNAPSHOT-jar-with-dependencies.jar

mahout-0.3.zip: 机器学习、推荐算法.提供一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序。经典算法包括聚类、分类、协同过滤、进化编程等等

mahout-distribution-0.5-src.tar.gz ): 分布式数据挖掘工具，实现了在hadoop分布式环境下的各种数据挖掘算法，比如kmeans，聚类等

mahout所需jar包: Mahout支持K-Means等聚类算法，在此zip包中已经有打好jar包的资源，不需要用户再打jar包，可以直接使用。

Mahout in action 中文版高清完整: Mahout作为Apache的开源机器学习项目，把推荐系统、分类和聚类等领域的核心算法浓缩到了可扩展的现成的库中。使用Mahout，你可以立即在自己的项目中应用亚马逊、Netflix及其他互联网公司所采用的机器学习技术。, ...

mumu-mahout:mumu-mahout是一个学习项目，主要通过这个项目来学习mahout的功能和使用方式。mahout是一款开源的机器学习算法，主要包括协同过滤推荐、聚类、分类等三大块内容。推荐可以基于用户的推荐和基于物品的推荐，可以给用户推荐一些数据，智能化数据: mahout是一款开源的机器学习算法，主要包括协同过滤推荐、聚类、分类等三大块内容。推荐可以基于用户的推荐和基于物品的推荐，可以给用户推荐一些数据，智能化数据。 mahout描述相关阅读联系方式以上观点纯属...

mahout0.9 jar包支持hadoop2: mahout0.9 的jar包，支持hadoop2（此为第一部分）

mahout学习: mahout聚类算法学习必备，这只是一个最主要的kmeans算法，希望能帮到你们

面向大数据的并行聚类算法在股票板块划分中的应用: 因此以反映上市公司盈利能力、偿债能力、成长能力、资产管理质量及股东获利能力5个方面共15项财务指标作为股票投资价值的衡量指标，首次尝试使用面向大数据的并行聚类算法Mahout中的K-means聚类算法和模糊K-means...

Mahout in action带书签目录中文完整版: 它实现的算法都被归入机器学习或者集体智慧的范畴，但是在这里Mahout主要注重协同过滤/推荐引擎、聚类和分类。 Mahout是可伸缩的。Mahout致力于实现海量数据，单机无法处理情况下的机器学习工具。在目前阶段，这种...

云环境下基于MapReduce的用户聚类研究与实现: 以淘宝网上海量的购买用户聚类作为应用背景，通过使用Hadoop平台的数据挖掘组件Mahout对用户聚类进行了实例研究，并给出了使用Mahout进行挖掘的一般步骤。结果表明，基于MapReduce的聚类算法在大规模数据集上具有较...

Mahout_in_Action: 完全版的。Mahout 是一个开源的机器学习库，现在它主要包含的内容是协同过滤（collaborative filtering）、聚类和分类。Mahout用Java实现，并且是scalable的，和Hadoop结合紧密。

基于Spark框架的聚类算法研究: 新型框架Spark部署在Hadoop平台上,它的机器学习算法几乎可以完全替代传统的Mahout Map Reduce的编程模式,但由于Spark的内存模型特点,执行速度快。该文研究了Spark中的机器学习中的聚类算法KMeans,先分析了算法思想,...

mahout机器学习实验数据: 该数据包含两列，数据之间用空格进行划分，主要用来进行聚类分析，可以直接作为mahout机器学习平台的实验数据

mahout 实例: 基于java讲解了mahout的主要的三种算法，聚类，分类，相似度，非常适合初学者的学习

MAHOUT源码包: Mahout 是 Apache Software Foundation（ASF）旗下的一个开源项目，提供一些可扩展...Mahout包含许多实现，包括聚类、分类、推荐过滤、频繁子项挖掘。此外，通过使用 Apache Hadoop 库，Mahout 可以有效地扩展到云中。

分布式聚类算法研究与应用: 非常好的分布式数据挖掘资料，讲的很详细！非常不错的！

Global site tag (gtag.js) - Google Analytics