18 June 2013

author : xiajun

kmeans

./mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job -k 3 --t1 0  --t2 4 --maxIter 3 --input testdata --output output
-k 为族数
maxiter 最大迭代数

mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile,而聚类必须是向量格式的,mahout提供下面两个命令来将文本转成向量形式

1.mahout seqdirectory:将文本文件转成SequenceFile文件,SequenceFile文件是一种二制制存储的key-value键值对,对应的源文件是org.apache.mahout.text.SequenceFilesFromDirectory.java
2.mahout seq2sparse:将SequenceFile转成向量文件,源文件是3.SparseVectorsFromSequenceFiles.java
3.mahout seqdumper:将SequenceFile文件转成可读的文本形式,文件是5.SequenceFileDumper.java
4.mahout vectordump:将向量文件转成可读的文本形式,源文件是VectorDumper.java
5.mahout clusterdump:分析最后聚类的输出结果,文件是ClusterDumper.java
例子:./mahout clusterdump --input ./out2/part-r-00000  --output /home/mahout-0.7/1.txt 具体每种命令如何用及参数选择,可以在命令行后面加-h或-help,例如,查看mahout seqdumper -h,这样终端下,就会列出详细的参数选项及说明

资料:

mahout算法集:http://www.cnblogs.com/dlts26/archive/2011/08/23/2150225.html

推酷:http://www.tuicool.com/topics/11020024?st=0&lang=1



blog comments powered by Disqus