推荐系统

18 June 2013

author : xiajun

kmeans

./mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job -k 3 --t1 0  --t2 4 --maxIter 3 --input testdata --output output
-k 为族数
maxiter 最大迭代数

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile，而聚类必须是向量格式的，mahout提供下面两个命令来将文本转成向量形式

mahout seqdirectory：将文本文件转成SequenceFile文件，SequenceFile文件是一种二制制存储的key-value键值对，对应的源文件是org.apache.mahout.text.SequenceFilesFromDirectory.java
mahout seq2sparse：将SequenceFile转成向量文件,源文件是3.SparseVectorsFromSequenceFiles.java
mahout seqdumper：将SequenceFile文件转成可读的文本形式,文件是5.SequenceFileDumper.java
mahout vectordump：将向量文件转成可读的文本形式,源文件是VectorDumper.java
mahout clusterdump：分析最后聚类的输出结果,文件是ClusterDumper.java
例子：./mahout clusterdump --input ./out2/part-r-00000  --output /home/mahout-0.7/1.txt 具体每种命令如何用及参数选择，可以在命令行后面加-h或-help，例如，查看mahout seqdumper -h，这样终端下，就会列出详细的参数选项及说明

资料：

mahout算法集：http://www.cnblogs.com/dlts26/archive/2011/08/23/2150225.html

推酷：http://www.tuicool.com/topics/11020024?st=0&lang=1

mahout 5

mahout部分功能介绍