测试项目 | 主要功能 |
Sort | 使用RandomTextWriter生成随机数据,然后该功能负责将这些数据进行排序 |
WordCount | 使用RandomTextWriter生成随机数据,然后该功能负责统计其中出现的词频数目 |
TeraSort | 使用Hadoop TeraGen程序生成数据,然后执行TeraSort算法对数据进行排序 |
Enhanced DFSIO | 同时执行写入程序和读取程序,测试Hadoop平台吞吐量 |
Bayesian Classification | 使用zipfian分布的文档进行贝叶斯分类器训练 |
K-means clustering | 使用GenKMeansDataset生成基于高斯分布的输入数据,进行K-means聚类 |
Logistic Regression | 输入数据使用基于随机平衡决策树的Logistic Regression Data Generator生成,执行线性回归工作 |
Principal Components Analysis | 输入数据通过PCADataGenerator生成,执行主成分分析工作 |
Support Vector Machine | 输入数据通过SVMDataGenerator生成,之后执行支持向量机分类工作 |
PageRank | 输入数据通过爬取网页数据后,执行PageRank算法 |
NWeight | 执行Nweight算法 |
SQL Scan, Join & Aggreagte | 数据通过爬取网页数据,执行过程基于文献 [17] |