| 测试项目 | 主要功能 |
| Sort | 使用RandomTextWriter生成随机数据,然后该功能负责将这些数据进行排序 |
| WordCount | 使用RandomTextWriter生成随机数据,然后该功能负责统计其中出现的词频数目 |
| TeraSort | 使用Hadoop TeraGen程序生成数据,然后执行TeraSort算法对数据进行排序 |
| Enhanced DFSIO | 同时执行写入程序和读取程序,测试Hadoop平台吞吐量 |
| Bayesian Classification | 使用zipfian分布的文档进行贝叶斯分类器训练 |
| K-means clustering | 使用GenKMeansDataset生成基于高斯分布的输入数据,进行K-means聚类 |
| Logistic Regression | 输入数据使用基于随机平衡决策树的Logistic Regression Data Generator生成,执行线性回归工作 |
| Principal Components Analysis | 输入数据通过PCADataGenerator生成,执行主成分分析工作 |
| Support Vector Machine | 输入数据通过SVMDataGenerator生成,之后执行支持向量机分类工作 |
| PageRank | 输入数据通过爬取网页数据后,执行PageRank算法 |
| NWeight | 执行Nweight算法 |
| SQL Scan, Join & Aggreagte | 数据通过爬取网页数据,执行过程基于文献 [17] |