测试项目

主要功能

Sort

使用RandomTextWriter生成随机数据,然后该功能负责将这些数据进行排序

WordCount

使用RandomTextWriter生成随机数据,然后该功能负责统计其中出现的词频数目

TeraSort

使用Hadoop TeraGen程序生成数据,然后执行TeraSort算法对数据进行排序

Enhanced DFSIO

同时执行写入程序和读取程序,测试Hadoop平台吞吐量

Bayesian Classification

使用zipfian分布的文档进行贝叶斯分类器训练

K-means clustering

使用GenKMeansDataset生成基于高斯分布的输入数据,进行K-means聚类

Logistic Regression

输入数据使用基于随机平衡决策树的Logistic Regression Data Generator生成,执行线性回归工作

Principal Components Analysis

输入数据通过PCADataGenerator生成,执行主成分分析工作

Support Vector Machine

输入数据通过SVMDataGenerator生成,之后执行支持向量机分类工作

PageRank

输入数据通过爬取网页数据后,执行PageRank算法

NWeight

执行Nweight算法

SQL Scan, Join & Aggreagte

数据通过爬取网页数据,执行过程基于文献 [17]