大数据如何进行数据阶段的验证

通过查询资料,我了解到大数据的测试非常重要的是数据库测试。
而数据库测试又分为:数据验证,过程验证,输出验证
数据验证要做的事情如下:

  • 来自各方面的数据资源应该被验证,来确保正确的数据被加载进系统
  • 验证加载到Hadoop的数据和源数据是一致的
  • 验证正确的提取和加载数据至hdfs中

我有看到可以使用Talend做数据阶段验证,但Talend没有Linux版本,有别的方法做数据验证吗,除了Talend

对于源端和目标端,分别对所有行列的数据用同一种hash算法得出一个值,比如计算md5,再比较这个值是否一致,这是在验证阶段最减少数据输出的方式了