首页
编程
java
php
前端
首页
编程
java
php
前端
大数据怎么保证采集器到Spark中数据一致性
如图从采集器到Yarn通过kafka进行数据传输,需要进行数据的预处理验证,确保源数据和推送到Hadoop中的数据一致
所以需要验证采集器到Yarn的数据是一致的(应该是吧)
那应该怎么验证呢?
我看到有说可以用md5sum校验数据文件,但是从采集器经过Kafka传输到Spark这个过程是传数据呀,没有传文件呀
点击展开全文