HDFS能支持异步IO写来利用分布式的好处吗?

一个程序,可能同时打开几千甚至上万个文件写到HDFS文件系统里面,如果顺序来写的话,完全无法得到分布式文件系统的好处。但我没看到HDFS API里有异步写的接口。

当然可能用线程来实现并发,但同时开几千个线程,恐怕操作系统受不了吧。

分布式Spark可以直接对HDFS进行数据的读写,同样支持Spark on...和Hive的兼容性

(1)你的计算机上此刻运行着超过1000个线程,这很正常
(2)基于存储系统的物理构造,同时写入几千上万的文件只能大大拖累系统的性能