一个程序,可能同时打开几千甚至上万个文件写到HDFS文件系统里面,如果顺序来写的话,完全无法得到分布式文件系统的好处。但我没看到HDFS API里有异步写的接口。
当然可能用线程来实现并发,但同时开几千个线程,恐怕操作系统受不了吧。
分布式Spark可以直接对HDFS进行数据的读写,同样支持Spark on...和Hive的兼容性
(1)你的计算机上此刻运行着超过1000个线程,这很正常(2)基于存储系统的物理构造,同时写入几千上万的文件只能大大拖累系统的性能