java spark获取多个gz文件时怎样提高速度

每个gz文件大致有1-3G大小,解压后有8G-10G左右。spark读取数据为每个文件平均20-30秒。
但是现在需求是1分钟读取10个gz文件内容合并成一个txt样式的文件怎样完成。或者10分钟读取100个gz文件合并成10个文件怎么完成。
问了一些大神说要调试base值,观看每个文件的瓶颈。但是我查看资料是把RDD转成hbase ,至于这个base值该怎么调试呢

 JavaRDD data = jsc.textFile("hdfs://*.gz",10);

模糊匹配,不包括子文件夹