有几个系统,每天向一个FTP服务器写入操作日志,一天大概可以写入10G左右的文件,且文件比较零碎。
目前需要把这些文件里面的日志提取到库表。使用greenplum的外部表把数据copy到表了,而且是一次性的提取,这样有时候会很慢,也试过一个个文件的提取,但也不是很理想。
想问问大神,还有什么好的思路或者可以优化的地方吗?
您好!
这是个方案的选择,可以采用Shell脚本切分文件并行读取方式解决,也可以采用Hadoop解决,就看你的实际项目情况和人员技术能力。
对于用户的需求,结合自身能力总是能够找到目前最适合自己的软件架构、方法,所以没有什么是一定最好的,只有最适合自己的。
我有计划在今年下半年开始编写一本和你所提问题相关的软件开发思路书籍,希望到时候能够帮助到你。