海量数据分析设计思路?

本人刚接手了一个宽带数据分析的项目,由于本人经验不足,现在很茫然,不知道如何开始。
项目的情况大概是这样的:原始数据是一个大概80M的txt文件,里面数据大概是100多万行,
我要做的就是从根据业务需求基于这些原始数据做一些报表的统计分析,我现在的思想是用程序将txt里的数据解析导入到mysql中,然后再根据业务去做功能。但这肯定会很慢,而且这个原始数据还会隔一段时间更新的,所以如果导入数据库中,数据量也会非常庞大的。请有经验的大侠帮我分析分析!!谢谢!!

80M 100多万行的数据其它不大,只是不太清楚你的更新周期是多少。
我觉得有两种方法可以做上面分析:
一、将TXT数据导入数据库(这个导入工作其它很快,我做过一个导日志3000多万记录导入花的时间不多),然后分批取出日志表中的数据进行分析,分析这块可以启多个线程来处理。
其实你在做完这个周期的日志分析后,这张日志表对你来说其实没什么作用,你可以删掉。这样你数据库的量就不会太大。

二、可以直接读取TXT文件,将数据一行一行组装成相应的实体对象(其实跟取数据库差不多,只是要你自己从文本里面取数据,按格式取出相应数据,这个其实你在导入数据库的时候也会用到)。在取到一定行数后交给分析线程处理。

上面两种只是数据源不同,你的分析过种其实还是一样的。如果你是文本数据源,我觉得用第二种方法就可以。

像这样的日志分析最好不要在数据库中直接运用SQL来分析。

按这个txt文件格式,自己做一套数据库

80000000/1000000=80 你每行大概也就80-100字节,单个数据量不大。

我靠,80M,100万行,就叫海量,这样的数据你想怎么处理都行。
我五年前用VC做的800M转换到MS SQLServer数据库,生成报表可用的数据,运行时间不到15分钟。
现在的机器比那个时候快多少倍?
这个东西做的好不好,关键在于你建的数据库表合不合理。数据量这么丁点儿,不用放在心上。

javaeye应该做个黑名单功能。