大数据量

有个这样的需求:
1小时从交换机转来上亿条的数据到系统中,
要对数据进行挖掘分析,进行汇总,分析,处理,查询
要求我做整个架构(包括前台服务器,数据库怎么设计,那些库用来做挖掘,那些库做统计等等 )
我以前只有零散的东西:比如:分批处理,使用临时表和中间表,优化SQL,这些都是具体的细节,谈不上架构,请问大牛在这样的需求是怎么做的架构?

随便能否把迅雷部分面试题给个思路?
1)在1亿条用户记录里,如何快速查询统计出看了5个电影以上的用户?
2)用java怎么实现有每天有1亿条记录的DB存储?mysql上亿记录数据量的数据库如何设计?
感谢!

[quote]在1亿条用户记录里,如何快速查询统计出看了5个电影以上的用户? [/quote]
利用索引机制快速找出。

[quote]用java怎么实现有每天有1亿条记录的DB存储?mysql上亿记录数据量的数据库如何设计? [/quote]
用大型的数据库比较好,如oracle等。

1亿条数据,如果仅仅是存储的话, 平均下来一秒钟1157条数据,这个很难做到了,I/O也来不及传输啊。
用key-value存储。

看看这个:一秒插入500条数据的讨论http://bbs.firnow.com/dview31t50362.html

首先把需求做好,把数据库设计好,把用例文档,类图写好,系统的用什么技术,整体结构等。

对数据库水平切分的实现原理解析
http://www.iteye.com/topic/409294