大数据量

有个这样的需求：
1小时从交换机转来上亿条的数据到系统中，
要对数据进行挖掘分析，进行汇总，分析，处理，查询
要求我做整个架构（包括前台服务器，数据库怎么设计，那些库用来做挖掘，那些库做统计等等）
我以前只有零散的东西：比如：分批处理，使用临时表和中间表，优化SQL，这些都是具体的细节，谈不上架构，请问大牛在这样的需求是怎么做的架构？

随便能否把迅雷部分面试题给个思路？
1）在1亿条用户记录里，如何快速查询统计出看了5个电影以上的用户？
2）用java怎么实现有每天有1亿条记录的DB存储？mysql上亿记录数据量的数据库如何设计？
感谢！

[quote]在1亿条用户记录里，如何快速查询统计出看了5个电影以上的用户？ [/quote]
利用索引机制快速找出。

[quote]用java怎么实现有每天有1亿条记录的DB存储？mysql上亿记录数据量的数据库如何设计？ [/quote]
用大型的数据库比较好，如oracle等。

1亿条数据，如果仅仅是存储的话，平均下来一秒钟1157条数据，这个很难做到了，I/O也来不及传输啊。
用key-value存储。

看看这个：一秒插入500条数据的讨论http://bbs.firnow.com/dview31t50362.html

首先把需求做好，把数据库设计好，把用例文档，类图写好，系统的用什么技术，整体结构等。

对数据库水平切分的实现原理解析
http://www.iteye.com/topic/409294