请教一个存储搜索的思路

随机生成500个汉字字符串,每个字符串长度可变,将“强大的C语言”随机嵌入3遍,然后搜索“强大的C语言”的序号,尝试多种方法,并计算搜索花费的时间。

这是老师的出的一个题目,鉴于现在我的水平有限,所以请教这个程序大体需要什么。
是不是需要建立一个数据文件之类的。嗯。谢谢各位了。

500个字符串这样的规模直接搜索就可以了,google kmp算法。

如果数据量再大,就需要分词做倒排索引了。