[小说内容]爬虫爬下来的数据,如何进行分析

小说内容存在文件里

写道

第**章标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

要分析出来然后分出 章节标题正文 三个字段保存......

小弟思路受阻,求各位大牛不吝赐教,给出我一个解决思路或者方案.
THX!

内容简单的话, 可能的话, 用正则表达式, 或者如果有特定样式的话, 最好根据样式来提取
如果页面内容复杂, 又没有特定的HTML格式声明, 我觉得基本上不可能做到完全自动化的提取.