[小说内容]爬虫爬下来的数据,如何进行分析

小说内容存在文件里

写道
第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

第**章 标题(OOXXOOXXOOXX OOXXOOXXXXXXXOOOO)
正文
.....

 
要分析出来 然后分出 章节 标题 正文 三个字段保存......


小弟思路受阻,求各位大牛不吝赐教,给出我一个解决思路或者方案.
THX!

 

内容简单的话, 可能的话, 用正则表达式, 或者如果有特定样式的话, 最好根据样式来提取
如果页面内容复杂, 又没有特定的HTML格式声明, 我觉得基本上不可能做到完全自动化的提取.