想问一下各位大神,开发小说阅读类app,书籍这些数据的来源应该是什么样的?数据应该怎么存储呢?谢谢大家
书籍的来源这个不是技术问题,一般来说有几个
第一通过用户激励方式征集用户自己创作或者“搬运”,后者说难听点就是盗版,但是吃相稍微好一点,让用户盗版,把责任推掉。(类似csdn的资源下载)
第二种就是自己赤膊上阵地去“采集”“搜集”“整理”,也就是自己去做盗版,一些比较无耻的互联网公司就敢这么干。某知名的公司居然从人家视频网站直接来个搬运,简直没有底线。
第三种就是合法签约作者,买断版权。(有网站这么做么?我不太清楚,应该有)
数据存储这个就随便了,一般来说,html,letex之类的都可以啊。
在大学的时候经常做爬虫下载完整版的电子书,我也回答一下你这个问题。
1、caozhy谈到的几点偏向正规化、商业化,当然还有共享经济思路的方法。但是本质上讲效率最快的方式还是爬虫。
2、数据来源可以很多,但是爬虫一定是不可或缺的。爬虫爬过来之后还需要数据清洗,正文提取算法等协助,最终得到一个章节,按照这种思路很快就可以下载很多完整版的小说。
3、数据的格式
小说id 小说名 小说简介 小说正文章节 小说正文 评论列表
我们会对这些数据做的操作可能有哪些?
1、在用户阅读场景下,一章一章的读,这时候根据小说id + 小说章节就很容易拿到数据
2、如果提供搜索功能,需要对小说进行分词分析,这时候存到elasticsearch中更为适合
所以我的建议是,将数据存到mysql或者mongoDB中,添加小说id + 小说章节索引,这样做可以解决大部分的问题。然后需要将数据同步到elasticsearch中,对外提供搜索能力