814G的json文件怎么分批导入mongodb中

1.想把814G的json文件导入mongoDB中，抽取想要数据的三元组。（814G的json文件来自与wikidata中的数据）
2.或者怎么用json数据解析法抽取其中的三元组。
（问题难点都是数据太大内存不够，需要分批处理，怎么分批814Gjson文件）

给出你的JSON示例看看？ wikidata的查询好像用的是SPARQL吧？

一般情况数据量过大的时候，根据你的数据格式和计算类型一般可以有两种方法 1. 搭建类似hadoop集群来做分布式处理。 2. 先对任务进行拆分，比如类似流式计算的一次处理一条数据

看你用什么语言，用c++的话，可以使用内存映射文件来处理这种超大的文本文件。800G不算大，我们处理的数据几TB的都有。不过我们处理的是csv文件，json需要针对你特定的文件结构分析

这个是要根据你的文件格式还有编程语言来确定方案的，假如，你每行都只有一个json就比较简单，使用多个线程，分别使用非阻塞式的io流，每次读取固定行数
然后进行解析处理。若你json是堆叠在一起的，且中间还有别的字符串的话就比较麻烦，需要分块读取，比如每次读取100M到内存中，这就需要处理被截断的问题
思路是：使用正则或者自己判断末尾是否有被截断的json数据，若存在，则截取处理，拼接到后面读取的字符串中。