ReutersRCV1语料库的统计信息
N 文档数目 800.000
L 每篇文档的词条数目 200
M 词项数目(=词类数目) 400,000
每个词条的字节数(含空格和标点) 6
每个词条的字节数(不含空格和标点) 4.5
每个词项的字节数 7.5
无位置信息索引中的倒排记录数目 T 100,000,000
课后练习:
(1)一个词项的平均出现次数是多少?即一个词项平均对应几个词条?
(2)每个词条字节数为4.5vs每个词项平均字节数7.5,为什么有这样的区别?
(3)带位置信息索引的倒排记录数目多少?