Trec06C数据集

Trec06C数据集每封邮件包含发件人、收件人、标题、正文以及附件等完整信息。本章6.3中只使用了邮件的正文的文本特征训练垃圾邮件分类器。考虑将发件人、收件人以及标题等特征也转化为向量数据,添加到文本向量中,训练邮件分类器,并与只使用正文的分类器进行性能比较。