TF-IDF中对txt数据的分词处理问题

准备对一个txt文档内容进行TF-IDF处理，首先准备进行分词处理。但是目前不知道如何处理txt文档。
参考帖子http://blog.csdn.net/qq_30843221/article/details/54909788

其中他的样本为
好看电影惊悚悬疑不错推荐
机器学习自然语言处理信息检索
机器学习数据挖掘人工智能检索
电影动画精彩好看不错加油推荐

我们的样本为
中文网志年会中文网志年会网志 cnbloggercon blog blogger
单身安乐窝生活单身朋友家庭情感
佛学学习佛教禅修行佛法净土
科幻世界科幻科学幻想非科学文学幻想
香港电影电影香港中国华语香港电影
概念图\u0026思维导图(心智圖) mindmap conceptmap 思维导图概念图心智图
小组管理俱乐部豆瓣小组

媒介与传播研究 media 媒介 communication 传播学 journalism

明显不如他规整，请各位指点我是否还需要在做什么处理

有点看不懂啊，求救啊求救啊

这个我觉得具体看你使用什么算法，代码的要求是啥，不是盲目的在TXT里面分开

首先分词是分词器的工作。你这个按空白分割适合英文有自然分词的。中文需要 IK ，jieba 等分词器。你将分词扔进 IDF 里 IDF 会根据字符串对应到自己的空间中的一个位置（一个hash算法而已），然后再根据你给的文章计算出反向词频等。得到tf-idf 模型，然后根据你输入的文章，生成词向量与权重。