准备对一个txt文档内容进行TF-IDF处理,首先准备进行分词处理。但是目前不知道如何处理txt文档。
参考帖子http://blog.csdn.net/qq_30843221/article/details/54909788
其中他的样本为
好看 电影 惊悚 悬疑 不错 推荐
机器学习 自然语言处理 信息 检索
机器学习 数据挖掘 人工智能 检索
电影 动画 精彩 好看 不错 加油 推荐
我们的样本为
中文网志年会 中文网志年会 网志 cnbloggercon blog blogger
单身安乐窝 生活 单身 朋友 家庭 情感
佛学学习 佛教 禅 修行 佛法 净土
科幻世界 科幻 科学幻想 非科学 文学 幻想
香港电影 电影 香港 中国 华语 香港电影
概念图\u0026思维导图(心智圖) mindmap conceptmap 思维导图 概念图 心智图
小组管理俱乐部 豆瓣 小组
媒介与传播研究 media 媒介 communication 传播学 journalism
明显不如他规整,请各位指点我是否还需要在做什么处理
有点看不懂啊,求救啊求救啊
这个我觉得具体看你使用什么算法,代码的要求是啥,不是盲目的在TXT里面分开
首先分词 是分词器的工作。 你这个按空白分割 适合 英文 有自然分词的。 中文需要 IK ,jieba 等分词器。 你将分词扔进 IDF 里 IDF 会根据字符串对应到自己的空间中的一个位置(一个hash算法而已) ,然后再根据你给的文章 计算出反向词频等。得到tf-idf 模型,然后 根据你输入的文章,生成词向量与权重。