如题,比如说:hash(数据)=123;hash(数据集)=121;等等尽可能的使哈希值比较接近
你说的应该是关键字提取算法 (文本聚类)
http://www.cnblogs.com/zhangchaoyang/articles/2377385.htmlhttp://blog.163.com/titancq@126/blog/static/6295872620103274428933/