海明距离解惑--如何计算短文本

 海明距离--
 欧氏距离--

资料搜集:
    百度百科:    在信息编码中,两个合法代码对应位上编码不同的位数称为码距,又称海明距离。
       博客:        在信息论中,两个等长字符串之间的海明距离是两个字符串对应位置的不同字符的个数。换句话说,它就是将一个字符串变换成另外一个字符串所需要替换的字符个数。

在实际的条件下:
    [篮球教程]篮球运球训练
    [篮球教程]篮球传球训练

   在海明距离的计算中,两个资讯是相似的.但是其实根据名称可以看出来,两篇资讯其实是不相同的,天差地别..这个计算的方式是怎么计算的呢?
            1.分词   结果为   运球  --- 传球 两个不同..
            2.hash    运球   ---  传球  hash不同.
            3.加权...   不懂!  不知道怎么加权,如果是按照词性或者词频来看的话,传球跟运球的词频词性基本相似...  会出现相同结果..  求大牛指点!

            求大牛给推荐一个短文本的相似性计算方式!

短文本,直接分词,词频和词汇相似的多就重复呗,不需要什么算法