python如何将文本分解单词序列，并利用one-hot 编码生成词序列的低维向量表征。

分词，是自然语言处理的基础。可用的分词库有很多，如果包含中文，可以试试北大的pkuseg模块，独热码建议用sk-learn的OneHotEncoder类实现。

>>> import pkuseg
>>> seg = pkuseg.pkuseg()
>>> seg.cut('北京大学语言计算与机器学习研究组')
['北京', '大学', '语言', '计算', '与', '机器', '学习', '研究组']