python如何将文本分解单词序列,并利用one-hot 编码生成词序列的低维向量表征。
分词,是自然语言处理的基础。可用的分词库有很多,如果包含中文,可以试试北大的pkuseg模块,独热码建议用sk-learn的OneHotEncoder类实现。
>>> import pkuseg >>> seg = pkuseg.pkuseg() >>> seg.cut('北京大学语言计算与机器学习研究组') ['北京', '大学', '语言', '计算', '与', '机器', '学习', '研究组']