有没什么方法,谢谢!
[b]问题补充:[/b]
比如: 纺织品和服装,切分成:纺织品/和服/装。有2个词,1个词切对,就是50%正确率。
[b]问题补充:[/b]
我说的大文本,意思是不能手工统计。
[b]问题补充:[/b]
是的,我主要是需要一个方法,对分词切分的准确性做判断。比如有的分词系统给出说准确率95%什么的,小文本或者说小数据量可以手工统计,但小文本或者小数据量的统计结论肯定是不够正确的。我需要知道大文本或者打数据量是怎么统计的。
[b]问题补充:[/b]
没找到什么好方法,做起来比较麻烦
http://hi.baidu.com/qqrom/blog/item/4daddc43922cf41373f05dfb.html
搜索机制是对准确率有一些弥补,不过分词的准确率还是很重要的
好像暂时没有这种工具,因为对于不同的领域分词各有不同.
这个正确率可能无法统计.
正确率也只能是客户给我们反馈,来改变分词库.附和大众的搜索习惯.
我认为定义这个正确率有点勉强(个人看法).
确认这个正确率还不于依据搜索的命中率更附和实行.更加直接.
好抽象,
什么的正确率.
那要看你用什么分词工具咯.
因为相关领域方面的原因.这个正确率可能手工统计会准确一下.
对于商品名来说:纺织品/和服/装/服装 会合理一些
对于工厂生产来说:纺织/服装 会合理一些
关系到你的分词领域和词库