扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
1.前后耗时一个多月时间,对几种热点拼音输入法整句输入能力进行了海量测试,使用了三种风格的素材,第一是互联网语料随机抽取(万分之一概率)文字,第 二是《人民日报》2005年全部文字,第三是金庸全集文字,对三种输入法(共计四种实体)进行了考察,本帖汇报结果,一来是客观评价,二来是想告诉大家, 通过科学算法和适量数据分析打造出来的拼音输入法,隐约地可以支持整句输入的习惯了,并且在持续提高.
2.解读下面的汇报结果:0)“0.最佳”代表目前紫光华宇的最高能力,但它需要较大的数据资料文件支撑(大约80M,用RAR压缩后是46.xM);
1)“1.紫光”代表62xx版本的能力,数据资料文件规模适中(12M左右,压缩在安装包中是6.xM);
2)“2.搜狗”代表搜狗最新版和次新版(之间build号差别不大,估计能力差距也不大)的能力;
3)“3.谷歌”代表谷歌最新版的能力.
3.个人分析或观点:1)基于科学的方法,准确率仍有可能提高,原来拍脑门大胆设想的85%,还是有望实现的.
2)超越了搜狗和谷歌,让人振奋不已,但是,对之的佩服也实实在在,人家以较小的数据资料文件,能够做到这样的准确率,一定还是有所长的,值得我们认真揣测和学习.
3)严重喜欢准确率的朋友们,可以考虑采用大数据资料文件,毕竟,现在的机器,百十来M的空间,不算什么,个人倾向于此,如何实现,当6.1发布前后,紫光华宇将提供一定的解决方案.
4.数字......
1)—— www综合统计 —— 86407 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 86407 61938 71.68% 48864 3.16%
1.紫光 86407 56052 64.87% 63802 4.13%
2.搜狗 86407 54112 62.62% 70577 4.57%
3.谷歌 86407 55066 63.73% 67580 4.37%
—— 测试05字词句 —— 11225 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 11225 8277 73.74% 5619 5.01%
1.紫光 11225 7599 67.70% 7046 6.28%
2.搜狗 11225 7733 68.89% 7021 6.25%
3.谷歌 11225 7370 65.66% 7787 6.94%
—— 测试06字词句 —— 12499 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 12499 9554 76.44% 5616 3.74%
1.紫光 12499 8817 70.54% 7200 4.80%
2.搜狗 12499 8765 70.13% 7537 5.03%
3.谷歌 12499 8660 69.29% 7762 5.18%
—— 测试07字词句 —— 10597 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 10597 7719 72.84% 5933 4.00%
1.紫光 10597 7003 66.08% 7661 5.16%
2.搜狗 10597 6903 65.14% 7977 5.38%
3.谷歌 10597 6884 64.96% 8224 5.54%
—— 测试08字词句 —— 9821 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 9821 7154 72.84% 5404 3.44%
1.紫光 9821 6434 65.51% 7176 4.57%
2.搜狗 9821 6300 64.15% 7641 4.86%
3.谷歌 9821 6340 64.56% 7522 4.79%
—— 测试09字词句 —— 8550 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 8550 6140 71.81% 4711 3.06%
1.紫光 8550 5531 64.69% 6250 4.06%
2.搜狗 8550 5345 62.51% 6944 4.51%
3.谷歌 8550 5453 63.78% 6726 4.37%
—— 测试10字词句 —— 7523 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 7523 5317 70.68% 4348 2.89%
1.紫光 7523 4812 63.96% 5655 3.76%
2.搜狗 7523 4597 61.11% 6297 4.19%
3.谷歌 7523 4730 62.87% 5887 3.91%
—— 测试11字词句 —— 6669 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 6669 4616 69.22% 4009 2.73%
1.紫光 6669 4181 62.69% 5250 3.58%
2.搜狗 6669 3905 58.55% 6145 4.19%
3.谷歌 6669 4069 61.01% 5584 3.81%
—— 测试12字词句 —— 5794 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 5794 3955 68.26% 3748 2.70%
1.紫光 5794 3533 60.98% 4964 3.57%
2.搜狗 5794 3294 56.85% 5723 4.12%
3.谷歌 5794 3477 60.01% 5200 3.74%
—— 测试13字词句 —— 4945 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 4945 3351 67.77% 3287 2.56%
1.紫光 4945 2985 60.36% 4287 3.33%
2.搜狗 4945 2731 55.23% 5112 3.98%
3.谷歌 4945 2982 60.30% 4336 3.37%
—— 测试14字词句 —— 4109 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 4109 2772 67.46% 2761 2.40%
1.紫光 4109 2454 59.72% 3708 3.22%
2.搜狗 4109 2172 52.86% 4589 3.99%
3.谷歌 4109 2389 58.14% 3922 3.41%
—— 测试15字词句 —— 3141 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 3141 2079 66.19% 2274 2.41%
1.紫光 3141 1826 58.13% 3036 3.22%
2.搜狗 3141 1604 51.07% 3704 3.93%
3.谷歌 3141 1832 58.33% 3085 3.27%
—— 测试16字词句 —— 1534 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 1534 1004 65.45% 1154 2.35%
1.紫光 1534 877 57.17% 1569 3.20%
2.搜狗 1534 763 49.74% 1887 3.84%
3.谷歌 1534 880 57.37% 1545 3.15%
2)
—— 《人民日报》2005综合统计 —— 1500374 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 1500374 1161937 77.44% 645590 2.38%
1.紫光 1500374 1071866 71.44% 856809 3.15%
2.搜狗 1500374 1016828 67.77% 1037293 3.82%
3.谷歌 1500374 1078598 71.89% 842869 3.10%
—— 测试04字词句 —— 139435 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 139435 108248 77.63% 58826 5.27%
1.紫光 139435 99096 71.07% 75932 6.81%
2.搜狗 139435 100661 72.19% 75317 6.75%
3.谷歌 139435 98763 70.83% 77916 6.98%
—— 测试05字词句 —— 119127 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 119127 91972 77.20% 49014 4.11%
1.紫光 119127 85750 71.98% 61605 5.17%
2.搜狗 119127 85567 71.83% 63580 5.34%
3.谷歌 119127 85994 72.19% 61236 5.14%
—— 测试06字词句 —— 154291 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 154291 124053 80.40% 55515 3.00%
1.紫光 154291 115607 74.93% 72917 3.94%
2.搜狗 154291 113490 73.56% 79926 4.32%
3.谷歌 154291 115924 75.13% 72917 3.94%
—— 测试07字词句 —— 146105 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 146105 111960 76.63% 66197 3.24%
1.紫光 146105 103939 71.14% 84130 4.11%
2.搜狗 146105 101250 69.30% 92445 4.52%
3.谷歌 146105 104317 71.40% 83326 4.07%
—— 测试08字词句 —— 150785 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 150785 119678 79.37% 58278 2.42%
1.紫光 150785 111124 73.70% 77220 3.20%
2.搜狗 150785 104472 69.29% 107695 4.46%
3.谷歌 150785 111690 74.07% 76087 3.15%
—— 测试09字词句 —— 138583 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 138583 108267 78.12% 57149 2.29%
1.紫光 138583 100108 72.24% 76465 3.07%
2.搜狗 138583 95105 68.63% 91007 3.65%
3.谷歌 138583 100917 72.82% 74947 3.00%
—— 测试10字词句 —— 133618 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 133618 103441 77.42% 58076 2.17%
1.紫光 133618 95276 71.30% 78198 2.93%
2.搜狗 133618 89301 66.83% 96527 3.61%
3.谷歌 133618 96087 71.91% 76344 2.86%
—— 测试11字词句 —— 123107 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 123107 94864 77.06% 54863 2.03%
1.紫光 123107 87278 70.90% 74238 2.74%
2.搜狗 123107 81083 65.86% 92614 3.42%
3.谷歌 123107 88092 71.56% 71771 2.65%
—— 测试12字词句 —— 111368 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 111368 85247 76.55% 50630 1.89%
1.紫光 111368 78312 70.32% 68437 2.56%
2.搜狗 111368 71589 64.28% 88515 3.31%
3.谷歌 111368 79057 70.99% 66631 2.49%
—— 测试13字词句 —— 100699 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 100699 76778 76.25% 46732 1.78%
1.紫光 100699 70086 69.60% 64408 2.46%
2.搜狗 100699 63341 62.90% 84471 3.23%
3.谷歌 100699 70884 70.39% 62336 2.38%
—— 测试14字词句 —— 87324 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 87324 65936 75.51% 41908 1.71%
1.紫光 87324 60158 68.89% 57369 2.35%
2.搜狗 87324 53768 61.57% 76037 3.11%
3.谷歌 87324 60848 69.68% 55593 2.27%
—— 测试15字词句 —— 65021 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 65021 48696 74.89% 32124 1.65%
1.紫光 65021 44372 68.24% 43900 2.25%
2.搜狗 65021 39247 60.36% 59036 3.03%
3.谷歌 65021 44978 69.17% 42367 2.17%
—— 测试16字词句 —— 30911 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 30911 22797 73.75% 16278 1.65%
1.紫光 30911 20760 67.16% 21990 2.22%
2.搜狗 30911 17954 58.08% 30123 3.05%
3.谷歌 30911 21047 68.09% 21398 2.16%
3)
—— 《金庸全集》综合统计 —— 736965 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 736965 317272 43.05% 975720 8.55%
1.紫光 736965 247685 33.61% 1215459 10.65%
2.搜狗 736965 236510 32.09% 1312967 11.50%
3.谷歌 736965 198488 26.93% 1466162 12.84%
—— 测试04字词句 —— 97098 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 97098 47363 48.78% 101550 13.07%
1.紫光 97098 38270 39.41% 120233 15.48%
2.搜狗 97098 39840 41.03% 118968 15.32%
3.谷歌 97098 33815 34.83% 134708 17.34%
—— 测试05字词句 —— 57671 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 57671 29944 51.92% 54556 9.46%
1.紫光 57671 25451 44.13% 65438 11.35%
2.搜狗 57671 25230 43.75% 68514 11.88%
3.谷歌 57671 21242 36.83% 79767 13.83%
—— 测试06字词句 —— 132169 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 132169 64947 49.14% 142895 9.01%
1.紫光 132169 52546 39.76% 175090 11.04%
2.搜狗 132169 49882 37.74% 187866 11.85%
3.谷歌 132169 41804 31.63% 214448 13.52%
—— 测试07字词句 —— 103257 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 103257 49120 47.57% 118510 8.20%
1.紫光 103257 39714 38.46% 147189 10.18%
2.搜狗 103257 38610 37.39% 156183 10.80%
3.谷歌 103257 31683 30.68% 180644 12.50%
—— 测试08字词句 —— 91929 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 91929 39464 42.93% 120292 8.18%
1.紫光 91929 30130 32.78% 150747 10.25%
2.搜狗 91929 28010 30.47% 164603 11.19%
3.谷歌 91929 23619 25.69% 183005 12.44%
—— 测试09字词句 —— 73575 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 73575 29322 39.85% 105269 7.95%
1.紫光 73575 21891 29.75% 132967 10.04%
2.搜狗 73575 20155 27.39% 145215 10.97%
3.谷歌 73575 16952 23.04% 161599 12.20%
—— 测试10字词句 —— 56001 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 56001 20204 36.08% 89151 7.96%
1.紫光 56001 14642 26.15% 113452 10.13%
2.搜狗 56001 13225 23.62% 124150 11.08%
3.谷歌 56001 11188 19.98% 136436 12.18%
—— 测试11字词句 —— 42517 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 42517 14056 33.06% 73743 7.88%
1.紫光 42517 9828 23.12% 93820 10.03%
2.搜狗 42517 8704 20.47% 104035 11.12%
3.谷歌 42517 7365 17.32% 113500 12.13%
—— 测试12字词句 —— 31093 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 31093 9368 30.13% 58767 7.88%
1.紫光 31093 6424 20.66% 75015 10.05%
2.搜狗 31093 5539 17.81% 83981 11.25%
3.谷歌 31093 4665 15.00% 90636 12.15%
—— 测试13字词句 —— 22629 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 22629 6315 27.91% 46156 7.84%
1.紫光 22629 4194 18.53% 58734 9.98%
2.搜狗 22629 3593 15.88% 65736 11.17%
3.谷歌 22629 3016 13.33% 70805 12.03%
—— 测试14字词句 —— 15699 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 15699 4018 25.59% 34036 7.74%
1.紫光 15699 2620 16.69% 43366 9.87%
2.搜狗 15699 2123 13.52% 49145 11.18%
3.谷歌 15699 1770 11.27% 52974 12.05%
—— 测试15字词句 —— 9516 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 9516 2315 24.33% 21549 7.55%
1.紫光 9516 1448 15.22% 27652 9.69%
2.搜狗 9516 1211 12.73% 31184 10.92%
3.谷歌 9516 1024 10.76% 33472 11.72%
—— 测试16字词句 —— 3811 条
IM实体 实测句 符合句 符合率 不符字 不符率
0.最佳 3811 836 21.94% 9246 7.58%
1.紫光 3811 527 13.83% 11756 9.64%
2.搜狗 3811 388 10.18% 13387 10.98%
3.谷歌 3811 345 9.05% 14168 11.62%
零星评点
1.上述数据中,竟然已经有80%以上的准确率爆出(紫光最佳——人民日报2005年——6字句——80.40%),着实喜人.
2.数据汇报中,用词“符合句/率”,而没有用词“准确句/率”,原因是满足一个拼音串的汉字句子,有些情况下多种都是正确的,最简单的例子是“我爱她”,实际上“我爱他”、“我爱它”等等,都是对的,不好根据与原句的不同,就评为错句.
3.看到AhMan和xml00发帖中列示了错字数目,也就模仿着统计了这个数字,不过,这个数字应该说明力较弱,因为基于中文分词的组句,往往一错就是一个词,而不是一个字,错一个词和错一个字是等同的.
4.金庸小说的准确率严重下降,诚如AhMan在“简单地测试了几个句子”一帖中所述,这个文字风格有些文言和近代白话的味道,同时语料中这种素材比例很低,结果也是可以预见的,另外有一些是大量的小说中人名、地名、功夫名等类专有名词,在词库中收录比较少,分词词典更拒之于门外,也是准确率不高的原因之一;如有改善的需求和必要,也大概是从这几个方面分别做文章.
5.缺少微软、拼音加加、智能狂拼的能力评价,存在遗憾,原因透露:
1)微软——输入风格特异,需要继续投入时间才能完成;
2)拼音加加——本想测试,看到xml00贴出的其结果,在7、8字以上的句子中,效果迅速下降,感觉没有必要测试了,个人以为,所谓的整句输入,应该是6~11之间为主,解决不好这个区间的准确率,用户也没有信心培养整句输入习惯.
3)智能狂拼——程序不够稳定,结果获取艰难,准确率也远远不如想象,遂罢.
PS:紫光目前以提供bestdata(42M),welldata(32M),gooddata(18M)大数据文件.紫光目前默认的是12M,追求极致的人请去紫光论坛下载.
文中提及的AhMan 阿曼 xml00 徐孟罗 对拼音输入法有较深研究并有贡献的人.
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。