Tuesday, March 3, 2009

第三代五笔字型(新世纪版)评测报告


08年注定是不平凡的一年,能够历数的事颇多。而在大陆的输入法领域,形码方面占有率最高的五笔字型也迎来了第三代(也就是最终定型版)五笔的诞生,无疑给五笔用户带来了新的选择,同时也带来了很多困扰,第三代五笔有什么改进?它的拆分是否更直观更合理了?它的重码是否更少了?软件上的功能有什么进步?在没有试用版和任何试用方法的“先付费,再体验”的策略下,绝大部分五笔用户只能茫然猜测,更无从对比。为了解决这一问题,本文将以翔实的资料和第一手的统计数据对这些问题给出一些有价值的分析。由于要分析的东西比较多,所以在此主要分析98五笔与新世纪五笔的对比数据,也会穿插少量86的数据,另外只举少量的例子以缩减篇幅。

  如果文中有些字显示不出来,说明你没有安装大字符集,请先进行安装。

一、软件:
  大一统中包括了86、98和新世纪三种五笔集成到一起,还是传统的输入法界面,不过这回增加了较多的新功能,比如打简出繁和与拼音混合输入等世面上早已存在的功能,具体大家可以看官方网站。

输入的延迟:
  在软件的输入测试中发现了延迟现象,我的机器是双核加超频,经测试大一统会在每个可以输入的程序(如文本编辑器等)启动后第一次打开输入法并第一次输入编码时,有大约2秒的延迟,关闭输入法再打开没有延迟,但如果它锁定的程序关闭再启动,打开输入法输入则同样有约2秒的延迟,这应该是软件的加密机制造成的,因为任何键都会造成这种现象,比如方向键,而它并不会调用码表。原王码所有输入法系列没有任何延迟现象。


二、字根
  根据官方的帮助文件所述,新世纪版五笔比86版少了15个字根,比98版少了25个字根。从这方面可以看出,新世纪五笔希望在字根的数量方面减小记忆的难度,使其更易学。因为字根的记忆是五笔学习者比较难过的一关。应该说向易学方向发展并没有错,不过字根的减少虽然减轻了记忆负担,却加重了拆分的负担,所以是否增加了易学性就不好说了,而且我们也可以想得到字根减少会带来什么,拆分肯定没有98直观,因为98的大字根比较多,当然要记的也多,重码呢?应该也会有所增加,因为可用来分配的零件少了。但这并不是问题的关键,最重要的是把第三代五笔中所有的改变在权衡利弊之后看看是否值得,也就是总体的利是否大于总体的弊。


三、规则:
  规则方面没有什么改变,还是五笔的那些规则,然后根据规则和字根来拆分。现在主要说一下我在新世紀五笔中已经发现的一些问题。

必定有一方是错码:



















































  笔顺编号86编码98编码新世纪编码
112154AADAAYIGANY
45112154YAAGYAAYYGAY
121112154RAAGRAAYRGAY
1521112154LAAGLAAYLGAY
 
3211215WAAGWAAYWAAY
44211215NAAGNAAYNAAY

  大家看出问题了吗?同样是“式”,但“弋”的拆分方式不一样,在新世纪五笔中有“弋”去点这个字根,上面一组中是根据“书写顺序”规则按笔顺拆分的,而下面一组中却使用“取大优先”规则拆分,也就是说它们中的一方必定是错码!官方是否认为应是“笔顺优先”呢?让我们来看更多的例字。































































  笔顺编号86编码98编码新世纪编码
111253454AFMIAFMYAFMY
3511111253454EAFMEAFYEAFY
32111251113454WAFMWAFYWAFY
442111251113454NAFMNAFYNAFY
3121111251113454TRAMCAFYTAFY
11221154AAFDAFYIAAFY
1454454ANIANYIANYI
311151454454QANYHQANYQANY
35111454454EANYEANYEANY

  从上表中我们可以看出,在新世纪五笔中,“弋”去点这个字根都是按“取大优先”拆分的,86和98也是一样。那么官方是否认为应是“取大优先”呢?往下看。





































































  笔顺编号86编码98编码新世纪编码
11212154GAHDGAHYFHNY
413411212154YGAHYGAYYFHY
253411212154MGAHMGAYMFHY
3211212154WGAHWGAYWFHY
1325111212154DGAHDGAYDFHY
53111212154VGAHVGAYVFHY
112111212154GGAHGGAYGFHY
5211212154BGAHBGAYBFHY
3411243111212154QGAHQGAYQFHY
251113411212154MGAHMGAYMFHY

  “武”字中也有“弋”去点,但是按照“书写顺序”拆分的,86和98用户一定会觉得别扭,因为86和98更强调“兼顾直观”,那么官方是否认为都应是“笔顺优先”呢?接着看。







































  笔顺编号86编码98编码新世纪编码
12511534AKGDAKGDAKGD
12511121534AKGDAKGDAKGD
25125115341LAKGLAKGLAKG
2522112511534LAKGLAKGLAKG
2512112511534LAKGLAKGLAKG

  我们可以看到带有“戈”的字并没有完全按照书写顺序,而全部是“取大优先”,也比较直观,86和98都如此。这里就不再举更多的例子了。

  从以上的拆分问题中可以看出新世纪五笔仍然存在不负责任的随意编码现象,我只能说:“如果我们自己还没有统一,我们又能去统一谁呢?”。我所接触过的所有王码输入法都有各种各样的错码或问题编码,我不禁要问,难到这就是我们的国产软件?难到就出不来一个完全合格的产品吗?在此向王码公司的编码组成员致以“问候”。


笔顺的混乱现象:

  为了节约时间,我就不举太多例子了,五笔在笔顺方面肯定存在着问题,而且最重要的是30年未改,比如“辔”与“轡”是同一个字的简繁体,在《现代汉语通用字笔顺规范》第302页中明确说明,它的书写顺序是:纟(糹)+车(車)+纟(糹)+口,但无论86、98还是新世纪五笔中的拆分都是:车(車)+纟(糹)+纟(糹)+口,只有98中繁体的“轡”改过来了。




















  笔顺编号86编码98编码新世纪编码
5511512551251LXXKLXXKLXXK
5544441251112554444251LXXKXLXKLXXK

  要注意这样的笔顺问题不是一个字两个字,很多的字(大部分是不常用字)都是如此,再次向王码公司的编码组成员致以“问候”。

PS:五笔中的合体字共有5个取码规则:
1、书写顺序
2、取大优先
3、兼顾直观
4、能连不交
5、能散不连。

  对于老五笔用户来说这些规则很熟悉了,但现在的编码却让人越来越搞不懂当年这些看似很明白的规则了。98五笔中“戍”与“戌”的拆分不同也是个错误。


四、编码:
  大一统中使用了大小写字母切换简繁体的输入,由于输入方式的改变以及考虑到大陆主要使用简体字,所以此次的编码分析主要针对简体字,也就是大一统中用小写字母输入时的情况来进行统计和分析,虽然有些用小写字母输入的字怎么看怎么像繁体字。

1、编码空间:
空间总量:
  五笔字型使用了a-y共25个字母键进行编码,所以空间总量如下
1级编码空间总量:25的1次方=25
2级编码空间总量:25的2次方=625
3级编码空间总量:25的3次方=15625
4级编码空间总量:25的4次方=390625























  98新世纪
1级编码空间占用量(无重码)25(100%)25(100%)
2级编码空间占用量(无重码)591(94.56%)584(93.44%)
3级编码空间占用量(有重码)3482(22.2848%)3332(21.3248%)
4级编码空间占用量(有重码)14955(3.82848%)14951(3.827456%)

  因为同为五笔字型,所以空间占用量相近,新世纪五笔相对重码多些,所以空间占用量就少些

2、键位占用:
  先说一个问题,大一统中的98五笔里以下3个字被放入了简码当中,后面没有ll,但我们知道简码应是唯一的,因此这里把它们作为和86和新世纪的编码相同来看待进行统计:
在86和新世纪中:
hhll 亅
nnll 乛
nnll 乚
在98中的问题编码:
hh 亅
nn 乛
nn 乚


GB18030-2000简体部分(每个字统计所有1、2、3、4级编码的情况)










































































































  98新世纪
a32643393
b20171835
c21962298
d35913646
e29963075
f48344946
g57755740
h40444178
i26092763
j33183258
k36923917
l18101818
m25612620
n39514112
o24972489
p21082073
q37033528
r23822535
s25932298
t48184651
u36003221
v19341812
w42854485
x19071893
y50025198

平均值:
98:81487/25=3259.48
新世纪:81782/25=3271.28

偏离:(+正向偏离,-负向偏离)










































































































  98新世纪
a+4.52+121.72
b-1242.48-1436.28
c-1063.48-973.28
d+331.52+374.72
e-263.48-196.28
f+1574.52+1674.72
g+2515.52+2468.72
h+784.52+906.72
i-650.48-508.28
j+58.52-13.28
k+432.52+645.72
l-1449.48-1453.28
m-698.48-651.28
n+691.52+840.72
o-762.48-782.28
p-1151.48-1198.28
q+443.52+256.72
r-877.48-736.28
s-666.48-973.28
t+1558.52+1379.72
u+340.52-50.28
v-1325.48-1459.28
w+1025.52+1213.72
x-1352.48-1378.28
y+1742.52+1926.72

























  总偏离最小偏离值(绝对值)最大偏离值(绝对值)最少使用键最多使用键
9823007.524.52(a键)2515.52(g键)-1449.48(l键)+2515.52(g键)
新世纪23619.8413.28(j键)2468.72(g键)-1459.28(v键)+2468.72(g键)

  从以上统计可以看出,因为同为五笔字型,所以总偏离相差不大,新世纪五笔的总偏离更大些,不过最大的偏离出现在98五笔当中。
  98五笔中的a键和新世纪五笔中的j键分配相对最平均(最优),g键最不平均(最劣)。
  98五笔中的l键和新世纪五笔中的v键分配相对最少,打字中使用的次数最少(最轻松);两者的g键分配相对最多,打字中使用的次数最多(最累)。


3、单字重码:
  官方的五笔1、2级编码是没有重码的,它们都是简码,所以单字的重码是指3、4级编码中的重码,让我们看一下在GB18030-2000简体部分的重码情况

3级编码:






















  98新世纪
2重码326266
3重码4632
4重码43
5重码22

4级编码:










































  98新世纪
2重码15191574
3重码209234
4重码5154
5重码821
6重码415
7重码37
9重码1
13重码11
14重码1


98五笔单字总重码:2173
新世纪单字总重码:2211

  从以上统计可以看出,新世纪五笔的3级编码重码比98五笔的少,4级编码重码的比98五笔多,总重码相近,新世纪五笔的重码更多一些。


4、词组重码:


   找了一个没有针对某种五笔进行优化的词库作为样本进行重码统计,如下:

词组总数:124333
其中:
2字词38574个
3字词10528个
4字词73091个
5字词1255个
6字词405个
7字词401个
8字词55个
9字词16个
10字词7个
12字词1个































  98新世纪
2重码1726917410
3重码21522451
4重码142284
5重码1025
6重码12
7重码1

98五笔词组总重码:19574
新世纪词组总重码:20173

  从以上统计可以看出,因为同为五笔字型,所以两者的词组重码相近,新世纪五笔的重码更多一些。


  综上所述,我们已经可以对第三代五笔字型有一个大概的认识了,软件功能有所增加、字根减少、拆分和笔顺方面仍有与规则冲突的问题、编码空间占用量相对少些(重码多些)、键位占用率有所变动,单字重码和词组重码都比98多一些。

  我认为,如果第三代五笔的拆分和笔顺能与规则完美的融合,那么在重码少许增加的情况下是可以接受的,因为规范性是很重要的,但非常可惜,目前已经找到了一些问题,相信还能找出更多,王码公司没有认真的对待是问题的根源。作为一个普通的爱好者,并没有更多时间用来全面研究第三代五笔的各种问题,因为这本应是王码该做但却没有做好的工作。如果王码就此止步,那只能说一个既不完全规范、重码又多一些的第三代五笔并没有超越前两代。只能感叹一个好的输入方案没能被好的运作,30年后仍然被困规范的牢笼而难以突破。作为已经占有大部分形码市场的五笔来说,也许老王并不关心这些问题,而是把时间都去忙他的另外一些专利了,但五笔远未达到登峰造极,中国人口中的“弓长张、立早章、双口吕、木子李”也并非谁的专利,拆字本就是一种完全自然的输入方案。如果王码能拿出的全部实力就不过如此了,那么五笔将来的改进也就只能靠人民大众了。

1 comment:

  1. 谢谢你用心的分析!学习使用了86版半年,想了解是否应该改学新世纪,看了这篇文章觉得还是先不变了。

    ReplyDelete