|
|
笔数 组码汉字输入法 |
||
|
一、技术领域 本发明主要是一套汉字编码方案及根据此方案设计的输入法及其键盘和检字法。此次申请是对在先申请(申请号为 二、背景技术 当前现有的汉字编码方案主要有形码、音码、音形码和形音码几种形式,其中音码、音形码和形音码虽说有不可替代的存在价值,但是,不具有国际性、跨区性的缺陷使其无法成为主流,更不能取代形码方案;当前现有的形码方案又可分为部件(字根)类编码和笔画类编码,本人认为,部件类编码的最大缺点不是很多人认为的难学易忘,而是它的不确定性和不规范性,它更无法适应未来汉字量的增加以及字形的改变,现有的笔画类编码又大多缺乏实用性。检索方案主要有部首、音序、四角号码、笔画等检字法,都各具优缺点,互为补充。总的来说,现有的汉字编码方案都只能同时应用于一、二个领域,使得人们不得不为了学习多套汉字编码方案而浪费时间和精力。 三、发明内容 其实此次申请发明在先,在先申请发明在后,之所以这样,是因为看了大量资料后,本人的编码思想有了很大的转变,不仅认识到规范的重要性,而且对什么是优秀的、永久性的编码方案,有了自己的看法。本人认为,一套编码方案仅仅在某些方面优秀还不行,必须在各个应用领域、各种使用场合都优秀,还要适合各使用群体,并且具有发展性,才能一劳永逸,才是真正的优秀,我将其总结为三大特性,既规范性、宏观性和发展性。下面将这三大特性细分为十点,并结合当今现有技术加以分析说明: 1 、标准性,就是全面符合国家标准,信息元(既编码信息元素,比如部件、字根、笔画)、键元、编码规则等,都要符合。但是,标准也应尽量符合规律。2、规律性,有造字规律、应用规律、和人的主观规律,这三者之间经常有冲突,应综合考虑。 3、国际性,汉字非一国所用众所周知,汉字编码当然应各国通用,汉字要通行世界、发扬光大也有赖于此。现有的编码方案中,只有纯形码可以做到。 4、确定性,一般来说,信息元、键元、编码规则是确定的,但针对数万个千差万别的汉字,要完全确定汉字编码是不容易的,所以有了容错码(一字多码),还有的汉字根本就不知如何取码,既所谓的难检字;部件(字根)类编码方案就普遍存在这种情况,究其原因就在于拆字取码。另外,有一些笔画类编码方案为了降低重码率,也要拆字取码,比如,把合体字拆成首部和余部、阴部和阳部、二合字、三合字、四合字等等。 5、广泛性,就是一套编码方案可以很好的应用到打字、输入、排序和直接检索等各个领域,还要有利于识字教育和书写的规范。必须指出,容错码不利于排序检索,另外,现有的部首检字法不能直接检索,四角号码则较难掌握。 6、通用性,现在很多人都已经意识到,手持或移动信息设备的汉字键盘输入越来越重要,而没有关注单、双手输入的各自需要。其实,手持设备的双手输入(横排十键元)要大大快于单手输入,台式键盘也有单手输入的需要,并有左右之分;不方便用手的可采用语音汉字编码输入,识别率的问题则可解决,另外,手写板也可以直接写入汉字编码。必须指出,信息元过多则数字键盘的键位定义会有困难。 7、全符性,就是要支持所有汉字、非汉字字符和符号的编码输入。 以上种种一并解决,则中文超西文。 8 、可扩性,现有二万七千多汉字进入电脑,以后不管增加多少都应能适应。9、可变性,汉字今后可能还会简化,不应因汉字字形的变化就要人们重新学习一套汉字编码。 本人以为,以上九点要全部做到,非不拆字的笔画类编码方案不可,那么,此类方案用起来会怎么样呢? 10 、实用性,无非就是即易学又好用;关于易学,只要符合规范性就不会太难,所以不必多说;而要好用就得码长短、键元少、重码少而均匀、词语多、简码多、见字识码、键位合理等等;其中重码率是输入速度快的关键,词语、简码和智能输入的效率也都与之相关,这正是不拆字的笔画类编码方案的最大缺点。那么,不拆字的笔画类编码方案为什么重码多呢?其根本原因是信息元太少,国家标准是横、竖、撇、点、折五个基本笔画,这样少的编码信息对数万汉字的离散能力必然有限;可是,信息元少正是其优点,也是其符合三大特性的保证,所以不能增加信息元。那只有增加信息元的使用量了,有两个办法,一是无限增加码长,这一点不能考虑;再有就是在有限的编码长度中,包含尽可能多的信息,从而增强其离散力,本人称其为“单码多信息”。现有技术“双笔画”、“笔对”等所谓的“双信息”,虽然效果显著,但重码率还不能达到专业打字的要求,为了减少重码,或拆字取码或增加音码,而这违反了确定性和国际性的原则。从中我们看出,“双信息”是不够的,但是,简单的“多信息”和无限制增加码长一样也是不现实的,那么,如何浓缩较多信息于有限的码长之中呢?本发明将完成这一任务。(上面提到的现有技术,主要参考了笔画码、五笔字型、五笔数码、阴阳码、二笔、六元金码) |
|||
|
|
|||
| 首 页 | 理 论 | 说 明 | 下 载 | 联 系 | |||