【碼表製作】談論一字一碼

分享和討論倉頡輸入法相關的資訊和内容
版面规则
公正客觀講理,杜絶廢話連篇
回复
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2230
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 98 次
被赞次数: 98 次
联系:

【碼表製作】談論一字一碼

帖子 ejsoon »

今與hkcrads的通信中,談到碼表製作是否應一字一碼的問題:
倉頡其中一個最大問題是堅持一字一碼.

一字一碼的最大好處, 我個人認為是可避免重碼. 輸入時就可以減少選字, 就可快速輸入.

但當遇到有取碼爭議的字時, 因為只能一字一碼, 就要爭論誰才是正確.

有取碼爭議的字應接納一字多碼.

特別是生辟字, 這些字平常都不會用到的, 即便一字多碼則不會太影響日常輸入的效率.

當一些有爭議的生辟字只有一個碼時, 如不熟識其碼, 想了半天也打不出這字, 這才非常影響輸入的效率.

輸入法, 最重要是方便使用.

所以, 我個人認為應把: 月月、月一中月、 月弓月、月女月,都收入碼表內。
一字一碼,確實在少數情況下導致人打不出字,比如內陸人不知道「氐」的末碼為「一」,「呈」的第二碼為「竹」。

但是,一字多碼也會産生重碼,比如雅倉的「滄洽涻浛、嗆哈啥唅」,因為支援臺標而成為重碼。

因此,一字多碼並不是解決一切問題的靈丹妙藥。

真正無限度執行一字多碼的是無蝦米,一個字都可能有七八種編碼。對於無蝦米,暫時不在此作評,但這種「一個字就有七八種編碼」的做法我肯定是不會採用的。

某些倉頡碼表的「一字多碼」,也僅限於「支援不同字型」,並不會包括「支援不同規則」。

比如「冎」字取碼,維基倉教派有獨特的「骨頭字元規則」,因此補完計劃就採用了這個規則,只收「冎:月月」這一個編碼。

因此,hkcards朋友可能對「一字多碼」有所誤會。

倉頡天然是抵觸「一字多碼」的。對於「由」字,為何不(參考無蝦米)兼收「中日、中田」兩種編碼?為何「甫」不兼收「戈十月、戈十月手」?為何「垂甩」等字沒有兩種編碼?

因為倉頡從一代到六代,自始至終最高的指導原則是減少重碼,直至成為內碼。因此當朱沈在做第五代碼表時,是簡繁分開製作的。其中倉五手冊附錄收的是繁體版。

因為簡繁漢字,很難不重碼,比如「齡龄」等等。

即便是「急」收了兩種碼,那也是基於聚珍字庫,而聚珍字庫是分別為兩種字型都編了不同的內碼。

最著名的例子就是「摩」等字,聚珍(朱邦復)出於非常奇怪的心理,將其分成兩種字型,應用兩個不同的複合字首「麻」。

這使現代以unicode為內碼主導的人們感到疑惑,因為unicode並沒有兩種「麻字頭」。

也就是說,所有我們在漢文庫典查到的「一字多碼」,其實是聚珍字庫的「一字一碼」。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2230
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 98 次
被赞次数: 98 次
联系:

Re: 【碼表製作】談論一字一碼

帖子 ejsoon »

一字多碼是基於一種假設,假設一個來自臺灣的朋友不知道「鞏」的右上角是凡,假設大陸人都不知道「呈」的第二碼可以取㇒。

但是這種假設是不成立的,因為倉頡用戶不是笨蛋。

他能學會倉頡,也就順便把兩岸字型差異也一同學了。

與此同時,他如果因為不懂「呈」下面是「壬」這種臺灣字型而打不出「呈」字,他可以去查啊!他只要去查,只要查一次,他就可以知道了。

尹倉在線輸入法也提供了編碼查詢功能。

與此同時,當一個碼表作者在發布碼表時,他應該大概說明哪些字會取陸標或臺標。

而不是甚麼都不說,再基於「他們都是笨蛋學不會兩岸字型差異」的假設,過份的編進各種編碼,甚至像補完計劃一樣把舊體字型都編進去,成為碼表中的傻大胖。

一字一碼的尹倉,明確說明了編碼範圍及字數,就是20902字,不多不少,非常精確。體積小巧,攜帶方便。

(曾經大馬倉友有一位馬齡薯烘蛋唷!妹妹,發表過泰瑞碼表,這個碼表只支援big5,只有六千多字,還有不少編碼是三五混合。)
上次由 ejsoon 在 2023年 2月 10日 13:26,总共编辑 1 次。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2230
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 98 次
被赞次数: 98 次
联系:

Re: 【碼表製作】談論一字一碼

帖子 ejsoon »

與此同時,hkcards朋友還誤解了倉頡取碼規則中的一個問題,那就是編碼取捨問題(編碼取捨即為「取碼」)。

舉個例子,當時我們談到「兂」字時,我說「十女大山、中尸山」都是對的編碼,以前者為最優,這個叫取碼。而「大女山」則是錯碼。

我自己的碼表,我會取「最優編碼」,而別人的「最優」很可能是另一個,兩個都是對的。

但是「大女山」是不符合規則的,理由我之前已經講過,這裏就不重覆了。

因此,一字一碼只會在「對錯」之間有爭論,而在「最優」不一定有,看人的性格。比如說我的性格就比較隨和,比較善解人意,我也理解「中尸山」有一定的根據,它符合字源,也在基於某種特定字型時符合規則,所以我不會強迫別人一定取「十女大山」,但我確實認為「十女大山」才是最優取碼。

但是因為「大女山」是錯的,不管我如何善解人意性格隨和,對錯要用道理用規則來劃分,否則規則有甚麼用?

即使是某些過份支援「一字多碼」的倉頡碼表,如補完計劃,他們並沒有解決所有的爭端,反而引發了更多的問題,成為群嘲的對像。一個字編了多個碼,但沒有一個是對的。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
回复

在线用户

正浏览此版面之用户: 没有注册用户 和 0 访客