維基倉頡後邊有一大堆字形差異舉例,例如陸台港字形不同,證明某些字取碼不止一種
我也見過有些字,陸以及台港寫法甚至是日韓寫法是不一樣的
例如:含「反」結構的字、含「巩」結構的字、類似「贏」中「凡」的結構、含「麥」結構的字、含「礻/示」結構的字(尤其是 祘 字)、含「戶」結構的字、含「奄/巟/㐬」的結構(最後一筆,陸標通常鉤上去,台標則沒有)、虎、亮……
延、考、氐、窗、育、雨、舌、臿、忝、致、丟、急也是
片 的話最後那一兩筆好像沒有 ┬ 的寫法,只有┐
今 令 倉 在台標字形當中,跟陸標不同 ,中間那裡台標是橫,陸標是點
說真的,不同的地方字寫法的不同,取碼也會不同,這令我困惑要選擇哪種字形去取碼
「毒」字也是這樣,陸標的話下邊是「母」,繁體字形則是「毋」
我曾經有過這樣的想法,如果把不同寫法的字收錄到不同的Unicode,然後再對它們編碼,這樣就可以做到一字永遠只有一碼了,可惜的是我沒有改變Unicode的權利。
也沒有推廣新Unicode的權利
我理想的Unicode是不應該收那些倒過來的字、旋轉字、筆畫奇特的怪字
unicode兩岸不同字型,如何取碼?
版面规则
公正客觀講理,杜絶廢話連篇
公正客觀講理,杜絶廢話連篇
unicode兩岸不同字型,如何取碼?
https://ejsoon.win/
天蒼人頡:發掘好玩事物
天蒼人頡:發掘好玩事物
Re: unicode兩岸不同字型,如何取碼?
source-code separation,同一字被編進兩個內碼,在1.1之前是允許的,也就是ext-a及之前。1993年發布。
Unifiable component variants(UCV)漢字認同問題。比如「曹曺」到是算不算同一個字,如果算,它就是一對ucv,就不會分成兩個內碼。(現在既然分了,顯然它們不是ucv)
同字異碼有三種情況,一是單字,二是涉及偏旁字,三是涉偏旁但全是ucv。
單字如「曺」,陸標是「十田日」,臺標是「卜田日」。再如「彞」。
偏旁字如「黄黃」,二字分化,但偏旁字只有「横橫」分化,餘下帶黄/黃的字就合並在一個內碼中(ucv):「曂鐄潢黉熿黋趪墴黌穔簧廣獚癀蟥璜磺觵鱑彉僙撗嫹懬」。
我的這篇文章幾乎集全了同偏旁的字。
三是全ucv,如「氐」,不會為它分錄兩種內碼。「抵牴泜」等,都視為同一字。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
天蒼人頡:發掘好玩事物
不同碼表的應對策略
- 漢文庫典(五代):自建聚珍內碼(然而查不到ext-A及往後的字)
- 補完計劃(三五代):為「陸臺舊」三種字型編多個碼
- 陳強勤(99五)(官方認證):少量字為「陸臺」分編兩種碼
- 尹卂倉頡(三代):一字一碼
寡人認為,一字一碼是最合理的。對於UCV,只要在發布碼表時,說明清楚那些有陸臺區別的字是為哪邊字型編碼的即可。
尹倉碼表說明和發布地址:https://ejsoon.win/ejcjcin/
上次由 ejsoon 在 2022年 12月 3日 12:24,总共编辑 1 次。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
天蒼人頡:發掘好玩事物
Re: unicode兩岸不同字型,如何取碼?
所以我懷疑,負責搞Unicode的人是不是按心情或者說是意願收字的……ejsoon 写了: ↑2022年 12月 2日 19:23 unicode的基本知識可參https://www.zhihu.com/question/320709601。
source-code separation,同一字被編進兩個內碼,在1.1之前是允許的,也就是ext-a及之前。1993年發布。
Unifiable component variants(UCV)漢字認同問題。比如「曹曺」到是算不算同一個字,如果算,它就是一對ucv,就不會分成兩個內碼。(現在既然分了,顯然它們不是ucv)
同字異碼有三種情況,一是單字,二是涉及偏旁字,三是涉偏旁但全是ucv。
單字如「曺」,陸標是「十田日」,臺標是「卜田日」。再如「彞」。
偏旁字如「黄黃」,二字分化,但偏旁字只有「横橫」分化,餘下帶黄/黃的字就合並在一個內碼中(ucv):「曂鐄潢黉熿黋趪墴黌穔簧廣獚癀蟥璜磺觵鱑彉僙撗嫹懬」。
我的這篇文章幾乎集全了同偏旁的字。
三是全ucv,如「氐」,不會為它分錄兩種內碼。「抵牴泜」等,都視為同一字。
Re: unicode兩岸不同字型,如何取碼?
臺灣的標準可參教育部標準字體,香港也有個常用字標準。基本都差不多。
你提到的「羽訁礻」是舊體字,可參康熙字體。
各國有不同的字型標準,尹倉因為是一字一碼,目前只會在陸標和臺標之中二選一。
朱邦復親自編碼的三代,主要是臺標,很多編碼延用至今,如「麥」,按陸標它的上面是「來」,臺標它的上面就是「十人」。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
天蒼人頡:發掘好玩事物
Re: unicode兩岸不同字型,如何取碼?
而「瓜」的話,細明體跟微軟正黑體,顯示不太一樣,前者為「⺁㇙丶㇏」,後者為「⺁厶㇏」,是前者為取碼標準嗎?
有一些字,如「残」、「径」、「惮」等,簡體跟日本漢字編在同一個Unicode上的字,臺標的「歹㦮」反而是日本那邊的寫法,港澳臺用繁體都不大可能用到日本漢字的寫法,如果追求「一字一碼」,則有些字以日本字形編倉頡碼有點不妥。
Re: unicode兩岸不同字型,如何取碼?
壬按陸標取就可以了。臺標實陸上是把壬再分化成「一士ren、㇒土ting」。
「瓜」我是希望取作「竹戈人」,因為按連體字從上到下取碼,第三碼不能是丶。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
天蒼人頡:發掘好玩事物
Re: unicode兩岸不同字型,如何取碼?
「舌反」等都是按陸標。
「办」字我的觀點與你不同,它是由「辦」簡化而來,同是兩個「辛」變成點,它是一組的。
而「梁」的丶不是一組的,它的上面是
側水
側水
‖刃
刃
‖點形
點形
。https://ejsoon.win/
天蒼人頡:發掘好玩事物
天蒼人頡:發掘好玩事物
在线用户
正浏览此版面之用户: 没有注册用户 和 3 访客