unicode兩岸不同字型，如何取碼？

ejsoon · 帖子由 **ejsoon** » 2022年 12月 2日 19:06

@鶴你之前的留言，談倉頡如何為unicode編碼

維基倉頡後邊有一大堆字形差異舉例，例如陸台港字形不同，證明某些字取碼不止一種

我也見過有些字，陸以及台港寫法甚至是日韓寫法是不一樣的
例如：含「反」結構的字、含「巩」結構的字、類似「贏」中「凡」的結構、含「麥」結構的字、含「礻/示」結構的字（尤其是祘字）、含「戶」結構的字、含「奄/巟/㐬」的結構（最後一筆，陸標通常鉤上去，台標則沒有）、虎、亮……

延、考、氐、窗、育、雨、舌、臿、忝、致、丟、急也是
片的話最後那一兩筆好像沒有 ┬ 的寫法，只有┐

今令倉在台標字形當中，跟陸標不同，中間那裡台標是橫，陸標是點

說真的，不同的地方字寫法的不同，取碼也會不同，這令我困惑要選擇哪種字形去取碼

「毒」字也是這樣，陸標的話下邊是「母」，繁體字形則是「毋」

我曾經有過這樣的想法，如果把不同寫法的字收錄到不同的Unicode，然後再對它們編碼，這樣就可以做到一字永遠只有一碼了，可惜的是我沒有改變Unicode的權利。

也沒有推廣新Unicode的權利

我理想的Unicode是不應該收那些倒過來的字、旋轉字、筆畫奇特的怪字

ejsoon · 帖子由 **ejsoon** » 2022年 12月 2日 19:23

unicode的基本知識可參https://www.zhihu.com/question/320709601。

source-code separation，同一字被編進兩個內碼，在1.1之前是允許的，也就是ext-a及之前。1993年發布。

Unifiable component variants(UCV)漢字認同問題。比如「曹曺」到是算不算同一個字，如果算，它就是一對ucv，就不會分成兩個內碼。（現在既然分了，顯然它們不是ucv）

同字異碼有三種情況，一是單字，二是涉及偏旁字，三是涉偏旁但全是ucv。

單字如「曺」，陸標是「十田日」，臺標是「卜田日」。再如「彞」。

偏旁字如「黄黃」，二字分化，但偏旁字只有「横橫」分化，餘下帶黄/黃的字就合並在一個內碼中（ucv）：「曂鐄潢黉熿黋趪墴黌穔簧廣獚癀蟥璜磺觵鱑彉僙撗嫹懬」。

我的這篇文章幾乎集全了同偏旁的字。

三是全ucv，如「氐」，不會為它分錄兩種內碼。「抵牴泜」等，都視為同一字。

ejsoon · 帖子由 **ejsoon** » 2022年 12月 3日 12:19

漢文庫典（五代）：自建聚珍內碼（然而查不到ext-A及往後的字）
補完計劃（三五代）：為「陸臺舊」三種字型編多個碼
陳強勤（99五）（官方認證）：少量字為「陸臺」分編兩種碼
尹卂倉頡（三代）：一字一碼

補完計劃為「懬」字編了三種碼「戈金心、戈廿金心、戈廿一心」。特別關注「戈廿一心」這個編碼，其實是違背官方手冊的，因為倉五手冊已經定下了，「黄」字是連體字（陸標），那麼除了「黃橫」這兩個分化字可以為臺標編碼之外，其餘的UCV都應該視為陸標。

寡人認為，一字一碼是最合理的。對於UCV，只要在發布碼表時，說明清楚那些有陸臺區別的字是為哪邊字型編碼的即可。

尹倉碼表說明和發布地址：https://ejsoon.win/ejcjcin/

ejsoon · 帖子由 **ejsoon** » 2022年 12月 3日 12:21

貴壇的list左間距是不是有點太寬了？@圈宝

帖子由圈宝 » 2022年 12月 3日 13:05

已调整，可能需要刷新一下浏览器缓存就能看到效果了。

鶴飛四季 · 帖子由 **鶴飛四季** » 2022年 12月 3日 19:08

ejsoon 写了： ↑2022年 12月 2日 19:23 unicode的基本知識可參https://www.zhihu.com/question/320709601。

source-code separation，同一字被編進兩個內碼，在1.1之前是允許的，也就是ext-a及之前。1993年發布。

Unifiable component variants(UCV)漢字認同問題。比如「曹曺」到是算不算同一個字，如果算，它就是一對ucv，就不會分成兩個內碼。（現在既然分了，顯然它們不是ucv）

同字異碼有三種情況，一是單字，二是涉及偏旁字，三是涉偏旁但全是ucv。

單字如「曺」，陸標是「十田日」，臺標是「卜田日」。再如「彞」。

偏旁字如「黄黃」，二字分化，但偏旁字只有「横橫」分化，餘下帶黄/黃的字就合並在一個內碼中（ucv）：「曂鐄潢黉熿黋趪墴黌穔簧廣獚癀蟥璜磺觵鱑彉僙撗嫹懬」。

我的這篇文章幾乎集全了同偏旁的字。

三是全ucv，如「氐」，不會為它分錄兩種內碼。「抵牴泜」等，都視為同一字。

所以我懷疑，負責搞Unicode的人是不是按心情或者說是意願收字的……

鶴飛四季 · 帖子由 **鶴飛四季** » 2022年 12月 3日 19:24

另外我還想知道怎麼了解港澳台三地的書寫習慣（手寫體並非印刷體）
還發現香港某幾家電視所用的字幕（用的字體是DFHEIMEDIUM-B5.ttc）中某些字讓我懷疑不是當今規範書寫方式，例如含「羽」、「言」、「礻」結構的字，顯示成這樣：

ejsoon · 帖子由 **ejsoon** » 2022年 12月 3日 19:31

鶴飛四季写了： ↑2022年 12月 3日 19:24 另外我還想知道怎麼了解港澳台三地的書寫習慣（手寫體並非印刷體）

臺灣的標準可參教育部標準字體，香港也有個常用字標準。基本都差不多。

你提到的「羽訁礻」是舊體字，可參康熙字體。

各國有不同的字型標準，尹倉因為是一字一碼，目前只會在陸標和臺標之中二選一。

朱邦復親自編碼的三代，主要是臺標，很多編碼延用至今，如「麥」，按陸標它的上面是「來」，臺標它的上面就是「十人」。

鶴飛四季 · 帖子由 **鶴飛四季** » 2022年 12月 6日 18:15

含有「壬」結構的，如「任」，臺標、港標都把上面那一筆變得很直，像橫一樣，只有陸標真正呈撇的形狀。
而「瓜」的話，細明體跟微軟正黑體，顯示不太一樣，前者為「⺁㇙丶㇏」，後者為「⺁厶㇏」，是前者為取碼標準嗎？
有一些字，如「残」、「径」、「惮」等，簡體跟日本漢字編在同一個Unicode上的字，臺標的「歹㦮」反而是日本那邊的寫法，港澳臺用繁體都不大可能用到日本漢字的寫法，如果追求「一字一碼」，則有些字以日本字形編倉頡碼有點不妥。

ejsoon · 帖子由 **ejsoon** » 2022年 12月 6日 18:35

鶴飛四季写了： ↑2022年 12月 6日 18:15 含有「壬」結構的，如「任」，臺標、港標都把上面那一筆變得很直，像橫一樣，只有陸標真正呈撇的形狀；
而「瓜」的話，細明體跟微軟正黑體，顯示不太一樣，前者為「⺁㇙丶㇏」，後者為「⺁厶㇏」，是前者為取碼標準嗎？

壬按陸標取就可以了。臺標實陸上是把壬再分化成「一士ren、㇒土ting」。

「瓜」我是希望取作「竹戈人」，因為按連體字從上到下取碼，第三碼不能是丶。

鶴飛四季 · 帖子由 **鶴飛四季** » 2022年 12月 6日 18:43

ejsoon 写了： ↑2022年 12月 6日 18:35
鶴飛四季写了： ↑2022年 12月 6日 18:15 含有「壬」結構的，如「任」，臺標、港標都把上面那一筆變得很直，像橫一樣，只有陸標真正呈撇的形狀；
而「瓜」的話，細明體跟微軟正黑體，顯示不太一樣，前者為「⺁㇙丶㇏」，後者為「⺁厶㇏」，是前者為取碼標準嗎？
壬按陸標取就可以了。臺標實陸上是把壬再分化成「一士ren、㇒土ting」。

「瓜」我是希望取作「竹戈人」，因為按連體字從上到下取碼，第三碼不能是丶。

「舌」也是按陸標取碼？
我還覺得「办」不應取大尸金，因為左邊是斜著的點，參考「梁」的取碼，「八」的撇應為真的撇，否則當兩點處理。

ejsoon · 帖子由 **ejsoon** » 2022年 12月 6日 19:02

鶴飛四季写了： ↑2022年 12月 6日 18:43 「舌」也是按陸標取碼？
我還覺得「办」不應取大尸金，因為左邊是斜著的點，參考「梁」的取碼，「八」的撇應為真的撇，否則當兩點處理。

「舌反」等都是按陸標。

「办」字我的觀點與你不同，它是由「辦」簡化而來，同是兩個「辛」變成點，它是一組的。

而「梁」的丶不是一組的，它的上面是

側水

‖

刃

‖

點形

。

鶴飛四季 · 帖子由 **鶴飛四季** » 2022年 12月 6日 19:20

ejsoon 写了： ↑2022年 12月 6日 19:02
鶴飛四季写了： ↑2022年 12月 6日 18:43 「舌」也是按陸標取碼？
我還覺得「办」不應取大尸金，因為左邊是斜著的點，參考「梁」的取碼，「八」的撇應為真的撇，否則當兩點處理。
「舌反」等都是按陸標。

「办」字我的觀點與你不同，它是由「辦」簡化而來，同是兩個「辛」變成點，它是一組的。

而「梁」的丶不是一組的，它的上面是
側水
側水
‖
刃
刃
‖
點形
點形
。

所以倉頡平台給出的「梁」的取碼水金木是錯的？

鶴飛四季 · 帖子由 **鶴飛四季** » 2022年 12月 6日 19:31

ejsoon 写了： ↑2022年 12月 3日 19:31
鶴飛四季写了： ↑2022年 12月 3日 19:24 另外我還想知道怎麼了解港澳台三地的書寫習慣（手寫體並非印刷體）
臺灣的標準可參教育部標準字體，香港也有個常用字標準。基本都差不多。

你提到的「羽訁礻」是舊體字，可參康熙字體。

各國有不同的字型標準，尹倉因為是一字一碼，目前只會在陸標和臺標之中二選一。

朱邦復親自編碼的三代，主要是臺標，很多編碼延用至今，如「麥」，按陸標它的上面是「來」，臺標它的上面就是「十人」。

有一些含「麥」的字，左邊最後一筆會寫成長長的捺，托住右邊的字身，那麼字首取碼是否仍取十弓？

鶴飛四季 · 帖子由 **鶴飛四季** » 2022年 12月 6日 19:53

ejsoon 写了： ↑2022年 12月 6日 18:35
鶴飛四季写了： ↑2022年 12月 6日 18:15 含有「壬」結構的，如「任」，臺標、港標都把上面那一筆變得很直，像橫一樣，只有陸標真正呈撇的形狀；
而「瓜」的話，細明體跟微軟正黑體，顯示不太一樣，前者為「⺁㇙丶㇏」，後者為「⺁厶㇏」，是前者為取碼標準嗎？
壬按陸標取就可以了。臺標實陸上是把壬再分化成「一士ren、㇒土ting」。

「瓜」我是希望取作「竹戈人」，因為按連體字從上到下取碼，第三碼不能是丶。

所以瓜取竹女戈人一直以來都有問題，連www.hkcards.com那個網站提供的取碼也是。

unicode兩岸不同字型，如何取碼？

unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

不同碼表的應對策略

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

Re: unicode兩岸不同字型，如何取碼？

在线用户