unicode兩岸不同字型,如何取碼?

分享和討論倉頡輸入法相關的資訊和内容
版面规则
公正客觀講理,杜絶廢話連篇
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2177
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 96 次
被赞次数: 92 次
联系:

unicode兩岸不同字型,如何取碼?

帖子 ejsoon »

@鶴 你之前的留言,談倉頡如何為unicode編碼
維基倉頡後邊有一大堆字形差異舉例,例如陸台港字形不同,證明某些字取碼不止一種

我也見過有些字,陸以及台港寫法甚至是日韓寫法是不一樣的
例如:含「反」結構的字、含「巩」結構的字、類似「贏」中「凡」的結構、含「麥」結構的字、含「礻/示」結構的字(尤其是 祘 字)、含「戶」結構的字、含「奄/巟/㐬」的結構(最後一筆,陸標通常鉤上去,台標則沒有)、虎、亮……


延、考、氐、窗、育、雨、舌、臿、忝、致、丟、急也是
片 的話最後那一兩筆好像沒有 ┬ 的寫法,只有┐


今 令 倉 在台標字形當中,跟陸標不同 ,中間那裡台標是橫,陸標是點

說真的,不同的地方字寫法的不同,取碼也會不同,這令我困惑要選擇哪種字形去取碼

「毒」字也是這樣,陸標的話下邊是「母」,繁體字形則是「毋」

我曾經有過這樣的想法,如果把不同寫法的字收錄到不同的Unicode,然後再對它們編碼,這樣就可以做到一字永遠只有一碼了,可惜的是我沒有改變Unicode的權利。

也沒有推廣新Unicode的權利

我理想的Unicode是不應該收那些倒過來的字、旋轉字、筆畫奇特的怪字
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2177
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 96 次
被赞次数: 92 次
联系:

Re: unicode兩岸不同字型,如何取碼?

帖子 ejsoon »

unicode的基本知識可參https://www.zhihu.com/question/320709601

source-code separation,同一字被編進兩個內碼,在1.1之前是允許的,也就是ext-a及之前。1993年發布。

Unifiable component variants(UCV)漢字認同問題。比如「曹曺」到是算不算同一個字,如果算,它就是一對ucv,就不會分成兩個內碼。(現在既然分了,顯然它們不是ucv)

同字異碼有三種情況,一是單字,二是涉及偏旁字,三是涉偏旁但全是ucv。

單字如「曺」,陸標是「十田日」,臺標是「卜田日」。再如「彞」。

偏旁字如「黄黃」,二字分化,但偏旁字只有「横橫」分化,餘下帶黄/黃的字就合並在一個內碼中(ucv):「曂鐄潢黉熿黋趪墴黌穔簧廣獚癀蟥璜磺觵鱑彉僙撗嫹懬」。

我的這篇文章幾乎集全了同偏旁的字。

三是全ucv,如「氐」,不會為它分錄兩種內碼。「抵牴泜」等,都視為同一字。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2177
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 96 次
被赞次数: 92 次
联系:

不同碼表的應對策略

帖子 ejsoon »

  • 漢文庫典(五代):自建聚珍內碼(然而查不到ext-A及往後的字)
  • 補完計劃(三五代):為「陸臺舊」三種字型編多個碼
  • 陳強勤(99五)(官方認證):少量字為「陸臺」分編兩種碼
  • 尹卂倉頡(三代):一字一碼
補完計劃為「懬」字編了三種碼「戈金心、戈廿金心、戈廿一心」。特別關注「戈廿一心」這個編碼,其實是違背官方手冊的,因為倉五手冊已經定下了,「黄」字是連體字(陸標),那麼除了「黃橫」這兩個分化字可以為臺標編碼之外,其餘的UCV都應該視為陸標。

寡人認為,一字一碼是最合理的。對於UCV,只要在發布碼表時,說明清楚那些有陸臺區別的字是為哪邊字型編碼的即可。

尹倉碼表說明和發布地址:https://ejsoon.win/ejcjcin/
上次由 ejsoon 在 2022年 12月 3日 12:24,总共编辑 1 次。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2177
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 96 次
被赞次数: 92 次
联系:

Re: unicode兩岸不同字型,如何取碼?

帖子 ejsoon »

图片
貴壇的list左間距是不是有點太寬了?@圈宝
ejsoon 的这篇帖子被以下圈友点了赞:
圈宝
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
圈宝
圈圈守护者
圈圈守护者
帖子: 75
注册时间: 2020年 12月 4日 20:46
我的状态: 🎯
为圈友点赞: 87 次
被赞次数: 17 次

Re: unicode兩岸不同字型,如何取碼?

帖子 圈宝 »

已调整,可能需要刷新一下浏览器缓存就能看到效果了。
圈宝 的这篇帖子被以下圈友点了赞:
ejsoon
当时明月在,曾照彩云归
鶴飛四季
锋芒初露
锋芒初露
帖子: 670
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 32 次

Re: unicode兩岸不同字型,如何取碼?

帖子 鶴飛四季 »

ejsoon 写了: 2022年 12月 2日 19:23 unicode的基本知識可參https://www.zhihu.com/question/320709601

source-code separation,同一字被編進兩個內碼,在1.1之前是允許的,也就是ext-a及之前。1993年發布。

Unifiable component variants(UCV)漢字認同問題。比如「曹曺」到是算不算同一個字,如果算,它就是一對ucv,就不會分成兩個內碼。(現在既然分了,顯然它們不是ucv)

同字異碼有三種情況,一是單字,二是涉及偏旁字,三是涉偏旁但全是ucv。

單字如「曺」,陸標是「十田日」,臺標是「卜田日」。再如「彞」。

偏旁字如「黄黃」,二字分化,但偏旁字只有「横橫」分化,餘下帶黄/黃的字就合並在一個內碼中(ucv):「曂鐄潢黉熿黋趪墴黌穔簧廣獚癀蟥璜磺觵鱑彉僙撗嫹懬」。

我的這篇文章幾乎集全了同偏旁的字。

三是全ucv,如「氐」,不會為它分錄兩種內碼。「抵牴泜」等,都視為同一字。
所以我懷疑,負責搞Unicode的人是不是按心情或者說是意願收字的……
鶴飛四季
锋芒初露
锋芒初露
帖子: 670
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 32 次

Re: unicode兩岸不同字型,如何取碼?

帖子 鶴飛四季 »

另外我還想知道怎麼了解港澳台三地的書寫習慣(手寫體並非印刷體)
還發現香港某幾家電視所用的字幕(用的字體是DFHEIMEDIUM-B5.ttc)中某些字讓我懷疑不是當今規範書寫方式,例如含「羽」、「言」、「礻」結構的字,顯示成這樣:
图片
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2177
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 96 次
被赞次数: 92 次
联系:

Re: unicode兩岸不同字型,如何取碼?

帖子 ejsoon »

鶴飛四季 写了: 2022年 12月 3日 19:24 另外我還想知道怎麼了解港澳台三地的書寫習慣(手寫體並非印刷體)
臺灣的標準可參教育部標準字體,香港也有個常用字標準。基本都差不多。

你提到的「羽訁礻」是舊體字,可參康熙字體。

各國有不同的字型標準,尹倉因為是一字一碼,目前只會在陸標和臺標之中二選一。

朱邦復親自編碼的三代,主要是臺標,很多編碼延用至今,如「麥」,按陸標它的上面是「來」,臺標它的上面就是「十人」。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
鶴飛四季
锋芒初露
锋芒初露
帖子: 670
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 32 次

Re: unicode兩岸不同字型,如何取碼?

帖子 鶴飛四季 »

含有「壬」結構的,如「任」,臺標、港標都把上面那一筆變得很直,像橫一樣,只有陸標真正呈撇的形狀。
而「瓜」的話,細明體跟微軟正黑體,顯示不太一樣,前者為「⺁㇙丶㇏」,後者為「⺁厶㇏」,是前者為取碼標準嗎?
有一些字,如「残」、「径」、「惮」等,簡體跟日本漢字編在同一個Unicode上的字,臺標的「歹㦮」反而是日本那邊的寫法,港澳臺用繁體都不大可能用到日本漢字的寫法,如果追求「一字一碼」,則有些字以日本字形編倉頡碼有點不妥。
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2177
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 96 次
被赞次数: 92 次
联系:

Re: unicode兩岸不同字型,如何取碼?

帖子 ejsoon »

鶴飛四季 写了: 2022年 12月 6日 18:15 含有「壬」結構的,如「任」,臺標、港標都把上面那一筆變得很直,像橫一樣,只有陸標真正呈撇的形狀;
而「瓜」的話,細明體跟微軟正黑體,顯示不太一樣,前者為「⺁㇙丶㇏」,後者為「⺁厶㇏」,是前者為取碼標準嗎?
壬按陸標取就可以了。臺標實陸上是把壬再分化成「一士ren、㇒土ting」。

「瓜」我是希望取作「竹戈人」,因為按連體字從上到下取碼,第三碼不能是丶。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
鶴飛四季
锋芒初露
锋芒初露
帖子: 670
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 32 次

Re: unicode兩岸不同字型,如何取碼?

帖子 鶴飛四季 »

ejsoon 写了: 2022年 12月 6日 18:35
鶴飛四季 写了: 2022年 12月 6日 18:15 含有「壬」結構的,如「任」,臺標、港標都把上面那一筆變得很直,像橫一樣,只有陸標真正呈撇的形狀;
而「瓜」的話,細明體跟微軟正黑體,顯示不太一樣,前者為「⺁㇙丶㇏」,後者為「⺁厶㇏」,是前者為取碼標準嗎?
壬按陸標取就可以了。臺標實陸上是把壬再分化成「一士ren、㇒土ting」。

「瓜」我是希望取作「竹戈人」,因為按連體字從上到下取碼,第三碼不能是丶。
「舌」也是按陸標取碼?
我還覺得「办」不應取大尸金,因為左邊是斜著的點,參考「梁」的取碼,「八」的撇應為真的撇,否則當兩點處理。
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2177
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 96 次
被赞次数: 92 次
联系:

Re: unicode兩岸不同字型,如何取碼?

帖子 ejsoon »

鶴飛四季 写了: 2022年 12月 6日 18:43 「舌」也是按陸標取碼?
我還覺得「办」不應取大尸金,因為左邊是斜著的點,參考「梁」的取碼,「八」的撇應為真的撇,否則當兩點處理。
「舌反」等都是按陸標。

「办」字我的觀點與你不同,它是由「辦」簡化而來,同是兩個「辛」變成點,它是一組的。

而「梁」的丶不是一組的,它的上面是
側水
側水
點形
點形
https://ejsoon.win/
天蒼人頡:發掘好玩事物
鶴飛四季
锋芒初露
锋芒初露
帖子: 670
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 32 次

Re: unicode兩岸不同字型,如何取碼?

帖子 鶴飛四季 »

ejsoon 写了: 2022年 12月 6日 19:02
鶴飛四季 写了: 2022年 12月 6日 18:43 「舌」也是按陸標取碼?
我還覺得「办」不應取大尸金,因為左邊是斜著的點,參考「梁」的取碼,「八」的撇應為真的撇,否則當兩點處理。
「舌反」等都是按陸標。

「办」字我的觀點與你不同,它是由「辦」簡化而來,同是兩個「辛」變成點,它是一組的。

而「梁」的丶不是一組的,它的上面是
側水
側水
點形
點形
所以倉頡平台給出的「梁」的取碼水金木是錯的?
鶴飛四季
锋芒初露
锋芒初露
帖子: 670
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 32 次

Re: unicode兩岸不同字型,如何取碼?

帖子 鶴飛四季 »

ejsoon 写了: 2022年 12月 3日 19:31
鶴飛四季 写了: 2022年 12月 3日 19:24 另外我還想知道怎麼了解港澳台三地的書寫習慣(手寫體並非印刷體)
臺灣的標準可參教育部標準字體,香港也有個常用字標準。基本都差不多。

你提到的「羽訁礻」是舊體字,可參康熙字體。

各國有不同的字型標準,尹倉因為是一字一碼,目前只會在陸標和臺標之中二選一。

朱邦復親自編碼的三代,主要是臺標,很多編碼延用至今,如「麥」,按陸標它的上面是「來」,臺標它的上面就是「十人」。
有一些含「麥」的字,左邊最後一筆會寫成長長的捺,托住右邊的字身,那麼字首取碼是否仍取十弓?
鶴飛四季
锋芒初露
锋芒初露
帖子: 670
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 32 次

Re: unicode兩岸不同字型,如何取碼?

帖子 鶴飛四季 »

ejsoon 写了: 2022年 12月 6日 18:35
鶴飛四季 写了: 2022年 12月 6日 18:15 含有「壬」結構的,如「任」,臺標、港標都把上面那一筆變得很直,像橫一樣,只有陸標真正呈撇的形狀;
而「瓜」的話,細明體跟微軟正黑體,顯示不太一樣,前者為「⺁㇙丶㇏」,後者為「⺁厶㇏」,是前者為取碼標準嗎?
壬按陸標取就可以了。臺標實陸上是把壬再分化成「一士ren、㇒土ting」。

「瓜」我是希望取作「竹戈人」,因為按連體字從上到下取碼,第三碼不能是丶。
所以瓜 取 竹女戈人 一直以來都有問題,連www.hkcards.com那個網站提供的取碼也是。
回复

在线用户

正浏览此版面之用户: 没有注册用户 和 0 访客