搜索引擎、正則表達式需要優化的地方,正異體漢字

分享讨论IT相关的内容
回复
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2668
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 106 次
被赞次数: 113 次
联系:

搜索引擎、正則表達式需要優化的地方,正異體漢字

帖子 ejsoon »

unicode的1993年初版,收集了20902個漢字,幾乎覆蓋了所有人們日常及專業表達用到的字。

但就是在這個不算大的字集,出現了很多異體字,甚至是連異體都不算的微調字。

比如說,我們認為「乘乗」算是異體,但是「産產」算不算異體就很難說,一眼看去就知道是同一個字。

但是搜索引擊並不一定知道它們是同一個字。

英文的正則表達式支持大小寫不敏感的選項。但是中文的「正異體不敏感」卻從來沒有被人們提起過。

中文的「簡繁不敏感」大部份搜索引擎都已經有了,比如某淘上用繁體搜索,都能得到簡體結果(但和直接搜簡體仍然有所差別)。

其實這個工作量並不大,只需要一個專業人士一兩天的時間。

問題是,像「黒曽秊」這種異體字,對於大部份人而言,他們的拼音/注音輸入法都打不出來這些字,因此對於他們來說,這些字都在「沉睡」中,好像也沒有必要去「喚醒」。

既然如此,當初unicode何必這樣亂來?何不把「曽曾、黒黑、産產、彥彦、焼燒」視為同一個字?人們始終只可能挑其中一個來用,這在客觀上也造成了文本檢索的困難。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2668
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 106 次
被赞次数: 113 次
联系:

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

帖子 ejsoon »

所幸unicode的標準已經定下了,基本區就是20902字。這樣一來,即便是存在異體字,微調字,它們的數量也是有限的。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2668
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 106 次
被赞次数: 113 次
联系:

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

帖子 ejsoon »

可能又要談到unicode濫收字的問題,比如「様、逹」,看一眼就知道是錯字,或是省筆字。

那麼,搜索引擎要解決的問題,就是這些錯別字,讓搜索「様、逹」跟搜索「樣、達」是同樣的結果。

也就是說,搜索引擎最好能夠具有糾錯能力。



我想起了我開始用倉頡時,我一度以為價格的價是「儥」字,一直打錯。用形碼單字的,確實是有可能出現這種錯誤。用拼音/注音的,反而打不出「儥」,就不會打錯。

現在科技那麼發達,AI好像也挺有能耐,那到底有沒有辦法,能使搜索引擎或者甚麼程式知道,我在打「儥格」時,實際上是想表達「價格」?

這可能是搜索引擎需要優化的一個方向。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
鶴飛四季
锋芒初露
锋芒初露
帖子: 728
注册时间: 2022年 12月 1日 09:43
为圈友点赞: 3 次
被赞次数: 34 次

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

帖子 鶴飛四季 »

我認為「産」才是變遷正確的字,參考「鬲」字,篆體裡面的「X」正是「丷」。
头像
ejsoon
圈圈精英
圈圈精英
帖子: 2668
注册时间: 2022年 11月 18日 17:36
为圈友点赞: 106 次
被赞次数: 113 次
联系:

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

帖子 ejsoon »

鶴飛四季 写了: 2023年 9月 17日 18:34 我認為「産」才是變遷正確的字,參考「鬲」字,篆體裡面的「X」正是「丷」。
看立場,如果是臺灣人,應該都會統一使用「產」。
https://ejsoon.win/
天蒼人頡:發掘好玩事物
回复

在线用户

正浏览此版面之用户: Google [Bot] 和 3 访客