分页: 1 / 1

搜索引擎、正則表達式需要優化的地方,正異體漢字

发表于 : 2023年 9月 7日 12:23
ejsoon
unicode的1993年初版,收集了20902個漢字,幾乎覆蓋了所有人們日常及專業表達用到的字。

但就是在這個不算大的字集,出現了很多異體字,甚至是連異體都不算的微調字。

比如說,我們認為「乘乗」算是異體,但是「産產」算不算異體就很難說,一眼看去就知道是同一個字。

但是搜索引擊並不一定知道它們是同一個字。

英文的正則表達式支持大小寫不敏感的選項。但是中文的「正異體不敏感」卻從來沒有被人們提起過。

中文的「簡繁不敏感」大部份搜索引擎都已經有了,比如某淘上用繁體搜索,都能得到簡體結果(但和直接搜簡體仍然有所差別)。

其實這個工作量並不大,只需要一個專業人士一兩天的時間。

問題是,像「黒曽秊」這種異體字,對於大部份人而言,他們的拼音/注音輸入法都打不出來這些字,因此對於他們來說,這些字都在「沉睡」中,好像也沒有必要去「喚醒」。

既然如此,當初unicode何必這樣亂來?何不把「曽曾、黒黑、産產、彥彦、焼燒」視為同一個字?人們始終只可能挑其中一個來用,這在客觀上也造成了文本檢索的困難。

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

发表于 : 2023年 9月 7日 12:27
ejsoon
所幸unicode的標準已經定下了,基本區就是20902字。這樣一來,即便是存在異體字,微調字,它們的數量也是有限的。

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

发表于 : 2023年 9月 7日 12:35
ejsoon
可能又要談到unicode濫收字的問題,比如「様、逹」,看一眼就知道是錯字,或是省筆字。

那麼,搜索引擎要解決的問題,就是這些錯別字,讓搜索「様、逹」跟搜索「樣、達」是同樣的結果。

也就是說,搜索引擎最好能夠具有糾錯能力。



我想起了我開始用倉頡時,我一度以為價格的價是「儥」字,一直打錯。用形碼單字的,確實是有可能出現這種錯誤。用拼音/注音的,反而打不出「儥」,就不會打錯。

現在科技那麼發達,AI好像也挺有能耐,那到底有沒有辦法,能使搜索引擎或者甚麼程式知道,我在打「儥格」時,實際上是想表達「價格」?

這可能是搜索引擎需要優化的一個方向。

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

发表于 : 2023年 9月 17日 18:34
鶴飛四季
我認為「産」才是變遷正確的字,參考「鬲」字,篆體裡面的「X」正是「丷」。

Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字

发表于 : 2023年 9月 18日 21:41
ejsoon
鶴飛四季 写了: 2023年 9月 17日 18:34 我認為「産」才是變遷正確的字,參考「鬲」字,篆體裡面的「X」正是「丷」。
看立場,如果是臺灣人,應該都會統一使用「產」。