搜索引擎、正則表達式需要優化的地方，正異體漢字

ejsoon · 帖子由 **ejsoon** » 2023年 9月 7日 12:23

unicode的1993年初版，收集了20902個漢字，幾乎覆蓋了所有人們日常及專業表達用到的字。

但就是在這個不算大的字集，出現了很多異體字，甚至是連異體都不算的微調字。

比如說，我們認為「乘乗」算是異體，但是「産產」算不算異體就很難說，一眼看去就知道是同一個字。

但是搜索引擊並不一定知道它們是同一個字。

英文的正則表達式支持大小寫不敏感的選項。但是中文的「正異體不敏感」卻從來沒有被人們提起過。

中文的「簡繁不敏感」大部份搜索引擎都已經有了，比如某淘上用繁體搜索，都能得到簡體結果（但和直接搜簡體仍然有所差別）。

其實這個工作量並不大，只需要一個專業人士一兩天的時間。

問題是，像「黒曽秊」這種異體字，對於大部份人而言，他們的拼音/注音輸入法都打不出來這些字，因此對於他們來說，這些字都在「沉睡」中，好像也沒有必要去「喚醒」。

既然如此，當初unicode何必這樣亂來？何不把「曽曾、黒黑、産產、彥彦、焼燒」視為同一個字？人們始終只可能挑其中一個來用，這在客觀上也造成了文本檢索的困難。

ejsoon · 帖子由 **ejsoon** » 2023年 9月 7日 12:27

所幸unicode的標準已經定下了，基本區就是20902字。這樣一來，即便是存在異體字，微調字，它們的數量也是有限的。

ejsoon · 帖子由 **ejsoon** » 2023年 9月 7日 12:35

可能又要談到unicode濫收字的問題，比如「様、逹」，看一眼就知道是錯字，或是省筆字。

那麼，搜索引擎要解決的問題，就是這些錯別字，讓搜索「様、逹」跟搜索「樣、達」是同樣的結果。

也就是說，搜索引擎最好能夠具有糾錯能力。

我想起了我開始用倉頡時，我一度以為價格的價是「儥」字，一直打錯。用形碼單字的，確實是有可能出現這種錯誤。用拼音/注音的，反而打不出「儥」，就不會打錯。

現在科技那麼發達，AI好像也挺有能耐，那到底有沒有辦法，能使搜索引擎或者甚麼程式知道，我在打「儥格」時，實際上是想表達「價格」？

這可能是搜索引擎需要優化的一個方向。

鶴飛四季 · 帖子由 **鶴飛四季** » 2023年 9月 17日 18:34

我認為「産」才是變遷正確的字，參考「鬲」字，篆體裡面的「X」正是「丷」。

ejsoon · 帖子由 **ejsoon** » 2023年 9月 18日 21:41

鶴飛四季写了： 2023年 9月 17日 18:34 我認為「産」才是變遷正確的字，參考「鬲」字，篆體裡面的「X」正是「丷」。

看立場，如果是臺灣人，應該都會統一使用「產」。

圈圈之地

搜索引擎、正則表達式需要優化的地方，正異體漢字

搜索引擎、正則表達式需要優化的地方，正異體漢字

Re: 搜索引擎、正則表達式需要優化的地方，正異體漢字

Re: 搜索引擎、正則表達式需要優化的地方，正異體漢字

Re: 搜索引擎、正則表達式需要優化的地方，正異體漢字

Re: 搜索引擎、正則表達式需要優化的地方，正異體漢字

在线用户