搜索引擎、正則表達式需要優化的地方,正異體漢字
发表于 : 2023年 9月 7日 12:23
unicode的1993年初版,收集了20902個漢字,幾乎覆蓋了所有人們日常及專業表達用到的字。
但就是在這個不算大的字集,出現了很多異體字,甚至是連異體都不算的微調字。
比如說,我們認為「乘乗」算是異體,但是「産產」算不算異體就很難說,一眼看去就知道是同一個字。
但是搜索引擊並不一定知道它們是同一個字。
英文的正則表達式支持大小寫不敏感的選項。但是中文的「正異體不敏感」卻從來沒有被人們提起過。
中文的「簡繁不敏感」大部份搜索引擎都已經有了,比如某淘上用繁體搜索,都能得到簡體結果(但和直接搜簡體仍然有所差別)。
其實這個工作量並不大,只需要一個專業人士一兩天的時間。
問題是,像「黒曽秊」這種異體字,對於大部份人而言,他們的拼音/注音輸入法都打不出來這些字,因此對於他們來說,這些字都在「沉睡」中,好像也沒有必要去「喚醒」。
既然如此,當初unicode何必這樣亂來?何不把「曽曾、黒黑、産產、彥彦、焼燒」視為同一個字?人們始終只可能挑其中一個來用,這在客觀上也造成了文本檢索的困難。
但就是在這個不算大的字集,出現了很多異體字,甚至是連異體都不算的微調字。
比如說,我們認為「乘乗」算是異體,但是「産產」算不算異體就很難說,一眼看去就知道是同一個字。
但是搜索引擊並不一定知道它們是同一個字。
英文的正則表達式支持大小寫不敏感的選項。但是中文的「正異體不敏感」卻從來沒有被人們提起過。
中文的「簡繁不敏感」大部份搜索引擎都已經有了,比如某淘上用繁體搜索,都能得到簡體結果(但和直接搜簡體仍然有所差別)。
其實這個工作量並不大,只需要一個專業人士一兩天的時間。
問題是,像「黒曽秊」這種異體字,對於大部份人而言,他們的拼音/注音輸入法都打不出來這些字,因此對於他們來說,這些字都在「沉睡」中,好像也沒有必要去「喚醒」。
既然如此,當初unicode何必這樣亂來?何不把「曽曾、黒黑、産產、彥彦、焼燒」視為同一個字?人們始終只可能挑其中一個來用,這在客觀上也造成了文本檢索的困難。