搜索引擎、正則表達式需要優化的地方,正異體漢字
搜索引擎、正則表達式需要優化的地方,正異體漢字
但就是在這個不算大的字集,出現了很多異體字,甚至是連異體都不算的微調字。
比如說,我們認為「乘乗」算是異體,但是「産產」算不算異體就很難說,一眼看去就知道是同一個字。
但是搜索引擊並不一定知道它們是同一個字。
英文的正則表達式支持大小寫不敏感的選項。但是中文的「正異體不敏感」卻從來沒有被人們提起過。
中文的「簡繁不敏感」大部份搜索引擎都已經有了,比如某淘上用繁體搜索,都能得到簡體結果(但和直接搜簡體仍然有所差別)。
其實這個工作量並不大,只需要一個專業人士一兩天的時間。
問題是,像「黒曽秊」這種異體字,對於大部份人而言,他們的拼音/注音輸入法都打不出來這些字,因此對於他們來說,這些字都在「沉睡」中,好像也沒有必要去「喚醒」。
既然如此,當初unicode何必這樣亂來?何不把「曽曾、黒黑、産產、彥彦、焼燒」視為同一個字?人們始終只可能挑其中一個來用,這在客觀上也造成了文本檢索的困難。
https://ejsoon.vip/
弈趣極光:享受思維樂趣
弈趣極光:享受思維樂趣
Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字
https://ejsoon.vip/
弈趣極光:享受思維樂趣
弈趣極光:享受思維樂趣
Re: 搜索引擎、正則表達式需要優化的地方,正異體漢字
那麼,搜索引擎要解決的問題,就是這些錯別字,讓搜索「様、逹」跟搜索「樣、達」是同樣的結果。
也就是說,搜索引擎最好能夠具有糾錯能力。
我想起了我開始用倉頡時,我一度以為價格的價是「儥」字,一直打錯。用形碼單字的,確實是有可能出現這種錯誤。用拼音/注音的,反而打不出「儥」,就不會打錯。
現在科技那麼發達,AI好像也挺有能耐,那到底有沒有辦法,能使搜索引擎或者甚麼程式知道,我在打「儥格」時,實際上是想表達「價格」?
這可能是搜索引擎需要優化的一個方向。
https://ejsoon.vip/
弈趣極光:享受思維樂趣
弈趣極光:享受思維樂趣
在线用户
正浏览此版面之用户: Google [Bot] 和 18 访客