關於Basic Latin踩到的一些坑


目錄

在wiki中,很多語言的字符集都包含了Basic Latin,一開始我沒有細看,以為Basic Latin里面都是正常的字符集,后來在線上環境出現了問題

博主某天接到一個需求,需要過濾出某國語言的字符集(避免出現Unicode中的不可見字符),於是高高興興的在維基百科上找到該語言字符集抄了下來

嗯,於是,線上環境出了一點小問題,由於我們某些功能是依賴於Basic Latin里面的特殊字符來做分割的,博主過於年輕,沒有細看,於是翻車,卒,享年22歲。

先看看Basic Latin里面到底是什么:https://jrgraphix.net/r/Unicode/0020-007F

仔細看里面其實有很多特殊字符的,所以大多數程序員一般都會在正則表達式里面寫0-9a-zA-Z來表示Basic Latin里面的東西,為什么不直接寫\x0020-\x007F是有用意,以后看見一些東西還是不要隨意忽略,就像為什么寫0-9a-zA-Z來表示\x0020-\x007F,你以為別人是傻逼,寫這么一長串干啥,實際上你是傻逼。


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com