发新话题
打印

[分享]对各字符集编码范围的总结

[分享]对各字符集编码范围的总结

http://www.chinaunix.net 作者:gsging

网上关于GBK、GB2312和BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断
这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。

UTF8
[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}
UTF16 [\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2}
JIS [\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2}
SJIS [\x20-\x7e]|[\xa1-\xdf]|([\x81-\9f]|[\xe0-\ef])([\x40-\7e]|[\x80-\xfc])
EUC_JP        [\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xf]{2}
EUC_JP标点符号及特殊字符        [\xa1-\xa2][\xa0-\xfe]
EUC_JP全角数字 \xa3[\xb0-\xb9]
EUC_JP全角大写英文 \xa3[\xc1-\xda]
EUC_JP全角小写英文     \xa3[\xe1-\xfa]
EUC_JP全角平假名 \xa4[\xa1-\xf3]
EUC_JP_JP全角片假名 \xa5[\xa1-\xf6]
EUC_JP全角汉字 ([\xb0-\xcf][\xa0-\xd3])|[\xd0-\xf4][\xa0-\xfe]
Big5 [\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])
GBK [\x01-\x7f]|[\x81-\xfe][\x40-\xfe]
GB2312汉字[\xb0-\xf7][\xa0-\xfe]
GB2312半角标点符号及特殊符号 \xa1[\xa2-\xfe]
GB2312罗马数组及项目序号 \xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])
GB2312全角标点及全角字母 \xa3[\xa1-\xfe]
GB2312日文平假名 \xa4[\xa1-\xf3]
GB2312日文片假名 \xa5[\xa1-\xf6]

本文由hew 发布于Linuxsky 论坛,网址:http://bbs.linuxsky.org/thread-5543-1-1.html

你的鼓励,我的动力.
做人厚道,看贴回贴.
my linux blog

TOP

发新话题