GBK
- 全称《汉字内码扩大标准》(即"国标"+"扩大"汉语拼音的首字母)
- 英文名称 Chinese Internal Code Specification
GBK是在GB2312-80规范根底上的内码扩大标准,应用了双字节编码方案,其编码范畴从8140至FEFE(剔除xx7F),共23940个码位,共收录了21003个汉字,齐全兼容GB2312-80规范,反对国际标准ISO/IEC10646-1和国家标准GB13000-1中的全副中日韩汉字,并蕴含了BIG5编码中的所有汉字
UTF-8
- 全称 Unicode Transformation Format(8位元)
是针对Unicode的一种可变长度字符编码,它能够用来示意Unicode规范中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来解决ASCII字符的软件毋庸或只进行少部分批改后,便可持续应用
区别比照
GBK | UTF-8 |
---|---|
蕴含全副中文字符 | 蕴含全世界所有国家须要用到的字符 |
每个字符占用2个字节 | 英文应用1字节,中文应用24位3字节 |
国家编码 | 国内编码 |
- 总的来说,UTF-8与GBK是基于科技倒退衍生进去的,在网络倒退初期流量低廉,中文网站应用GBK来传输,相当于UTF-8是更节俭的,但以目前倒退来看,国际化趋势不可逆转,UTF-8才是通用性的首选
BOM
byte-order mark (即字节序标记),次要针对unicode编码格式文件,会在文件头部插入几个字节作为标识头,UTF-8 的 BOM 是 EF BB BF
UTF-8文件分为"有BOM"和"无BOM"两种,如遇问题,能够借助辅助软件(如UltraEdit,WinHex等)查看文件标识头(BOM),以便确认其编码格局,若是本人的工作环境,只会用到UTF-8,或其它因素制约,应用无BOM格局也未尝不可,否则为了更好的兼容性,容错性,举荐应用有BOM的UTF-8
参考资料:
https://baike.baidu.com/item/UTF-8?fromModule=lemma_search-box
https://baike.baidu.com/item/GBK%E5%AD%97%E5%BA%93/3910360?fr...
http://www.360doc.com/content/21/1031/13/75593589_1002157752....