关于计算机基础:GBK-UTF8

12次阅读

共计 968 个字符,预计需要花费 3 分钟才能阅读完成。

GBK

  • 全称《汉字内码扩大标准》(即 ” 国标 ”+” 扩大 ” 汉语拼音的首字母)
  • 英文名称 Chinese Internal Code Specification

GBK 是在 GB2312-80 规范根底上的内码扩大标准,应用了双字节编码方案,其编码范畴从 8140 至 FEFE(剔除 xx7F),共 23940 个码位,共收录了 21003 个汉字,齐全兼容 GB2312-80 规范,反对国际标准 ISO/IEC10646- 1 和国家标准 GB13000- 1 中的全副中日韩汉字,并蕴含了 BIG5 编码中的所有汉字

UTF-8

  • 全称 Unicode Transformation Format(8 位元)

是针对 Unicode 的一种可变长度字符编码,它能够用来示意 Unicode 规范中的任何字符,而且其编码中的第一个字节仍与 ASCII 相容,使得原来解决 ASCII 字符的软件毋庸或只进行少部分批改后,便可持续应用

区别比照

GBKUTF-8
蕴含全副中文字符 蕴含全世界所有国家须要用到的字符
每个字符占用 2 个字节 英文应用 1 字节,中文应用 24 位 3 字节
国家编码 国内编码
  • 总的来说,UTF- 8 与 GBK 是基于科技倒退衍生进去的,在网络倒退初期流量低廉,中文网站应用 GBK 来传输,相当于 UTF- 8 是更节俭的,但以目前倒退来看,国际化趋势不可逆转,UTF- 8 才是通用性的首选

BOM

byte-order mark(即字节序标记),次要针对 unicode 编码格式文件,会在文件头部插入几个字节作为标识头,UTF-8 的 BOM 是 EF BB BF

UTF- 8 文件分为 ” 有 BOM” 和 ” 无 BOM” 两种,如遇问题,能够借助辅助软件(如 UltraEdit,WinHex 等)查看文件标识头(BOM),以便确认其编码格局,若是本人的工作环境,只会用到 UTF-8,或其它因素制约,应用无 BOM 格局也未尝不可,否则为了更好的兼容性,容错性,举荐应用有 BOM 的 UTF-8

参考资料:
https://baike.baidu.com/item/UTF-8?fromModule=lemma_search-box
https://baike.baidu.com/item/GBK%E5%AD%97%E5%BA%93/3910360?fr…
http://www.360doc.com/content/21/1031/13/75593589_1002157752….

正文完
 0