枣庄市市中区建设路网站,淘宝推广费用多少钱一天,如何注册公司支付宝,上海万户网络科技文章目录 前言一、字符编码集的历史1.ASCII码2.Extended ASCII码3.字符编码集的国际化 二、中文编码集 前言
今天给大家介绍计算机的字符与编码集#xff0c;分为两部分#xff1a;字符编码集的历史、中文编码集。 一、字符编码集的历史
这部分包含三个板块内容#xff1a… 文章目录 前言一、字符编码集的历史1.ASCII码2.Extended ASCII码3.字符编码集的国际化 二、中文编码集 前言
今天给大家介绍计算机的字符与编码集分为两部分字符编码集的历史、中文编码集。 一、字符编码集的历史
这部分包含三个板块内容ASCII码、Extended ASCII码、字符编码集的国际化。
1.ASCII码
对于ASCII码相信接触过编程的人应该都不陌生它是我们平时常用的一种编码方式如大小写字母、数字、符号等等都是属于ASCII码里面的。ASCII码特点如下
使用7个bits就可以完全表示ASCII码包含95个可打印字符33个不可打印字符包括控制字符
我们可以做个简单运算33 95 128 2^7接下来我们通过下表来完整了解ASCII码的所有字符 从表中我们可以看出前面的32个控制字符加上表中最后一个共是33个控制字符其他的都是我们常见的可打印字符。二战时期计算机最早诞生于美、英国家所以在计算机发展的早期ASCII码就已经能满足相关国家和科学家的使用。
但随着计算机发展及普及ASCII码逐渐无法满足需求。主要表现在ASCII码里面很多应用或者国家中的符号都无法表示。如数学符号 “÷ ≠ ≥ ≈ π” 等等一些字符ASCII码都无法表示。
这时候就想到了第一次对ASCII码进行扩充7bits 8bits使用8个比特位代替原来的7比特那么原来的 127 个字符就可以扩充为 256 个字符了也就是可拓展的ASCII码Extended ASCII码。
2.Extended ASCII码
如下表所示为扩展的那部分ASCII码
从中可以看到包含了常见数学运算符、带音标的欧洲字符、其他常用符、表格符等。使用了这个可拓展的ASCII码极大的补充了原来ASCII码所不能展示的内容使得计算机所能表达的内容越来越丰富。
虽然在这里面可拓展的ASCII码补充了原有ASCII码所不能表达的内容。但是随着计算机的进一步发展越来越多的国家加入了使用计算机的行列当中那么这个时候对于计算机的字符与编码集的要求也越来越高我们就需要了解字符编码集的国际化了。
3.字符编码集的国际化
对于字符编码集的国际化有着如下的背景
欧洲、中亚、东亚、拉丁美洲国家的语言多样性语言体系不一样不以有限字符组合的语言如拿中文和英文做比较对于英文来说所有单词都是由26个字母组成。但是中文就不一样了除了偏旁部首外每个字都是独立的可以再组成不同词汇也就是不以有限字符为组合中国、韩国、日本等的语言最为复杂
在这种情况下字符编码集的国际化就尤为重要了。在这里面我们主要是了解中国的字符编码集接下来就来到第二个大板块。
二、中文编码集
对于中文编码集首先要介绍的是 GB2312该编码集是在1980年发明出来也是我国最早发明的编码集。它的全称是《信息交换用汉字编码字符集-------基本集》简称 GB2312(国标2312)。这个编码集一共收录了 7445 个字符其中包括 6763 个汉字和 682 个其它符号。
虽然这个编码集有比较完备的字符表示但是也有一定的问题不符合国际标准。因此在1995年就推出了更完善的编码集GBK全称是《汉字内码扩展规范》。该编码集向下兼容GB2312向上支持国际ISO标准。而且收录了 21003 个汉字支持全部中日韩汉字。
上面介绍的 GB2313 和 GBK 都是比较完备的编码集但是不管怎么完备都只是本地化的编码。也就是说这个编码在中国使用是没有问题的但如果跨国使用就有问题。什么意思呢举个例子比如我们开发了一个中文网站这时候外国友人访问了这个网站如果他们本地没有安装 GBK 或者 GB2312 编码的话这个网页在他们电脑里面去显示的话就是乱码的。
所以这个时候我们不仅要有本地化的编码还要有一个全球的规范。这个规范就是Unicode 字符集Unicode又称为统一码、万国码、单一码也就是说 Unicode 可以表达全世界所有的语言。它定义了世界通用的符号集使用 UTF-* 实现了编码如UTF-8、UTF-16。其中UTF-8是最为通用的全球编码方式它以字节为单位对Unicode进行编码。