做php网站用的软件,wordpress主题 免费 自媒体,网站关键词被百度屏蔽怎么办,小视频网址源码前提基础知识 计算机内部#xff0c;所有信息最终都是一个二进制值。每一个二进制位#xff08;bit#xff09;有0和1两种状态#xff0c;因此八个二进制位就可以组合出256种状态#xff0c;这被称为一个字节#xff08;byte#xff09;。也就是说#xff0c;一个字节一…前提基础知识 计算机内部所有信息最终都是一个二进制值。每一个二进制位bit有0和1两种状态因此八个二进制位就可以组合出256种状态这被称为一个字节byte。也就是说一个字节一共可以用来表示256种不同的状态每一个状态对应一个符号就是256个符号从00000000到11111111。
1.概念
1.1 Unicode
定义 Unicode是一个字符集标准它定义了每个字符的唯一编号包括了世界上几乎所有的字符。示例
拉丁字母AUnicode编码U0041
汉字中Unicode编码U4E2D
表情符号Unicode编码U1F60A
每个Unicode字符都有一个独一无二的编号称为“码点”。这个编号通常用“U”后跟一串十六进制数表示。例如拉丁字母“A”的Unicode码点是U0041。通过这种方式Unicode能够支持超过100,000个不同的字符。结论 拿“汉字中Unicode编码U4E2D”举例。
汉字“中”是一个Unicode字符。
而U4E2D是汉字“中”的Unicode编码码点。1.2 UTF-8
Unicode 是字符集它定义了一套字符和对应的码点。 UTF-8 是字符编码是一种针对Unicode的编码方案。它定义了如何将这些字符码点转换为字节序列电脑存储和处理数据的基本单位。 它使用一到四个字节来表示每个Unicode码点使得它非常有效率尤其是对于常用的拉丁字符如英文这些字符只需要一个字节就可以表示。
2.二者之间的关系 UTF-8和GBK都是Unicode的实现方式而Unicode是一个字符集标准它定义了每个字符的唯一编号包括了世界上几乎所有的字符。 UTF-8和GBK的区别在于编码方式不同。UTF-8采用变长编码可以表示Unicode字符集中的任意字符而且对于英文字符采用1个字节编码对于汉字采用3个字节编码。GBK采用双字节编码只能表示汉字和部分符号对于英文字符采用1个字节编码。 UTF-8和GBK的兼容性不同。UTF-8兼容ASCII编码因为ASCII编码是UTF-8的子集而GBK不兼容ASCII编码因为GBK编码中没有ASCII编码中的字符。 Unicode是一种字符集标准不是编码方式。Unicode定义了每个字符的唯一编号但是没有规定如何将这些编号转换为计算机可以识别的二进制数据。因此UTF-8、GBK等编码方式都是Unicode的实现方式。
总的来说UTF-8是一种通用的编码方式可以表示Unicode字符集中的任意字符而且兼容ASCII编码。GBK是一种中文编码方式只能表示汉字和部分符号不兼容ASCII编码。Unicode是一个字符集标准定义了每个字符的唯一编号但是没有规定如何将这些编号转换为计算机可以识别的二进制数据。