计算机常见编码
更新时间:2024-01-11 08:19:01 阅读量: 教育文库 文档下载
计算机常见编码
一.有关编码的基础知识 1.位bit最小的单元
字节byte机器语言的单位 1byte=8bits 1KB=1024byte 1MB=1024KB 1GB=1024MB 2.二进制binary
八进制octal 十进制decimal 十六进制hex
3.字符:是各种文字和符号的总称,包括各个国家的文字,标点符号,图形符号,数字等。
字符集:字符集是多个符号的集合,每个字符集包含的字符个数不同。
字符编码:字符集只是规定了有哪些字符,而最终决定采用哪些字符,每一个字符用多少字节表示等问题,则是由编码来决定的。计算机要准确的处理各种字符集文字,需要进行字符编码,以便计算机能够识别和存储各种文字。
二.常见字符集的编码介绍:
常见的字符集有:ASCII字符集,GB2312字符集,BIG5字符集,GB18030字符集,Unicode字符集,下面一一介绍:
1.ASCII字符集: ?定义:
美国信息互换标准代码,是基于罗马字母表的一套电脑编码系统,主要显示英语和一些西欧语言,是现今最通用的单字节编码系统。 ?包含内容:
控制字符(回车键,退格,换行键等)
可显示字符(英文大小写,阿拉伯数字,西文符号)
扩展字符集(表格符号,计算符号,希腊字母,拉丁符号) ?编码方式:
第0-31号及127号是控制字符或通讯专用字符;第32-126号是字符,其中48-57号为0-9十个阿拉伯数字,65-90号为26个大写英文字母,97-122号为26个英文小写字母,其余为一些标点符号,运算符号等。 在计算机存储单元中,一个ASCII码值占一个字节(8个二进制位),最高位是用作奇偶检验位。【奇偶校验是指:在代码传送的过程中,用来检验是否出错的一种方法。】奇偶校验分为奇校验和偶校验。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1;偶校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位添1。 2.GB2312字符集: ?定义:
信息交换用汉字编码字符集。是中国标准的简体中文字符集,它所收录的汉字已经覆盖99.75%的使用频率,在中国大陆和新加坡广泛使用。 ?包含内容:
GB2312收录了简化汉字及一般字符,序号,数字,拉丁字母,日文假名,希腊字母,俄文字母,汉语拼音符号,汉语注音字母,共7445个图形字符。
其中包括6763个汉字,一级汉字3755个,二级汉字3008个。 ?编码方式:
GB2312对所收汉字进行了“分区”处理,每区含有94个汉字或者符号,这种表示方法也叫做“区位码”。它是
用双字节表示的,前面的字节为第一字节,又称“高字节”,后面的为第二字节,“低字节”。高位字节,把01-87区的区号加上0xA0(相当于数字160);低位字节把01-94区的区号加上0xA0(相当于数字160)。举个简单的小例子:第一个汉字——“啊”,它的区号为16,位号01,则区位码是1601。则高字节位:16+0xA0=0xB0;低字节位:01+0xA0=0xA1,所以“啊”的汉字处理编码为0xB0A1。 3.GBK字符集: ?定义:
GBK是GB2312字符集的扩展(K)(中国的中文编码表升级,融合了更多的中文文字符号。),它收录了21886个符号,它分为汉字区和图形符号区,汉字区包括21003个字符。GBK字符集主要扩展了繁体中文字的支持。 4.BIG5字符集: ?定义:
又称大五码,由台湾五家软件公司创立。因为当时台湾没有一个标准的字符集,而且GB2312又没有收录繁体字,所以才推出了BIG5。 ?包含内容:
BIG5字符集共收录了13053个中文字,该字符集在台湾使用。但是没有考虑到社会上流通的人名,地方用字,方言用字,化学及生物科等用字,没有包含日文平假名及片假字母。 ?编码方式:
BIG5也采用双字节存储方法,一两个字节编码一个字。高位字节的编码范围是0xA1-0xF9,低位字节的编码范围是0xA1-0xFE。 5.GB18030字符集: ?定义:
GB18030字符集标准解决汉字,日文假名,朝鲜语和中国少数民族文字组成的大字符集计算机编码问题。 ?包含内容:
该标准的字符总编码空间超过150万个编码位,收录了27484个汉字,覆盖中文,日文,朝鲜语和中国少数民族文字。满足中国大陆,香港,台湾,日本和韩国等东南亚地区信息交换多文种,大字量,多用途,统一编码格式的要求。 ?编码方式:
GB8030标准采用单字节,双字节和四字节三种方式对字符编码。单字节部分使用0x00-0x7F码(对应于ASCII码的相应码);双字节部分,首字节码从0x81-0xFE,尾字节码分别是0x40-0x7E和0x80-0xFE。四字节部分采用0x30-0x39作为双字节编码扩充的后缀,这样扩充的四字节编码,其范围是0x81308130-0x0xFE39FE39,其中第一,三个字节编码位均为0x81-0xFE,第二,四个为0x30-0x39。 6.ISO8859-1:拉丁码表。欧洲码表
用一个字节的8位表示。 7.Unicode字符集: ?定义:
(国际标准码,融合了多种文字。所有文字都用两个字节来表示,Java语言使用的就是unicode)University multiple-object coded character set(通用多八位编码字符集),支持世界上超过650种语言的国际字符。Unicode允许在同一服务器上混合使用不同语言,它为每种语言的每个字符设定了统一并且唯一的二进制编码,以满足跨平台,跨语言进行文本转换,处理的要求。 编码方式:
Unicode标准始终使用十六进制数字,固定使用2个字节来表示一个字符,
共可以表示65536个字符。而且书写时在前面加上前缀“U+”,例如A的编码是004116,则书写成“U+0041”。 ?Unicode字符集包含的编码方案: ?UTF-8:(最多用三个字节来表示一个字符。)
UTF8是unicode其中的一个使用方式。
UTF的意思是:
unicode translation format,即把unicode转作某种格式的意思。UTF-8使用可变长度字节来存储unicode字符,如ASCII字母还是采用一个字符来存储,希腊字母等采用2个字符来存储,而常用的汉字要使用3字节,辅助平面字符则使用4字节。 ?UTF-16:
使用一个或两个未分配的16位代码单元的序列对unicode代码点进行编码,即2个字节表示一个字符。 ?UTF-32:
将每一个unicode代码点表示为相同值的32位整数。 ?关于unicode编码的一个问题:
使用记事本另存为时,可以在ANSI,GBK,Unicode,unicode big endian和UTF-8这几种编码之间相互转换。同样是txt文件,windows是怎么识别编码的呢?
答:平时注意的话可以发现Unicode,unicode big endian和UTF-8编码的txt文件的开头会多出几个字节,分别是(FF,FE),(FE,FF),(EF,BB,BF)。那么这些标记都是基于什么标准呢? ANSI字符集:ASCII字符集,以及由此派生并兼容的字符集。
UTF-16与UTF-8:如“连通”两个字,在UTF-16中为:DE 8F 1A 90,两个字节决定一个汉字;在UTF-8中则为:E8 BF 9E E9 80 9A,即3个字节决定一个字符。
当一个软件打开一个文本时,首先是要决定这个文本究竟是使用哪种字符集的哪种编码保存的,软件一般采用三种方式来决定文本的字符集和编码:检测文件头标识,提示用户选择,根据一定的规则猜测。不同编码方式的开头字节如下:
EF BB BF UTF-8
FF FE UTF-16,little endian FE FF UTF-16,big endian
FF FE 00 00 UTF-32,little endian 00 00 FE FF UTF-32,big endian
注:endian是指字节序,big endian(大尾)和little endian(小尾)是CPU处理多字节数的不同方式。例如“汉”的unicode编码是6C49,写到文件中,如果将6C写在前面就是big endian,将49写在前面就是little endian。 8.总结:
从ASCII,GB2312,GBK到GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符。在这些编码中,英文和中文可以统一的处理。区分中文编码的方法是高字节的最高位不为0。
计算机使用的缺省编码方式就是计算机的内码。有的中文windows的缺省内码还是GBK,可以通过GB18030升级包升级到GB1030。不过相对GBK新增的字符,普通人很难用到的,通常我们用GBK来指代中文windows内码。
GB2312的原文是区位码,从区位码到内码,需要在高字节和低字节上分别加上A0。
——By:你若安好,我便微笑
正在阅读:
计算机常见编码01-11
一年级语文下册《一个接一个》教学设计08-01
石墨炉原子吸收法测定饲料中镉的含量06-04
人生感悟句子:每个人的路都得自己走05-01
2020年保安部工作规划书03-03
开学典礼校长优秀发言稿范文08-02
公路工程建设招标与投标实施方案与操作流程08-08
心电工作站使用说明10-15
病历封存、启封程序05-12
2020年外联部工作计划范文12-11
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 编码
- 常见
- 计算机
- 少儿才艺大赛协议书
- 15秋福师《史学理论与方法》在线作业一 答案
- 石油华东石油华东《渗流力学》2016年秋学期在线作业(一)
- 浅析初级指挥人才军事素质实践教学目标体系的构建问题
- 国内热塑性弹性体行业的现状分析
- 醋酸车间冷冻岗位操作操作规程 Microsoft Word 文档1
- 第7章微生物生长及控制练习题试卷(A卷)
- 海南航空多等级舱位 - 图文
- 人教版小学五年级数学上册第五单元用字母表示数综合练习题78
- (2017版)中国铁艺行业发展前景预测及投资战略咨询报告 - 图文
- 《王熙凤人物形象之研究》教学设计
- 化学选修4第四章 电化学基础
- 《造一艘小船》练习题
- 2018年甘肃省定西市中考英语模拟试卷含
- dbx - PA数字声频处理器简明使用方法
- 高校经济管理类专业人才培养模式改革研讨班(邀请函)
- 农作物的矿质营养知识
- 卓越绩效之理论探讨(专家-陈权)
- 人脸抓拍比对系统方案 - 图文
- 城市轨道交通论文