汉字对应的编码有哪几种,个有什么作用

2021-01-10 13:15:02 字数 5296 阅读 9249

1楼:匿名用户

为汉字设计的一种便于输入计算机的**。由于电子计算机现有的输入键盘与英文打字机键盘完全兼容。因而如何输入非拉丁字母的文字(包括汉字)便成了多年来人们研究的课题。

汉字信息处理系统一般包括编码、输入、存储、编辑、输出和传输。编码是关键。不解决这个问题,汉字就不能进入计算机。

汉字进入计算机的三种途径  分别为:

①机器自动识别汉字:计算机通过“视觉”装置(光学字符阅读器或其他),用光电扫描等方法识别汉字。

②通过语音识别输入:计算机利用人们给它配备的“听觉器官”,自动辨别汉语语音要素,从不同的音节中找出不同的汉字,或从相同音节中判断出不同汉字。

③通过汉字编码输入:根据一定的编码方法,由人借助输入设备将汉字输入计算机。

机器自动识别汉字和汉语语音识别,国内外都在研究,虽然取得了不少进展,但由于难度大,预计还要经过相当一段时间才能得到解决。在现阶段,比较现实的就是通过汉字编码方法使汉字进入计算机。

汉字编码的困难点  汉字进入计算机,有许多困难,其原因主要有三点:

①数量庞大:随着社会的发展,新字不断出现,死字没有淘汰,汉字总数不断增多。一般认为,现在汉字总数已超过6万个(包括简化字)。

虽有研究者主张规定3000多或4000字作为当代通用汉字,但仍比处理由二三十个字母组成的拼音文字要困难得多。

②字形复杂:有古体今体,繁体简体,正体异体;而且笔画相差悬殊,少的一笔,多的达36笔,简化后平均为9.8笔。

③存在大量一音多字和一字多音的现象:汉语音节416个,分声调后为1295个(根据《现代汉语词典》统计,轻声39个未计)。以1万个汉字计算,每个不带调的音节平均超过24个汉字,每个带调音节平均超过7.

7个汉字。有的同音同调字多达66个。一字多音现象也很普遍。

五种类型的编码法  据粗略统计,现有400多种编码方案,其中上机通过试验的和已被采用作为输入方式的也有数十种之多。归纳起来,不外5种类型:

①整字输入法:前一阶段,一般是将三四千个常用汉字排列在一个具有三四百个键位的大键盘上。近来,大多是将这些汉字按xy座标排列在一张字表上,通常叫"字表法",或“笔触字表法”。

比如,x25行和y90列交叉的字为“国”,当电笔点到字表上的“国”字时,机器自动将该字的**2590输入。键盘上或字表中字按部首或按音序或按字义联想而排列。不常用的字作为盘外字或表外字,另行编码处理。

②字形分解法:将汉字的形体分解成笔画或部件,按一定顺序输进机器。笔画一般分成 8种:横(一)、竖(丨)、撇(丿)、点(丶)、折(

汉字在计算机内有几种编码?试简述每种编码的意义。

2楼:奋斗

1、输入码

输入码是用来将汉字输入到计算机中的一组键盘符号。常用的输入码有拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等。

2、交换码

计算机内部处理的信息是用二进制**表示的,而二进制**使用起来是不方便的,于是需要采用信息交换码。

3、机内码

根据国标码的规定,每一个汉字都有了确定的二进制**,在微机内部汉字**都用机内码,在磁盘上记录汉字**也使用机内码。

4、汉字的字形码

字形码输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。

5、汉字地址码

汉字地址码是指汉字库中存储汉字字形信息的逻辑地址码。

3楼:匿名用户

汉字在机内的存储和表示称为内码,供汉字输入(主要是通过键盘进行输入)的编码称为外码,供计算机输出(主要是指显示和打印)的编码称为汉字字模。

首先介绍汉字的内码,计算机处理汉字信息使用的编码。计算机处理汉字信息的前提条件是对每个汉字进行编码,这些编码统称为汉字编码。汉字信息在系统内传送的过程就是汉字编码转换的过程。

在这其中又有几种编码形式。

1)汉字交换码

ascii码是针对英文的字母、数字和其他特殊字符进行编码的,它不能用于对汉字的编码。要想用计算机来处理汉字,就必须先对汉字进行适当的编码。这就是“汉字交换码”。

我国在1981年5月对6 000多个常用的汉字制定了交换码的国家标准,即:gb 2312-80,又称为“国标码”。该标准规定了汉字交换用的基本汉字字符和一些图形字符,它们共计7 445个,其中汉字有6 763个。

其中,一级汉字(常用字)3 755个,按汉字拼音字母顺序排列,二级汉字3 008个,按部首笔画次序排列。该标准给定每个字符的二进制数编码,即国标码。

2)区位码

它是将gb 2312-80的全部字符集组成一个94×94的方阵,每一行称为一个“区”的编码方式。在这种编码中的编号为0l~94:每一列称为一个“位”,编号也为0l~94,这样得到gb 2312-80标准中汉字的区位图。

用区位图的位置来表示的汉字编码,称为区位码。

3)机内码

为了避免ascii码和国标码同时使用时产生二义性问题,大部分汉字系统都采用将国标码每个字节高位置1作为汉字机内码。这样既解决了汉字机内码与西文机内码之间的二义性,又使汉字机内码与国标码具有极简单的对应关系。

4)汉字机内码、国标码和区位码3者之间的关系

汉字机内码、国标码和区位码3者之间的关系为:区位码(十进制数)的两个字节分别转换为十六进制数后加20h得到对应的国标码;机内码是汉字交换码(国标码)两个字节的最高位分别加1,即汉字交换码(国标码)的两个字节分别加80h得到对应的机内码;区位码(十进制数)的两个字节分别转换为十六进制数后加a0h得到对应的机内码。

接下来介绍汉字输入码(外码)。

目前,汉字输入法主要有键盘输入、文字识别和语音识别。键盘输入法是当前汉字输入的主要方法。它大体可以分为:

流水码:如区位码、电报码、通信密码,优点是重码少,缺点是难于记忆;

音 码:以汉语拼音为基准输入汉字,优点是容易掌握,但重码率高;

形 码:根据汉字的字型进行编码,优点是重码少,但不容易掌握;

音形码:将音码和形码结合起来,能减少重码率,并提高汉字输入速度。

最后,简单向大家介绍汉字字模。

供计算机输出汉字(显示和打印)用的二进制数信息叫汉字字形信息也称字模。通用汉字字模点阵规格有:16×16,24×24,32×32,48×48,64×64。

每个点在存储器中用一个二进制数存储,如一个16×16点阵汉字需要32个字节的存储空间。

4楼:匿名用户

* 国标码(“国标”是中华人民共和国国家标准的简称)在中国大陆使用。gb 2312收录6763个汉字,gbk收录20912个汉字,最新的gb 18030收录27533个汉字。

* big5码。收录13053个汉字。在台湾和香港使用的一字节或两字节编码。

* unicode并不被中国**很好的接受。中国**要求在中国大陆**的软件必须支持gb 18030编码。

* 在国际通信化和软件设计领域,中日韩统一表意文字编码收集了汉语、日语、韩语中的汉字集。

5楼:匿名用户

所谓编码,是以固定的顺序排列字符,并以此做为记录、存贮、传递、交换的统一 内部特征,这个字符排列顺序被称为“编码”。 字库的编码是字库组织的依据,也是文字处理的基础。不同国家和地区有不同的编 码标准,和中文字库有关的常见编码有:

单字节编码、gb2312-80、gb12345-90、gbk、u nicode编码、iso10646 / unicode字符集、gb18030-2000、big5编码,下面简要介绍一 下: 单字节编码 ms windows:windows latin 1(ansi) ms-dos:

ms-dos latin us macintosh:macintosh roman gb2312-80 全称是gb2312-80《信息交换用汉字编码字符集 基本集》,1980年发布,是中文信 息处理的国家标准,在大陆及海外使用简体中文的地区(如新加坡等)是强制使用的唯 一中文编码。p-windows3.

2和苹果os就是以gb2312为基本汉字编码, windows 95/98则 以gbk为基本汉字编码、但兼容支持gb2312。 双字节编码 范围:a1a1~fefe a1-a9:

符号区,包含682个符号 b0-f7:汉字区,包含6763个汉字 gb码共收录6763个简体汉字、682个符号,其中汉字部分:一级字3755,以拼音排 序,二级字3008,以偏旁排序。

该标准的制定和应用为规范、推动中文信息化进程起了 很大作用。 gb12345-90 1990年制定了繁体字的编码标准gb12345-90《信息交换用汉字编码字符集 第一辅助 集》,目的在于规范必须使用繁体字的各种场合,以及古籍整理等。该标准共收录6866 个汉字(比gb2312多103个字,其它厂商的字库大多不包括这些字),纯繁体的字大概有 2200余个。

双字节编码 范围:a1a1~fefe a1-a9:符号区,增加竖排符号 b0-f9:

汉字区,包含6866个汉字 unicode编码(universal multiple octet coded character set) 国际标准组织于1984年4月成立iso/iec jtc1/sc2/wg2工作组,针对各国文字、符号 进行统一性编码。1991年美国跨国公司成立unicode consortium,并于1991年10月与wg2 达成协议,采用同一编码字集。目前unicode是采用16位编码体系,其字符集内容与iso1 0646的bmp(basic multilingual plane)相同。

unicode于1992年6月通过dis(draf international standard),目前版本v2.0于1996公布,内容包含符号6811个,汉字209 02个,韩文拼音11172个,造字区6400个,保留20249个,共计65534个。 iso10646 / unicode字符集 全球可以共享的编码字符集。

ucs-4:组八位 平面八位 行八位 字位八位 ucs-2:00组中的00平面是基本多文种平面(bmp),4e00~9fff 中日韩文字 ext a(cjk):

3400~4db7,共6584字 ext b(cjk):42,807个汉字,在第2平面的0100~a836 gbk编码(chinese internal code specification) gbk编码是中国大陆制订的、等同于ucs的新的中文编码扩展国家标准。gbk工作小组 于1995年10月,同年12月完成gbk规范。

该编码标准兼容gb2312,共收录汉字21003个、 符号883个,并提供1894个造字码位,简、繁体字融于一库。 windows95/98简体中文版的字库表层编码就采用的是gbk,通过gbk与ucs之间一一对应的 码表与底层字库联系。 英文名:

chinese internal code specification 中文名:汉字内码扩展规范1.0版 双字节编码,gb2312-80的扩充,在码位上和gb2312-80兼容 范围:

8140~fefe(剔除xx7f)共23940个码位 包含21003个汉字,包含了iso/iec 10646-1中的全部中日韩汉字 gb18030-2000 英文名:chinese internal code specification 中文名:信息技术 信息交换用汉字编码字符集 基本集的扩充(

数字编码有何好处,数字编码有什么作用?

1楼 0 魅力 1 归档整理方便,特别在电子管理 系统中 2 数字编码更容易进行管理,无论谁进行的编码都是一样,管理方便,人员无论怎么换,程序和事务不会乱 3 从数字上能得到详细的对应信息,譬如年月日甚至时分秒 单位 部门 建档人等等 4 熟悉数字编码后可以很快的定位文件所在 5 数字编码可以防止泄...

汉字的作用是什么,中国的汉字有什么作用

1楼 518姚峰峰 汉字是世界上最古老的文字之一,汉字也是最优美的文字之一。是世界上使用人口最多的文字,同时也是流传范围最大的一种文字。汉字对日本文字朝鲜文字越南文字的影响是巨大的。 2汉字的表意性使汉字成为世界上惟一能跨越时空的文字。汉字的表意性使汉字成为世界上单位字符信息量最大的文字,因此容易辨...

19日文中每汉字都有假名对应么,日文中每一个汉字都有假名对应么

1楼 匿名用户 日文中每一个汉字都有假名对应。有的汉字还存在多个不同假名。 希望采纳 日语中是不是每几个平假名都对应一个汉字?片假对应英文? 2楼 追风少年追梦 不是,日语汉字都有对应的平假名,英语单词大多数也有对应的片假名 也有只有假名没有汉字的日语单词,同一个假名也会对应多个汉字,根据词不同,假...