中文标准交换码
中文标准交换码
中文标准交换码(--
,简称CSIC),是中华民国国家标准11643号,简称CNS 11643,旧名通用汉字标准交换码(--
,简称CISCII),是中华民国政府为中文资讯处理制定的字元编码方案,与许多学术图书馆系统采用的CCCII(中文资讯交换码)同属于中文交换码。CSIC基于ISO 2022定义,和ASCII相容,其EUC版本为EUC-TW。
简介.
1980年9月,行政院国家科学委员会集合编码专家、学者在溪头举行会议,建立国家中文资讯标准交换码的编码原则,并报请行政院核定。隔年,行政院函令国科会、教育部、中央标准局及主计处电子处理资料中心组成专案作业小组,推动编码工作。经多次会商,于1983年10月底完成「通用汉字标准交换码」的试用版,试行二年。试用期满后,国科会与主计处电资中心邀集相关单位与业者组成技术小组,检讨试用结果,并根据检讨结果修订编码原则予以重编。1986年8月4日由经济部中央标准局(后改名为标准检验局)正式公布,取名「通用汉字标准交换码」,其内容包括第一字面、第二字面共13,051字。
1980年代万「码」奔腾,业界使用各种不同的内码,如大五码、王安码、IBM 5550码、电信码、倚天码等;CNS11643与大五码字数相同(大五码有13,053字,但有两个重码)。借由此国家标准交换码的公布与使用,做为各种不同内码间的桥梁,使得不同的内码也可以互相沟通和交换,资料可共享。
为因应各界对扩大中文字元集的需求,中央标准局于1990年委托资讯工业策进会进行扩编。CNS 11643于1992年使用至第七字面,共48,027字,并更名为「中文标准交换码」。2003年,标准检验局委托中文数位化技术推广基金会再次扩编,于2004年推出新版的CNS11643,将编码空间由原先规定的十六字面增加到八十字面,并使用至第十五字面。2014年,使用第十七、十九字面。2021年,使用第二十四字面。
「CNS11643中文交换码全字库」为1999年时,由主计处电资中心委托中文数位化技术推广基金会建置,用以解决中文码查询、转码与缺字问题。为配合2012年的行政院组织改造,全字库改由研考会办理,自2014年又由继承研考会业务的国家发展委员会管理。2022年8月27日数位发展部成立后,网站管理机构调整为数位部。全字库目前已收纳10万8,800多个文字及符号。若扣除第八和第九字面中的非汉字字元以及第一字面中的符号、注音、部首、汉字构件等字元,以有仓颉码属性的字来计算,大约有9万6,600多个汉字。
编码格式.
CNS 11643遵循ISO/IEC 2022所规定的七位元94个多位元组延伸编码格式,以2个位元组 (byte)为中文码编码单位,以十六进位制之文数字表示,并且避开控制码所在的范围。字面字集之排列,大抵以使用频率为次序,第一字面以常用字为主,第二字面以次常用字为主,第三字面以部分罕用字及较常用异体字为主,其后的字面大多以罕用字、异体字、教育部闽客语用字及户政、役政、地政等机关用字为主。在每一字面中,依先笔画后部首排列顺序来编订字码(每一字面均以文字笔画总数为第一次序,笔划数同则按照部首为次序,部首同再按照笔顺为次序)。
CNS 11643采用多字面编码结构,并借助ISO/IEC 2022所规定的逸出顺序(escape sequence)和调用控制符切换字面。因此,同样的正规字元码在CNS 11643的不同字面会代表不同的汉字(例如:第1字面字元码454A为中文字「日」,而第2字面的454A是中文字「碇」)。CNS 11643在新版中规定了延伸字元码,作为任一字元的唯一字元码。CSIC延伸字元码是在正规字元码前,附加该字元所属字面的字面指示码。
终结字元.
目前 CNS11643 的1~7 字面之终结字元(最后字元、最终位元组) [F] 已获国际标准组织 ISO 正式登记为 47 至 4D ,亦可使用于字集之指定。依据ISO 237之规定,各国的国家标准若要成为国际间之中文资讯交换标准,必须向国际标准组织申请注册,并由国际标准组织正式公布,如此全球各国即可依国际标准公布之终结字元进行资料交换。
CNS 11643-1992所包括的七个字面,每个字面均分别向ISO秘书处欧洲计算机制造商协会申请相对应之终结字元。经由资讯工业策进会之协助申请,1993年2月1日CNS 11643第一、第二字面正式获得终结字元:47和48,1994年3月25日CNS 11643第三至第七字面也正式获得终结字元:49 - 4D。
最新版本.
2021年版CNS 11643字面配置如下:
与BIG-5之关系.
五大专案码(BIG-5)为资讯工业策进会与台湾十三家资讯业者签约,共同为「五大软体专案」所设计的中文内码。该内码于1983年12月推出,共收录13,053个汉字(有两字重复编码,故实际上只有13,051个字)、408个符号、33个控制字元,其字元的范围与顺序都和1983年10月推出的「通用汉字标准交换码」试用版相同,但码位不同。「通用汉字标准交换码」在1986年推出正式版,删除试用版的2个重复编码字,调整了20个字的顺序。
大五码后来成为繁体中文社群最常用的电脑汉字字集标准,然而所涵盖的字数不敷实际需求,造成厂商各自增删,衍生成多种不同版本。2003年中文数位化技术推广基金会接受经济部标准检验局委托,召集国内业者代表、专家和学者,就BIG-5字元表的原始版本和业界主要版本予以重整,称为Big5-2003。重整后的版本,去除了重复编码,并新增7个中文字,以及370个符号,包括30个数字符号、24个部首、14个罕用符号、268个日本假名,以及34个表格符号。其成果最后收录至CNS 11643的附录之中。
外部连结.
-{H|zh-hans:重定向;zh-hant:重新导向;}--{H|zh-cn:字符;zh-tw:字元;}--{H|zh-hans:文件; zh-hant:档案;}--{H|zh-hans:快捷方式; zh-hant:捷径;}--{H|zh-hans:项目;zh-hant:专案;zh-tw:计划;zh-hk:计划;zh-mo:计划;}--{H|zh-cn:计算机; zh-sg:电脑; zh-tw:电脑;}-