代码页

代码页是字符编码的别名，也稱内码表，是特定语言的字符集的一张表。

历史

早期，代码页是IBM称呼计算机的BIOS所支持的字符集编码。当时通用的操作系统都是命令行界面，这些操作系统直接使用BIOS提供的字符绘制功能来显示字符（或者是一组嵌入在显卡字符生成器中的字形）。这些BIOS代码页也被称为OEM代码页。图形操作系统使用自己的字符呈现引擎（rendering engine），可以支持多个不同的字符集编码，这类代码页被称作ANSI代码页。

早期IBM和微软内部使用数字来标记不同的编码字符集，不同的厂商对同一个字符集编码使用各自不同的名称。例如，UTF-8在IBM称作代码页1208，在微软称作代码页65001，在SAP称作代码页4110。

1987年4月，IBM发布了PC-DOS 3.3，正式开始使用16比特的无符号整数标识不同的代码页。这时的PC机使用CGA显示系统的字符界面，绘制不同语言的字符依靠BIOS硬件厂商（在当时就是指制定业界标准的IBM）提供的功能。如果想更换所支持的字符集，就必须换上支持该字符集的ROM芯片。微软作为DOS操作系统的软件厂商，并不拥有绘制这些字符集的知识产权。所以这些字符集的绘制实现，称作OEM代码页。最常见、最具代表性的OEM代码页是"IBM PC或MS-DOS 代码页437"。

随着图形用户界面操作系统的广泛使用（最初被广为接受的是Windows 3.1），操作系统具有了字符绘制的功能。微软在Windows操作系统没有转向UTF-16作为内码实现之前（也就是在Windows 2000之前），针对不同的使用地区与国家，定义了一系列的支持不同语言字符集的代码页，被称作"Windows（或ANSI）代码页"。代表性的是实现了ISO-8859-1的代码页1252。

OEM（IBM PC）代碼頁

437—最初的IBM PC代碼頁，实现了扩展ASCII字符集
737—希腊语
850—「多語言（Latin-1）」（西歐语言）
852—「斯拉夫（Latin-2）」（中歐及東歐語言）
855—西里尔（Cyril）字母
857—土耳其语
858—带欧元符号的「多語言」
860—葡萄牙语
861—冰岛语
863—法语加拿大英语
865—北欧
866—西里尔（Cyril）字母
869—希腊语

代码页819实现了Latin-1（ISO/IEC 8859-1），用于IBM AS/400小型机。

OEM代码页转换为ASCII代码页

对于中日韩的多字节编码的代码页，OEM代码页与ASCII代码页相同，例如对于简体中文的OEM代码页与ASCII代码页就是GBK代码页。而对于单字节编码的代码页，如英语、俄语等，OEM代码页与ASCII代码页一般不同。这是因为在MS-DOS时代，计算机只能使用字符界面在屏幕上画出表格的框线，所以OEM代码页要在单字节字符集中包含方框绘制字符；此外，OEM代码页437提供的有限的变音符号，只能覆盖法语、西班牙语、德语、意大利语、瑞典语的字母表。而在Windows的早期时代，仍然使用单字节字符集，这时就舍弃了这些不必要的方框绘制字符，取而代之的是丹麦语、挪威语、冰岛语、加拿大法语的变音符号。为此，一个用OEM代码页的字节流要在Windows上正确显示，就需要或者显式设定使用OEM代码页；或者要显式把OEM代码页的字节流转化为ASCII代码页的字符流，这需要使用Windows系统调用OemToChar()。

Windows（ANSI）代碼頁

Windows代码页最初是根据ANSI草案实现的，这个草案最终成为ISO 8859-1。这是Windows代码页被称作ANSI的缘由。

874—泰文字母
1250—東歐拉丁字母
1251—古斯拉夫語
1252—西歐拉丁字母ISO-8859-1.
1253—希臘語
1254—土耳其語
1255—希伯來語
1256—阿拉伯語
1257—巴爾
1258—越南

Windows-1252与ISO-8859-1并不完全一致。ISO-8859-1在0x80-0x9F范围的控制字符，在Windows-1252中被可打印字符取代。由于在web网页中，ASCII控制字符不起作用，所以网页一般用Windows-1252代码页标记替代ISO-8859-1标记。

中日韩语言代码页

既是OEM代码页，也是Windows代码页。

936—简体中文（GBK）
950—繁體中文（大五碼）
932—日文（Shift_JIS）
949—韓文（EUC-KR）
20000（CNS）以EUC编码的繁体中文CNS编码
20002（Eten）以EUC编码的繁体中文倚天码
20936（GB2312-80）以EUC编码的简体中文GB2312编码（老设备或嵌入式设备常见）
50227（ISO-2022-GB）简体中文的Esc序列编码，纯ASCII
50229（ISO-2022-CNS）繁体中文的Esc序列编码，纯ASCII
52936（HZ-GB-2312）以~{和~}分隔的简体中文GB2312编码，纯ASCII
54936—简体中文（GB18030）

其他代碼頁

10000—Macintosh Roman encoding（followed by several other Mac character sets）
10007—Macintosh Cyrillic encoding
10029—Macintosh Central European encoding
1200—UCS-2LE Unicode 小端序
1201—UCS-2BE Unicode 大端序
65000—UTF-7 Unicode
65001—UTF-8 Unicode

Windows操作系统中使用的代码页

Windows平台上的GUI程序使用ANSI代码页，而在控制台程序使用OEM代码页（以便向后兼容）。这意味着，如果在记事本程序（notepad.exe）打开一个8位字符集编码的文本文件，将使用ANSI代码页；如果在命令行中用type命令显示这个文本文件的内容，将使用OEM代码页。这两个代码页在前128个字符的编码是一样的，但后128个字符的编码可能不一致。在Windows的命令行窗口通过标记、复制操作把一部分文本内容复制到记事本程序中，实际上是把Unicode格式的内容保存在剪贴板，使得这种文本复制保持了字符编码的透明转换。

对于Windows操作系统中的命令行窗口（Command Prompt），chcp命令在没有参数时，显示当前代码页；chcp命令带一个整数参数，则改变命令行窗口的当前代码页为参数所指定。

把UTF-8编码文本直接写到控制台，必须先使用函数SetConsoleOutputCP(65001)，然后使用puts一族的函数来输出文本。把UTF-8编码文本写入UTF-8文件时，可以直接使用窄字符输出函数。

在Windows API中，CP_ACP与CP_OEMCP分别表示当前系统的ANSI代码页与OEM代码页。对于CJK(多字节编码)的环境(泰文，日文，韩文，中文),CP_ACP与CP_OEMCP没有区别。对于非 CJK(单字节编码)的环境这两个代码页不同。 Windows的文件操作的API默认使用ASCII代码页(即CP_ACP)，设备的操作的函数使用OEM代码页(即CP_OEMCP)。读写console的函数是对console设备的操作，所以默认使用OEMCP。

查询代码页的信息

Windows系统调用GetCPInfo()给出指定的代码页的信息。如东亚多字节代码页的缺省字符、前导字节的范围：

{
 CPINFO info;
 UINT iCP = 932; //GBK
 GetCPInfo(iCP, &info);
 printf("Code page %d's default char is [%c]\n", iCP, info.DefaultChar[0]);
 printf("Max size of a char: %d\n", info.MaxCharSize);
 int i;
 const int iMaxLeadBytePairNum = 5;
 for (i = 0; i < iMaxLeadBytePairNum; i++)
 {
    if (info.LeadByte[i * 2] == 0 && info.LeadByte[i * 2 + 1] == 0)
        break;
    printf("Lead byte pair %d: 0x%02X-0x%02X\n", i, info.LeadByte[i * 2], info.LeadByte[i * 2 + 1]);
 }
}

外部連結

IBM代碼頁（英文）
IBM/ICU Charset Information
Microsoft code page identifiers（Microsoft's list contains only code pages actively used by normal apps on Windows see also Torsten Mohrin's list for the full list of supported code pages）
Shorter Microsoft list containing only the ANSI and OEM code pages but with links to more detail on each
Character Sets And Code Pages At The Push Of A Button（页面存档备份，存于互联网档案馆）

查论编字符编码
早期電信	電報電碼（英语：Telegraph code）庫克與惠斯通（英语：Cooke and Wheatstone telegraph）摩斯非拉丁字母（英语：Morse code for non-Latin alphabets）日文（英语：Wabun code）中文西里爾字母（英语：Russian Morse code）韓文（英语：SKATS）博多與莫瑞 Fieldata（英语：Fieldata） ASCII ISO/IEC 646 BCDIC（英语：BCD (character encoding)）電傳文訊（英语：Teletex）與電傳視訊（英语：Videotex）／電視資訊 T.51/ISO/IEC 6937（英语：T.51/ISO/IEC 6937） ITU T.61（英语：ITU T.61） ITU T.101（英语：Videotex character set）世界系統電傳文訊（英语：World System Teletext）字元集（英语：Teletext character set）
ISO/IEC 8859	現行 -1（西歐語言） -2（中歐語言） -3（馬爾他文／世界文） -4（北歐語言） -5（西里爾字母） -6（阿拉伯文） -7（希臘文） -8（希伯來文） -9（土耳其文） -10（北日耳曼語支） -11（泰文） -13（波羅的語族） -14（凱爾特語族） -15（新西歐語言） -16（羅馬尼亞文）廢止 -12（梵文）提議 KOI-8西里爾字母（英语：ISO-IR-111）薩米文（英语：ISO-IR-197）改編威爾斯文（英语：ISO-IR-182）巴倫支西里爾字母（英语：ISO-IR-200）愛沙尼亞文（英语：Code page 922）烏克蘭西里爾字母（英语：Code page 1124）
書目	MARC-8（英语：MARC-8） ANSEL（英语：ANSEL）中文資訊交換碼 ISO 5426（英语：ISO 5426） ISO 5427（英语：ISO 5427） ISO 5428（英语：ISO 5428） ISO 6438 ISO 6862（英语：ISO 6862）
國家標準	ArmSCII BraSCII（英语：BraSCII）中文標準交換碼 DIN 66003（英语：DIN 66003） ELOT 927（英语：ELOT 927） GOST 10859（英语：GOST 10859） GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212（英语：JIS X 0212） JIS X 0213（英语：JIS X 0213） KOI-7（英语：KOI-7） KPS 9566 KS X 1001 KS X 1002（英语：KS X 1002） LST 1564（英语：LST 1564） LST 1590-4（英语：LST 1590-4） PASCII Shift JIS SI 960（英语：SI 960） TIS-620（英语：Thai Industrial Standard 620-2533） TSCII VISCII（英语：VISCII） VSCII YUSCII（英语：YUSCII）
ISO/IEC 2022	ISO/IEC 8859 ISO/IEC 10367（英语：ISO/IEC 10367） EUC ISO-IR-165
macOS代码页	亞美尼亞文（英语：Mac OS Armenian）阿拉伯文巴倫支西里爾字母（英语：Mac OS Barents Cyrillic）凱爾特語族（英语：Mac OS Celtic）中歐語言克羅埃西亞文（英语：Mac OS Croatian encoding）西里爾字母（英语：Mac OS Cyrillic encoding）梵文波斯文（英语：MacFarsi encoding）字體X（英语：Macintosh Font X encoding）蓋爾文（英语：Mac OS Gaelic）喬治亞文（英语：Mac OS Georgian）希臘文（英语：MacGreek encoding）古吉拉特文（英语：Mac OS Gujarati）古木基文（英语：Mac OS Gurmukhi）希伯來文（英语：Mac OS Hebrew）冰島文（英语：Mac OS Icelandic encoding）因紐特文（英语：Mac OS Inuit）鍵盤（英语：Mac OS Keyboard encoding）拉丁文（英语：Macintosh Latin encoding）馬爾他文／世界文（英语：Mac OS Maltese/Esperanto encoding）歐甘字母（英语：Mac OS Ogham）羅曼語族羅馬尼亞文（英语：Mac OS Romanian encoding）薩米文（英语：Mac OS Sámi）土耳其文（英语：Mac OS Turkish encoding）土耳其西里爾字母（英语：Mac OS Turkic Cyrillic）烏克蘭文（英语：Mac OS Ukrainian encoding） VT100（英语：VT100 encoding）
DOS代碼頁	437 668（英语：Code page 668） 708（英语：Code page 708） 720（英语：Code page 720） 737（英语：Code page 737） 770（英语：Code page 770） 773（英语：Code page 773） 775（英语：Code page 775） 776（英语：Code page 776） 777（英语：Code page 777） 778（英语：Code page 778） 850（英语：Code page 850） 851（英语：Code page 851） 852（英语：Code page 852） 853（英语：Code page 853） 855（英语：Code page 855） 856（英语：Code page 856） 857（英语：Code page 857） 858（英语：Code page 858） 859（英语：Code page 859） 860（英语：Code page 860） 861（英语：Code page 861） 862（英语：Code page 862） 863（英语：Code page 863） 864（英语：Code page 864） 865（英语：Code page 865） 866（英语：Code page 866） 867（英语：Code page 867） 868（英语：Code page 868） 869（英语：Code page 869） 897（英语：Code page 897） 899（英语：Code page 899） 903（英语：Code page 903） 904（英语：Code page 904） 932（英语：Code page 932 (IBM)） 936（英语：Code page 936 (IBM)） 942（英语：Code page 942） 949（英语：Code page 949 (IBM)） 950 951（英语：Code page 951） 1040（英语：Code page 1040） 1042（英语：Code page 1042） 1043（英语：Code page 1043） 1046（英语：Code page 1046） 1098（英语：Code page 1098） 1115（英语：Code page 1115） 1116（英语：Code page 1116） 1117（英语：Code page 1117） 1118（英语：Code page 1118） 1127（英语：Code page 1127） 3846（英语：Code page 3846） ABICOMP（英语：ABICOMP character set） CS Indic（英语：CS Indic character set） CSX Indic（英语：CSX Indic character set） CSX+ Indic（英语：CSX+ Indic character set） CWI-2（英语：CWI-2）伊朗系統（英语：Iran System encoding）卡梅尼茨（英语：Kamenický encoding）馬索維亞（英语：Mazovia encoding） MIK（英语：MIK (character set)）
IBM AIX代碼頁	895（英语：Code page 895） 896（英语：Code page 896） 912（英语：Code page 912） 915（英语：Code page 915） 921（英语：Code page 921） 922（英语：Code page 922） 1006（英语：Code page 1006） 1008（英语：Code page 1008） 1009（英语：Code page 1009） 1010（英语：Code page 1010） 1012（英语：Code page 1012） 1013（英语：Code page 1013） 1014（英语：Code page 1014） 1015（英语：Code page 1015） 1016（英语：Code page 1016） 1017（英语：Code page 1017） 1018（英语：Code page 1018） 1019（英语：Code page 1019） 1124（英语：Code page 1124） 1133（英语：Code page 1133）
Microsoft Windows代碼頁（英语：Windows code page）	CER-GS（英语：CER-GS） 932（英语：Code page 932 (Microsoft Windows)） 936 GBK 950 1169（英语：Code page 1169） Extended Latin-8（英语：Extended Latin-8） 1250（英语：Windows-1250） 1251（英语：Windows-1251） 1252 1253（英语：Windows-1253） 1254（英语：Windows-1254） 1255（英语：Windows-1255） 1256（英语：Windows-1256） 1257（英语：Windows-1257） 1258（英语：Windows-1258） 1270（英语：Windows-1270）西里爾字母+芬蘭文（英语：Windows Cyrillic + Finnish）西里爾字母+法文（英语：Windows Cyrillic + French）西里爾字母+德文（英语：Windows Cyrillic + German）希臘語變音符號（英语：Windows Polytonic Greek）
EBCDIC代碼頁	37（英语：Code page 37） EBCDIC中的日文（英语：Japanese language in EBCDIC） DKOI（英语：DKOI）
DEC終端機（VTx（英语：VT220））	MCS（英语：Multinational Character Set） NRCS（英语：National Replacement Character Set）加拿大法文（英语：Code page 1020）瑞士文（英语：Code page 1021）西班牙文（英语：Code page 1023）英國英文（英语：Code page 1101）荷蘭文（英语：Code page 1102）芬蘭文（英语：Code page 1103）法文（英语：Code page 1104）挪威文／丹麥文（英语：Code page 1105）瑞典文（英语：Code page 1106）挪威文／丹麥文（替代）（英语：Code page 1107） 8位元希臘文（英语：Code page 1287） 8位元土耳其文（英语：Code page 1288） SI 960（英语：SI 960）希伯來文（英语：DEC Hebrew）特殊圖形（英语：DEC Special Graphics）技術（英语：DEC Technical Character Set）
特定平臺	1057（英语：Code page 1057） Acorn（英语：RISC OS character set） Adobe標準（英语：PostScript Standard Encoding） Adobe Latin 1（英语：PostScript Latin 1 Encoding） Amstrad CPC（英语：Amstrad CPC character set） Apple II（英语：Apple II character set）雅達利資訊交換標準碼（英语：ATASCII）雅達利ST（英语：Atari ST character set） BICS（英语：Bitstream International Character Set）卡西歐計算機（英语：Casio calculator character sets） CDC（英语：CDC display code） Compucolor II（英语：Compucolor II character set） CP/M+（英语：Amstrad CP/M Plus character set） DEC RADIX 50（英语：DEC RADIX 50） DEC MCS（英语：Multinational Character Set）/NRCS（英语：National Replacement Character Set） DG國際（英语：DG International） Fieldata（英语：Fieldata） GEM（英语：GEM character set） GSM 03.38（英语：GSM 03.38） HP Roman（英语：HP Roman） HP FOCAL（英语：FOCAL character set） HP RPL（英语：RPL character set） SQUOZE（英语：SQUOZE） LICS（英语：Lotus International Character Set） LMBCS（英语：Lotus Multi-Byte Character Set） MSX（英语：MSX character set） NEC APC（英语：NEC APC character set） NeXT（英语：NeXT character set） PETSCII（英语：PETSCII） SEGA SC-3000（英语：Sega SC-3000 character set）夏普計算機（英语：Sharp pocket computer character sets）夏普MZ（英语：Sharp MZ character set）辛克萊QL（英语：Sinclair QL character set）符號電傳文訊（英语：Teletext character set）德州儀器計算機（英语：TI calculator character sets） TRS-80（英语：TRS-80 character set）文圖拉國際（英语：Ventura International） WISCII（英语：Wang International Standard Code for Information Interchange） XCCS（英语：Xerox Character Code Standard） ZX80（英语：ZX80 character set） ZX81（英语：ZX81 character set） ZX Spectrum（英语：ZX Spectrum character set）
Unicode及通用字符集	UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC（英语：UTF-EBCDIC） GB 18030 BOCU-1 CESU-8 SCSU TACE16（英语：Tamil All Character Encoding） Unicode編碼比較（英语：Comparison of Unicode encodings）
TeX排版系統	科克（英语：Cork encoding） LY1（英语：LY1 encoding） OML（英语：OML encoding） OMS（英语：OMS encoding） OT1（英语：OT1 encoding）
其他代碼頁	ABICOMP（英语：ABICOMP character set） ASMO 449（英语：ASMO 449）大五碼 APL符號數位編碼（英语：Digital encoding of APL symbols） ISO-IR-68（英语：ISO-IR-68） ARIB STD-B24 HZ（英语：HZ (character encoding)） IEC-P27-1（英语：IEC-P27-1） INIS 7位元（英语：INIS character set） INIS-8（英语：8位元） ISO-IR-169（英语：ISO-IR-169） ISO 2033（英语：ISO 2033） KOI -R -RU（英语：KOI8-RU） -U 今昔文字鏡 SEASCII（英语：Stanford Extended ASCII） Stanford/ITS（英语：Stanford/ITS character set） TRON（英语：TRON (encoding)）統合韓文代碼（英语：Unified Hangul Code）
控制字符	摩斯電碼專用代碼（英语：Prosigns for Morse code） C0与C1控制字符 ISO/IEC 6429 JIS X 0211（英语：JIS X 0211） Unicode控制字符空白字元
相關條目	CCSID（英语：CCSID） HTML字符编码字符集探测中日韓統一表意文字硬體代碼頁（英语：Hardware code page）磁性墨水字元識別碼（英语：Magnetic ink character recognition）亂碼中文乱码可变宽度编码
字元集

历史