Extended Unix Code

Extended Unix Code(EUC)は、UNIX上で使われてきた文字コードの符号化方式である。

日本語EUC
- JIS X 0208ベース (EUC-JP)
- JIS X 0213ベース (EUC-JIS-2004)
韓国語EUC (EUC-KR)
簡体字中国語EUC (EUC-CN)
繁体字中国語EUC (EUC-TW)

などがある。

概要

1980年代、UNIXを開発していたAT&Tはアメリカ合衆国以外の国へUNIXを展開するにあたって各国固有の要求に対応するため、UNIXシステムを世界共通の機能となる国際機能と、各国固有の処理に必要な機能となる各国語機能に分けて定義した。この国際機能において、1つの基本コードと3つの拡張コードから構成される4つのコードセットを使用できる文字コードをExtended UNIX Code (EUC; 拡張UNIXコード) として定義した。

厳密にはEUCのコード体系にはバイト単位の可変長コードである「パックフォーマット」と、2バイト固定長の「完全2バイトフォーマット」がある。前者は情報交換用、後者は内部処理用で、一般にEUCという場合前者を指す。ここでも前者について解説する。

EUCのパックフォーマットはISO/IEC 2022を基に、以下のようなサブセット化を行った体系である。

G0にASCII（主コードセット）を、G1-G3に各言語の文字集合（補助コードセット1-3）を暗黙に指示する。指示のエスケープシーケンスは用いない。
GLにG0を、GRにG1を暗黙に呼び出す。G2/G3はシングルシフト2/3によりGRに呼び出す。ロッキングシフトは用いない。

補助コードセットが0x80-0xFFの範囲で表されるため、主コードセットと衝突することがない。すなわちShift_JISにおける2バイト目が5C等になりうることによる問題が起きないというメリットがある。

各国向けに局所化した各国語機能のそれぞれの版について、日本語では「 - 語EUC」や「 - 語版EUC」のように呼ばれることが多い。

日本語EUC

日本語EUCはG1-G3に日本産業規格 (JIS) の文字集合を割り当てている。

JIS X 0208ベース

「EUC-JP」を参照

一般に日本語EUCという場合こちらを指す。EUC-JPともいう。ここで、JPは日本国を表す国・地域コードであって、日本語を表す言語コード (ja) でない。

1986年にAT&Tによって定義されて以来、UNIXの標準的な日本語コードとして広く使われてきた。1990年にJIS X 0212（補助漢字）が新たに策定されたが、1992年にUNIX Internationalが発行した『UNIX System V リリース 4 (SVR4) 日本語環境共通規約』において、JIS X 0201 カタカナとJIS X 0212 補助漢字は実装が必須ではないとされていた。このため、特にJIS X 0212は実装されていないことも多い。通信などで用いる場合はこの点に注意が必要である。

G0 - ASCII
G1 - JIS X 0208
G2 - JIS X 0201カタカナ
G3 - JIS X 0212補助漢字

なお、G2とG3を使わない場合はJIS X 0208:1997の「国際基準版・漢字用8ビット符号」と同一となる。

JIS X 0213ベース

「EUC-JIS-2004」を参照

JIS X 0213:2004ベースのものをEUC-JIS-2004という（2000年版はEUC-JISX0213）。JIS X 0213の附属書3に記載がある。フリー/オープンソースソフトウェアなどで使われていることがある。

G0 - ASCII
G1 - JIS X 0213 1面
G2 - JIS X 0201カタカナ
G3 - JIS X 0213 2面

韓国語EUC

1987年にAT&Tユニックス・パシフィックよりリリースされた Korean Application Environment Release 1.0 (KAE 1.0) で規定され、1992年に韓国標準協会によってKS X 2901（旧KS C 5861）『ハングルUNIXエンバイロメント』として標準化された。EUC-KRともいう。ここで、KRは韓国の国・地域コードであって、朝鮮語の言語コード (ko) ではない。単にKS C 5601といった場合でも、文字集合としてのKS C 5601でなく、EUC-KRのことを指している場合が多い。

G0 - ASCII
G1 - KS X 1001 (KS C 5601)
G2 - なし
G3 - なし

EUC-KRを拡張したUHC (Unified Hangul Code) という体系も存在する。

簡体字中国語EUC

中国で広く使われていた。EUC-CNともいう。ここで、CNは中国の国・地域コードであって、簡体字の用字系コード (Hans) でも中国語の言語コード (zh) でもない。単にGB 2312といった場合でも、文字集合としてのGB 2312でなく、EUC-CNのことを指している場合が多い。

G0 - ASCII
G1 - GB 2312
G2 - なし
G3 - なし

EUC-CNを拡張したGBKという体系も存在する。

繁体字中国語EUC

EUC-TWともいう。ここで、TWは台湾の国・地域コードであって、繁体字の用字系コード (Hant) でも中国語の言語コード (zh) でもない。台湾の規格であるが、あまり使われておらず、一般にはBig5が使われる。

G0 - ASCII
G1 - CNS 11643 第一字面
G2 - CNS 11643 第二-第十六字面
G3 - なし

G2の文字は以下の4バイトで構成される。

シングルシフト2 (0x8E)
字面を選択するコード(0xA2-0xB0)
文字の第1バイト(0xA1-0xFE)
文字の第2バイト(0xA1-0xFE)

課題

EUCの利用は、すべての文字コードを包含したり、複数の文字コードを切り替えて表示する機能の必要性を否定する場合があり、多くの文字を表示する流れに対して後ろ向きであった点が課題である。これは、文字コード自体の課題ではなく、EUCを利用しているプログラマ、利用者の課題である。

関連項目

文字コード

日本語用の
文字コード

JIS規格

符号化文字集合	JIS X 0201 JIS X 0208 JIS X 0212 JIS X 0213 JIS X 0221（日本文字部分レパートリ）
文字符号化方式	ISO-2022-JP EUC-JP Shift_JIS Shift_JISX0213 Shift_JIS-2004 EUC-JISX0213 EUC-JIS-2004 ISO-2022-JP-3 ISO-2022-JP-2004 漢字シフトコード
文字一覧	JIS X 0213非漢字一覧 JIS X 0213漢字一覧の1面 JIS X 0213漢字一覧の2面

JIS以外の公規格

メーカーの規格

符号化文字集合	IBM拡張文字マイクロソフト標準キャラクタセット Adobe-Japan1 iモード絵文字 EZweb絵文字 SoftBank絵文字今昔文字鏡 JIPS EBCDIC GT書体 KEIS IBM漢字システムレコード用文字符号ビブロス外字
文字符号化方式	Microsoftコードページ932 MacJapanese JEF漢字コード U-PRESS

日本語を含む
多言語文字集合

Unicode
ISO/IEC 10646
JIS X 0221

面	基本多言語面追加面追加多言語面追加漢字面第三漢字面追加特殊用途面私用面
文字符号化方式	UTF-8 UTF-16/UCS-2 UTF-32/UCS-4 UTF-7 UTF-EBCDIC GB 18030 SCSU BOCU-1
文字一覧	Unicode一覧 Unicode一覧表 Unicode6.0の携帯電話の絵文字の一覧 UnicodeのEmojiの一覧

TRONコード

TRONコード

日本語以外用の
文字集合

初期の文字コード	ASCII Baudot Code ISO/IEC 646 ISO/IEC 6937 T.61
ISO/IEC 8859	-1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -13 -14 -15 -16
書誌用	ISO 5426 ISO 5426-2 ISO 5427 ISO 5428 ISO 6438 ISO 6861 ISO 6862 ISO 9036 ISO 10585 ISO 10586 ISO 10754 ISO 11822 ANSEL MARC-8
国家標準	ArmSCII CNS 11643 GOST 10859 GB 2312 HKSCS ISCII KPS 9566 KS X 1001 PASCII TIS-620 TSCII VISCII YUSCII KOI8-R KOI8-RU KOI8-U KOI8-T KOI8-CS
EUC	EUC-CN EUC-KR EUC-TW
ISO/IEC 2022	ISO/IEC 2022 CN ISO/IEC 2022 KR CCCII
MacOS コードページ	Macintosh Standard Roman Character Set アラビア語 CentralEurRoman EUC-CN Big5 クロアチア語キリルデーヴァナーガリー Dingbats ペルシャ語ギリシア語グジャラート語グルムキーヘブライ語アイスランド語 EUC-KR ルーマニア語 MacSymbol TIS-620 トルコ語ウクライナ語
DOS コードページ	437 720 737 775 850 852 855 857 858 860 861 862 863 864 865 866 869 KOI8 Kamenicky Mazovia MIK Iran System
Windows コードページ	874 (TIS-620) 936 (GBK) 949 (EUC-KR) 950 (Big5) 1250 1251 1252 1253 1254 1255 1256 1257 1258 1361 54936 (GB18030)
EBCDIC コードページ	37 293（英語版） 300（英語版） 310（英語版） 351（英語版） 353（英語版） 355（英語版） 357（英語版） 358（英語版） 359（英語版） 360（英語版） 819 930（英語版） 933（英語版） 939（英語版） 1364（英語版） 1390（英語版） 1399（英語版） 8859（英語版）
その他標準	モザイク集合
記号用	Symbol Wingdings Webdings
プラットフォーム固有	ATASCII CDC display code DEC Radix-50 Fieldata GSM 03.38 HP roman8 PETSCII TI calculator character sets ZX Spectrum character set