Unicode照合アルゴリズム

Unicode > Unicode照合アルゴリズム
Unicode
文字符号化スキーム
UTF-7
UTF-8
CESU-8
UTF-16
UTF-32
UTF-EBCDIC
SCSU
Punycode (IDN/IDNA)
GB 18030
その他
UCS
マッピング
書字方向
BOM
漢字統合
UnicodeとHTML
Unicodeと電子メール
Unicodeフォント

Unicode照合アルゴリズム(ユニコードしょうごうアルゴリズム、: Unicode collation algorithm、略称: UCA)とは、2つのUnicode文字列を比較するアルゴリズムを定義したものである。これによって言語的に正しい大文字小文字変換、ソートが行える。

概要

Unicode照合アルゴリズムは、Unicodeテクニカル・レポート#10に規定されたアルゴリズムで、2つの文字列を比較する方式であり、カスタマイズ可能である。Unicodeで表現可能な文字および言語ならどんな種類のテキストでも、照合ないしソートの際にこのアルゴリズムが利用できる。

Unicodeテクニカルレポート#10は、デフォルトUnicode照合基本テーブル(Default Unicode Collation Element Table、略称DUCET)についても規定している。DUCETは言語ごとにカスタマイズ可能である。カスタマイズされたテーブルの一部は、共通ロケールデータリポジトリ(Common Locale Data Repository、CLDR)に収録されている。

オープンソースによる大規模なUnicode照合アルゴリズムの実装が、International Components for Unicode(ICU)計画によって行われている。ICUは地域化もサポートしており、CLDRをもとにしたUnicode照合の地域化がICUに含まれている。オンラインで参照できるICUロケールエクスプローラーを見れば、地域化の概要と相当数の各言語データがわかる。


関連項目

外部リンク

  • “UTS #10: Unicode Collation Algorithm” (英語). Unicode Consortium (2012年2月1日). 2012年7月5日閲覧。
日本語用の
文字コード
JIS規格
符号化文字集合
文字符号化方式
文字一覧
JIS以外の公規格
メーカーの規格
符号化文字集合
文字符号化方式
日本語を含む
多言語文字集合
Unicode
ISO/IEC 10646
JIS X 0221
文字符号化方式
文字一覧
TRONコード
日本語以外用の
文字集合
初期の文字コード
ISO/IEC 8859
書誌用
  • ISO 5426
  • ISO 5426-2
  • ISO 5427
  • ISO 5428
  • ISO 6438
  • ISO 6861
  • ISO 6862
  • ISO 9036
  • ISO 10585
  • ISO 10586
  • ISO 10754
  • ISO 11822
  • ANSEL
  • MARC-8
国家標準
EUC
ISO/IEC 2022
  • ISO/IEC 2022 CN
  • ISO/IEC 2022 KR
  • CCCII
MacOS
コードページ
  • Macintosh Standard Roman Character Set
  • アラビア語
  • CentralEurRoman
  • EUC-CN
  • Big5
  • クロアチア語
  • キリル
  • デーヴァナーガリー
  • Dingbats
  • ペルシャ語
  • ギリシア語
  • グジャラート語
  • グルムキー
  • ヘブライ語
  • アイスランド語
  • EUC-KR
  • ルーマニア語
  • MacSymbol
  • TIS-620
  • トルコ語
  • ウクライナ語
DOS
コードページ
  • 437
  • 720
  • 737
  • 775
  • 850
  • 852
  • 855
  • 857
  • 858
  • 860
  • 861
  • 862
  • 863
  • 864
  • 865
  • 866
  • 869
  • KOI8
  • Kamenicky
  • Mazovia
  • MIK
  • Iran System
Windows
コードページ
EBCDIC
コードページ
  • 37
  • 293(英語版)
  • 300(英語版)
  • 310(英語版)
  • 351(英語版)
  • 353(英語版)
  • 355(英語版)
  • 357(英語版)
  • 358(英語版)
  • 359(英語版)
  • 360(英語版)
  • 819
  • 930(英語版)
  • 933(英語版)
  • 939(英語版)
  • 1364(英語版)
  • 1390(英語版)
  • 1399(英語版)
  • 8859(英語版)
その他標準
記号用
プラットフォーム
固有
  • ATASCII
  • CDC display code
  • DEC Radix-50
  • Fieldata
  • GSM 03.38
  • HP roman8
  • PETSCII
  • TI calculator character sets
  • ZX Spectrum character set
ソフトウェア
区分け
概念
関連トピック
カテゴリ カテゴリ
スタブアイコン

この項目は、文字文字学に関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(P:文字)。

  • 表示
  • 編集
スタブアイコンサブスタブ

この項目は、まだ閲覧者の調べものの参照としては役立たない、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています(P:コンピュータ)。

  • 表示
  • 編集