簡單聊聊字元編碼 Character Encoding

Aug,25 2024 ・11min

#「文字」是如何在電腦上面顯示的？

在電腦上，所有的東西都會被轉成 1 還有 0，文字也不例外。

文字在電腦上儲存的方式沒有想像的複雜，基本上也只是就是一個數字對一個字，想像一下

1 代表 a
2 代表 b
3 代表 c
…

依照這個規律，如果我們要將 duck 這個英文單字編碼，那就會是

d: 4
u: 21
c: 3
k: 11

這種將文字轉換成某個集合的方式就稱為字元編碼（character encoding）。上面範例編碼方式將英文的小寫字母轉換成數字，數字又可以在依照不同的需要使用不同的格式（例如十進位或者是二進位）。

#ASCII

了解了什麼是編碼，我們可以看一下 ASCII ，一種被廣泛使用的編碼方式。下面是 ASCII 的 encoding table

一樣用剛剛的 duck 來作範例，當你使用 ASCII 編碼時，會被轉換成

d: 100
u: 117
c: 99
k: 107

轉換成常見的十六進位則是

d: 0x64
u: 0x75
c: 0x63
K: 0x6B

ASCII 有幾個特點

包含的範圍有英文字母（大小寫）、符號、以及部分的控制字元，總共 128 個字元
128 個字元也同時對應到 7 個 bit，換句話說，儲存一個 ASCII 的字元需要 7bit 的空間
控制字元的位置是 0 ~ 31 以及 127 (DEL, 1111111)

控制字元是什麼？

控制字元並非顯示的文字或符號，而是對裝置下的指令。像是換行（Line feed, LF）、刪除 (DEL) 等等。這些控制字元在過去對不同的裝置（像終端機, 印表機等）有各自不同的用處，但現在大部分不再被使用。

#Terminology

了解了 ASCII，就可以說是了解字元編碼的基礎了。那再更進一步之前，可以先來聊聊一些術語以及定義。

#Character Encoding 字元編碼

Encoding 是一個很廣泛的概念，基本上把一套資訊轉換成另外一個形式的行為就可以稱作 encoding 編碼。不只是剛剛提到的文字轉換成數字，包含音訊、視訊等也都可以進行編碼。

在這篇文章則專注在 Character encoding，將 Character （字元）轉換成計算機可使用、傳遞的格式。

#那什麼是 character（字元）

在這裡的 character 基本上是參考 Unicode standard 中的解釋

Characters are the abstract representations of the smallest components of written language that have semantic value.

字元是書寫文字中具有語意的最小組成的抽象表現

The Unicode Standard, Version 15.0 - 2.2 Unicode Design Principles - Characters, Not Glyphs

標準中的敘述有點抽象，但可以從幾個方向去思考什麼是字元。

在不同的時代，同樣一個「人」字，可能有不同的書寫方式，但這些不同的書寫方式都表達了同樣的「人」這個意思，所以不同朝代的人並不算不同的字元

反過來，有沒有即使書寫方式相同，卻是被認為是不同字元的案例？

舉個例子，希臘文的 Σ 與數學符號的求和符號 ∑ （summation）兩者雖然書寫方式一樣，而且求和符號也的確是源自於希臘文的 Σ，但兩者使用至今已有不同的意涵，所以會被視為不同的字元。

話雖如此，上面都只是很簡單的舉例，但是事實上在 CJK （中文、日文、韓文中皆使用漢字，在這一議題上會簡稱為 CJK ）中，同一個文字在不同的文化中都不同，甚至還有異體字。最後這些也都被 Unicode 收錄為不同的字元

但撇除複雜的案例，可以這樣理解：Character 字元是以意義為單位，來作為文字編碼、使用的最小元素

#什麼是 code point？

code point （中文譯做碼點¹）表示在一套編碼中有多少的位置能夠用來表示字符。在剛剛的 ASCII 中就有 128 個 code points，而 Latin1 編碼則使用 8 個 bit ，也就是共 256 個 code points。而字元編碼中字集 character set 所處理的就是將字元對應到各自的碼點上。

#Code point 的位置就代表實際儲存的方式嗎？

非也，Code point 只是所謂的「位置」。實際儲存要考慮更多東西，大部分的編碼方式並不會直接以 code point 的位置儲存。例如 Unicode 在標準中，雖然字元對應到統一的 code point，但提供了三種不同的編碼方式：UTF-8, UTF-16, UTF-32。

#Wide characters 以及 Multibyte Characters

剛剛提到的 ASCII 是會使用 7 bits 的空間，但在大部分的系統中，都會使用 8 bit（使用 8 bit 非 7bit 會多出很多好處，存取記憶體時通常以 8bit 為單位），也就是一個 byte 來儲存一個 ASCII 的符號。

事實上當然不可能用了 8bit，卻只放入 7bit 的 ASCII。有個常用的編碼標準是 Latin1 正使用了一個 byte 來作編碼。Latin1 完全相容 ASCII，並且擴充了幾個帶有變音符的字母，可以滿足大部分拉丁語族（也就是普遍認知的西方語言）的需要。

但即使是使用了 1 個 byte，也僅僅只有 256 個 code points，對於亞洲國家的語言是完全不夠的。於此，有兩個作法（這兩個作法在 C 語言的標準中被明確的定義）可以解決這個問題，分別是 Wide characters （寬字元）以及 Multibyte Characters。

#Wide characters （寬字元）

這是一個很直覺的方法：

如果一個 byte 不夠，那就兩個

Wide characters 代表著

用多於 1 個 byte 的空間來表示一個字
每個字都使用同樣的長度來表示

既然 8bit (1byte) 只能表示 256 個，那我們可以使用兩個 bytes ，那就能夠表示 65536 個字。

#UCS-2

了解了 Wide characters，我們來看看其中一個 Wide characters 的編碼標準 - UCS-2

UCS-2 使用 2 個 bytes 來作編碼，例如剛剛舉的範例，在 ucs-2 中的編碼會是（以 Hex 16 進位來表示，以 byte 為單位）：

d: 0x00 0x64
u: 0x00 0x75
c: 0x00 0x63
K: 0x00 0x6B

那如果是更複雜一點的狀況呢？舉個例子，中文的「鴨子」

鴨：0x9d 0x28
子：0x5b 0x50

既然同上所述，UCS-2 使用了兩個 bytes，所以 UCS-2 的 charset 可以表達總共 65536 個字，鴨子也不是生僻字，因此在 UCS-2 中完全沒問題。

那在到下一種文字之前，我們先插播一段愛在西元前

我給妳的愛寫在西元前深埋在美索不達米亞平原
用楔形文字刻下了永遠那已風化千年的誓言一切又重演

歌詞裡面提到楔形文字，那如果我要用楔形文字表達鴨子呢？UCS-2 無法表示楔形文字，因為楔形文字已經不在 UCS-2 能表示的字元中（UCS-2 僅能表示 Unicode 中 BMP 的字）

#Multibyte Characters

而另外一個作法比較特別，不一定要使用同樣的長度來表達每一個字，不同的字元會儲存成不同的長度

舉個例子，當表達 Latin1 可以表達的字母時，我們只需要使用 1 個 byte 來表示就好，但當需要表示例如漢字或者日文？就可以使用 2 byte 來表示

#UTF-8

上面同樣的範例，我們可以用 UTF-8 來表示看看差異

d: 0x64
u: 0x75
c: 0x63
K: 0x6B

鴨：0xE9 0xB4 0xA8
子：0xE5 0xAD 0x90

最後是楔形文字（以 Old Persian 書寫系統表示）

𐎣：0xF0 0x90 0x8E 0xA3
𐎸：0xF0 0x90 0x8E 0xB8
𐎢：0xF0 0x90 0x8E 0xA2
𐎪：0xF0 0x90 0x8E 0xAA

其中最大的差異就是，就如剛剛提到以 Multibyte Characters 方式編碼的 UTF-8 每個字元的編碼並不一定相同長度，而 UCS-2 則是每個字都相同。除此之外 UTF-8 可以表示褉型文字，但 UCS-2 不行。

#Wide character 以及 Multibyte character 的優缺點

了解兩者差異，可以簡單來聊聊兩者的優缺點

花費的儲存空間：Multibyte char 在拉丁語族（也就是大部分人認知的西方語言）中效率高，因為可以用更少的空間表示。而 Wide Character 則沒有這個優勢
向後兼容：這是比你想像的還重要的一點，前面有提到 ASCII 是最被廣泛使用的編碼標準，而 UTF-8 可以完全兼容 ASCII，UCS-2 則需要另外轉換。這也是 utf-8 被廣泛使用在各種標準（例如 HTML5² 以及 HTTP header 中 charset 的預設值³）裡面的原因。
處理速度：Wide char 固定長度讓計算字串長度、解析都很方便。但 Multibyte char 就需要特殊處理。

綜上所述，可以得到比較簡單的結論：

Wide character 比較適合在高效處理文字的場合
Multibyte character 則是適合在需要兼容不同系統時使用

#Unicode 還有 Basic Multilingual Plane

剛剛有提到一個東西是 BMP (Basic Multilingual Plane)，這是什麼？

常提到的 Unicode 通常指的是 Unicode 聯盟所訂定的 Unicode standard，這個標準包含了所有在計算機上表示文字的所有要素。我們可以關注的有兩個部分

如何將文字編碼（也就是如果們一開始所做的，對應某個「數字」），只是規模大的多
這些編碼如何儲存，這樣的標準稱為 Unicode Transformation Format

Unicode 目前允許從 0x0 至 0x10FFFF 個 code points（碼位）。如果全部使用的話，總共可以儲存 1114111 個字。

當然，目前並沒有被完全使用，截至 2023 年九月收錄了總共有 149,813 個字⁴，而這些字被放在不同的區域，這些區域也就是所謂的 Plane （平面）⁵。一個 Plane 包含了 65535 個 code points，在 Unicode 中定義了 17 個 Plane。

平面	範圍	中文名	英文名
0號	`0x0000`至`0xFFFF`	基本多文種平面	Basic Multilingual Plane，簡稱BMP
1號	`0x10000`至`0x1FFFF`	多文種補充平面	Supplementary Multilingual Plane，簡稱SMP
2號	`0x20000`至`0x2FFFF`	表意文字補充平面	Supplementary Ideographic Plane，簡稱SIP
3號	`0x30000`至`0x3FFFF`	表意文字第三平面	Tertiary Ideographic Plane，簡稱TIP
4號至 13號	`40000`至`DFFFF`	（未啓用）
14號	`0xE0000`至`0xEFFFF`	特別用途補充平面	Supplementary Special-purpose Plane，簡稱SSP
15號	`0xF0000`至`0xFFFFF`	保留作為私人使用區（A區）	Private Use Area-A，簡稱PUA-A
16號	`0x100000`至`10FFFF`	保留作為私人使用區（B區）	Private Use Area-B，簡稱PUA-B

搬運自 wiki⁶

每個不同的平面包含了不同語言的文字，其中值得關注的是 BMP 以及 SMP。

前面提到 UCS-2 因為使用 2 個 byte ，所以只能表示 65535 個字。這正是 Unicode 中 BMP 的範圍：從 0x0000 至 0xFFFF 。而剛剛提到的楔形文字以及現在流行的 Emoji 則是在 SMP （多文種補充平面）中，是無法用單純的 UCS-2 來表示的。

除了 Plain 之外，每個 Plain 之中還有實際依照不同文字系統來區分的 Block，例如注音符號就位於 0x3100至0x312F 的 Unicode Block “Bopomofo” 以及 U+31A0 至 U+31BF Unicode Block “Bopomofo Extended” ⁷

前面把 UCS-2 講的很一文不值，但真的是這樣嗎？

#UTF-16 與 UCS-2

事實上，大部分人都不會接觸到純正的 UCS-2 編碼了⁸。Unicode 官方提出的有三種編碼⁹

UTF-8
UTF-16
UFT-32

而其中 UTF-16 則能夠完整兼容前面提到 UCS-2 編碼。再一次舉剛剛的例子

d: 0x00 0x64
u: 0x00 0x75
c: 0x00 0x63
K: 0x00 0x6B

鴨：0x9d 0x28
子：0x5b 0x50

最後是「楔形文字」的鴨子，在 UTF-16 中的表示是

𐎣：0xD8 0x00 0xDF 0xA3
𐎸：0xD8 0x00 0xDF 0xB8
𐎢：0xD8 0x00 0xDF 0xA2
𐎪：0xD8 0x00 0xDF 0xAA

作為一種 Multibyte character，UTF-16 的 code points 能夠表示超出 BMP 範圍的文字（包含了 1112064 個 code points）。這也是 UTF-16 可以成為廣泛兼容標準的一個因素。

#UTF-32

UTF-32 和 UTF-8、UTF-16 不同，則使用 Wide characters，所有的字元都是同樣的寬度。同樣的範例在 UTF-32 中的表示法如下

d: 0x00 0x00 0x00 0x64
u: 0x00 0x00 0x00 0x75
c: 0x00 0x00 0x00 0x63
K: 0x00 0x00 0x00 0x6B

鴨：0x00 0x00 0x9d 0x28
子：0x00 0x00 0x5b 0x50