유니코드 문자 집합의 문자 평면 | |||||||||||
{{{#!wiki style="word-break: keep-all; margin:0 -10px -5px; min-height:calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <rowcolor=#FFF> 기본 | 보조 | |||||||||
<rowcolor=#FFF> Plane 0 0000~FFFF | Plane 1 10000~1FFFF | Plane 2 20000~2FFFF | Plane 3 30000~3FFFF | Planes 4-13 40000~DFFFF | Plane 14 E0000~EFFFF | Planes 15-16 F0000~10FFFF | |||||
기본 다국어 평면 BMP | 보조 다국어 평면 SMP | 보조 표의문자 평면 SIP | 3차 표의문자 평면 TIP | (사용 안 함) | 보조 특수 목적 평면 SSP | 사용자 자유 영역 PUA | |||||
0XXX | 8XXX | 10XXX | 18XXX | 20XXX | 28XXX | 30XXX | | 문자 없음 | E0XXX | 15: PUA-A | |
1XXX | 9XXX | 11XXX | 19XXX | 21XXX | 29XXX | 31XXX | | F0000-FFFFF | |||
2XXX | AXXX | 12XXX | 1AXXX | 22XXX | 2AXXX | | | ||||
3XXX | BXXX | 13XXX | 1BXXX | 23XXX | 2BXXX | | | 16: PUA-B | |||
4XXX | CXXX | 14XXX | 1CXXX | 24XXX | 2CXXX | | | 100000-10FFFF | |||
5XXX | DXXX | 15XXX | 1DXXX | 25XXX | 2DXXX | | | ||||
6XXX | EXXX | 16XXX | 1EXXX | 26XXX | 2EXXX | | | ||||
7XXX | FXXX | 17XXX | 1FXXX | 27XXX | 2FXXX | | |
1. 개요
SIP는 사실상 한자 전용 평면이다. 평면 이름부터 보조 표의 문자 평면(Supplementary Ideographic Plane)이다.[1] 유니코드의 BMP 영역에는 이미 2만 7천여 자[2]나 되는 한자가 배당되어 있지만, 그것만으로는 부족하기 때문에 한자 전용 평면을 만든 것이다.2. 상세
SIP의 한자는 현대에는 잘 쓰이지 않는다고 생각하기 쉬우나, 현대에도 잘 쓰이는 것들이 있다. 𠮟[3], 𠮷, 𥝱[4], 𩸽 등은 현대 일본어에서 쓰이고, 주기율표/중국어의 𬭊/𨧀, 𬭳/𨭎, 𬭛/𨨏, 𬭶/𨭆, 𫟼, 𬬭, 𫓧, 𫟷 등은 현대 표준 중국어에서 쓰이며, 𡃁, 𨋢 등은 현대 광동어에서 쓰인다. 심지어 한국의 인명용 한자 중에서도 𤨒(옥 이름 은) 등 몇몇 한자가 SIP에 실려 있다.[5]단일 문서로 SIP의 모든 글자를 넣기에는 공간이 너무 부족해서 부득이하게 16개의 유니코드 하위 문서로 대체되었다. SIP는 UTF-8에서는 모두 4바이트 크기이다. 만약 이 문서 하나에 65,535자가 모두 들어가버리면 이 문서 하나 용량만 무려 262,140바이트+α 즉 262KB이다.
- 유니코드/20000~20FFF
- 유니코드/21000~21FFF
- 유니코드/22000~22FFF
- 유니코드/23000~23FFF
- 유니코드/24000~24FFF
- 유니코드/25000~25FFF
- 유니코드/26000~26FFF
- 유니코드/27000~27FFF
- 유니코드/28000~28FFF
- 유니코드/29000~29FFF
- 유니코드/2A000~2AFFF
- 유니코드/2B000~2BFFF
- 유니코드/2C000~2CFFF
- 유니코드/2D000~2DFFF
- 유니코드/2E000~2EFFF
- 유니코드/2F000~2FFFF
[1] 그런데 한자는 표의 문자보다는 표어 문자로 분류하는 것이 적절하다. 순수히 뜻만 나타내는 글자도 있지만, 음이나 형태소를 나타내는 글자도 있기 때문. 다만 영역 이름과 문자 이름은 한 번 정해지면 절대 못 바꾸므로 이름을 고치기에는 이미 늦었다.[2] 65536자인 전체의 약42%[3] 일본의 2010년 개정 상용한자에는 U+53F1 叱(⿰口𠤎)이 아니라 U+20B9F 𠮟(⿰口七)이 들어갔다. 일본의 상용한자 중에서 유일하게 BMP가 아니라 SIP에 있는 한자다. 다만 SIP를 지원하지 않는 환경의 경우 U+53F1 叱도 사용 가능하다.[4] 다만 이 글자는 엄밀히 따지면 오탈자이다.[5] 거기에 더해 𰜩(물 이름 은; ⿰氵恩)은 BMP는 물론 SIP에도 없다. 유니코드 13.0이 되어서야 TIP의 U+30729에 추가되었다.