| 한글의 전산화 | |
| <colbgcolor=#f5f5f5,#2d2f34> 한글 인코딩 | <colbgcolor=#fff,#1c1d1f>조합형 · 완성형(한글 목록 · CP949) · 조합형 완성형 논쟁 · 남북한 한글 코드의 충돌 문제 · 한컴 2바이트 코드 · 한글 채움 문자(ㅤ) · 유니코드 · 옛한글 |
| 타자기와 키보드 | 두벌식 · 세벌식(일반 자판 · 속기 자판) · 휴대전화 입력기 · 한영 키 |
1. 개요
KS X 1001은 한국산업표준에 제정된 정보 교환용 부호계 방식 중 하나이다. 최신 표준은 KS X 5601:2004이며, 옛 번호는 KS C 5657이다. 정식 명칭은 정보 교환용 부호계 (한글 및 한자)이다.EUC-KR은 KS X 1001 표준과 KS X 1003 표준을 반영하여 구현된 문자 인코딩이다. 일반적으로 별도의 설명 없이 '완성형'이라 말하면 주로 이 표준과 이를 구현한 EUC-KR을 의미한다.
2. 제정 사유
KS X 1001은 외국어나 특수문자와 같이 이용하는 것을 미리 가정하고 국제 표준인 ISO/IEC 2022를 반영하여 만들어진 표준이다. 이는 유니코드가 등장하기 이전에 여러 종류의 문자 집합을 함께 쓰기 위한 표준이었는데, 구조적으로 94개, 96개, 942 = 8836개 문자를 담을 수 있는 n바이트 문자 집합을 갈아 끼우는 식이었다. 이론적으로는 3바이트를 사용해 943 = 83만 0584개 문자를 표현하게 할 수 있으나, 실제로 3바이트를 사용하는 문자 집합은 없다. 2바이트를 사용해 문자 8836개를 표현할 수 있는 문자 집합만 있다. 본래 2바이트를 사용하면 1바이트(8비트)의 개수가 256개이니 2562 = 6만 5535개가 나오지만, 이 방식은 아스키 코드의 확장 영역을 n바이트로 확장해서 사용하는 것이기 때문에 실제로는 맨 첫 비트가 1로 시작되는 뒷부분 128개 영역을 둘 이상 붙여서 쓸 수밖에 없다. 앞부분을 썼다가는 아스키 코드와의 호환성이 없어지기 때문이다. 그래도 1282 = 1만 6384개지만 여기서 34개가 더 빠진다. 아스키 코드 중 34개는 제어 문자이고, 이게 글자 코드를 7비트만 인식하는 컴퓨터 환경과 만나면 역시 충돌이 일어난다. 실제로 저 국제 표준이 나올 당시에는 7비트 표준 아스키 코드만 지원하는 시스템이 아직 남아 있었다. 따라서 실제로 쓸 수 있는 영역은 1바이트당 94개밖에 남지 않는 상황이 된 것이다.현대 한글을 표현하기엔 당연히 8836개로는 부족하기 때문에, 국가 표준인 KS X 1001은 일찌감치 타협을 보고 한글 중 주로 사용되는 2,350자만 채택해서 배당한 뒤 남는 자리에 한자 등을 왕창 (중복도 포함해서) 배당한 것이다. 조합형은 이런 식으로 다른 표준들과 상호 교환해서 쓰는 게 원천적으로 불가능하다.
3. 구성
KS X 1001 표준의 구성은 다음과 같다.- 특수 문자 435자
- 숫자 30자
- 한글 낱자 94자
- 기본 로마 문자 52자
- 그리스 문자 48자
- 괘선 조각 68자
- 한글 글자 마디 2,350자
- 한자 4,888자
- 확장 로마 문자 27자
- 가나 문자 169자
- 키릴 문자 66자
또한 부속서 3에는 보조 부호계로 상용 조합형이 수록되어 있으며, 부속서 4에는 7비트 한글 낱자 부호계(반각 한글 낱자)가 수록되어 있다.
KS X 1001 표준에 제정된 완성형 한글 2,350자의 목록은 완성형/한글 목록/KS X 1001에, 특수 문자 목록은 특수 문자/KS X 1001에, 한자 목록은 한자/KS X 1001에 있다.
4. 역사
4.1. KS C 5601 : 1974
지금은 완성형의 대명사인 표준이나 마찬가지지만, 1974년에 제정된 최초의 표준은 JIS X 0201(당시 JIS C 6220) 표준을 벤치마킹하여 ISO-646에서 남는 영역에 현대 한글 낱자 51자를 배당하였다. 이렇게 정의된 낱자는 3바이트 조합형으로 조합하여 사용되었다. 한글 낱자가 배당된 위치 또한 지금의 반각 가타카나 영역과 일치한다.7비트(2^7=128) 환경에서 사용할 경우 7비트 로마 문자 부호계와 7비트 한글 낱자 부호계를 사용하며, 둘을 같이 사용할 때는 SI/SO 문자를 이용한다. 8비트 부호계(2^8=256)에는 로마 문자와 한글 낱자가 같이 수록되어 있다.
이때 JIS X 0201의 영향을 받아 역슬래시(\\) 자리에 대신 원화 기호(₩)를 넣은 것이 현재까지 유지되어 영향을 끼치고 있다.
4.2. KS C 5601 : 1982
7비트 부호계의 한글 낱자가 현재의 위치로 이동되었으며, 이는 당시 사용되던 EBCDIC 부호계를 고려한 것이라고 82년판 해설서에 밝혀져있다.[1] 해당 문자표는 그대로 유니코드의 Halfwidth and Fullwidth Forms 블록에 반영되어 반각 한글 낱자로 현존한다.또한 8비트 부호계가 본문에서 부속서 1로 옮겨졌으며, EBCDIC 8비트 부호계, 조합형 부호계가 추가되었다.
1982년 표준에 수록된 조합형은 현재 수록된 상용 조합형과도, 1987년 표준에 수록된 조합형과도 자모 배치가 다르다. 금성사에서 이를 채택한 조합형 부호계를 사용한 것으로 보인다. 1982년 표준 조합형[2], 금성 조합형
4.3. KS C 5601 : 1987
지금의 2,350 완성형 부호계가 최초로 제정된 표준이다. 당시 마지막 바이트를 확정하기 전까지 임시로 3/1("1") 바이트를 사용하였다.이전까지는 일본의 JIS X 0201과 JIS X 0208처럼 아스키 코드를 확장한 KS C 5601과 ISO 2022에 기반한 KS C 5619로 이원화 되어있었으나, 이 개정에서 KS C 5601이 ISO 2022 기반 완성형 부호계로 개정되고 KS C 5619가 폐지되었다.
그 과정에서 7비트 로마 문자 부호계는 KS C 5636(현 KS X 1003)으로 분리되었고, 7비트 한글 낱자 부호계는 부속서 4로 옮겨졌으며, 8비트 부호계와 EBCDIC 부호계는 삭제되었다.
또한 부속서의 조합형 낱자 배당을 1986년 코드 연구 당시 제안된 시안으로 변경하였다. 1987년 표준 조합형[3]
4.4. KS C 5601 : 1989
마지막 바이트를 4/3("C")로 확정하였다.4.5. KS C 5601 : 1992
부속서 3의 조합형을 상용 조합형으로 수정하였다.이후 표준 번호 체계에 정보 분야 기호 X가 추가됨에 따라 1997년에 표준 번호가 KS X 1001로 변경되었다.
4.6. KS X 1001 : 1998
문자표에 유로 기호(€)와 등록 상표 기호(®)가 추가되었으며, 용어 혼동과 잘못된 내용을 수정하고 이에 대한 해설이 추가되었다.4.7. KS X 1001 : 2002
우편번호 기호 ㉾가 추가되었다.4.8. KS X 1001 : 2004
문자표에 있는 모든 글자에 이름을 부여하고 기존에 부여된 이름중 잘못된 것을 수정하였다.5. 단점
미리 조합되어 있는 2,350자 외의 문자는 어떻게 해도 표시할 수 없다. 국가 표준 완성형 코드로는 현대 한국어의 완전한 표기가 불가능했던 것이다.조합형 완성형 논쟁에서 완성형의 가장 큰 단점으로 지목됐고, 이건 완성형 지지자들도 인정할 수밖에 없는 문제였다. 물론 저 2350자는 그 나름대로 빈도를 조사해서 선정한 것이기는 하지만, 현대 한글 글자 중 약 21%밖에 수록하지 못하고 있으니 아무래도 부족했다. 빈도가 적다고 아예 안 쓰이는 게 아니며 인터넷 유행어 같은 경우도 완성형으로 구성이 불가능한 글자가 자주 나오는 데다, 사적인 사례 외에도 문제가 생기기 충분했다. 간단한 예시로 한국어 발음에 대한 논문을 하나 쓴다고 생각해 보라. 그 중 한 예로 '있다'의 발음을 표현하기 위해 '읻따'라는 표기를 써야 하는데 '읻'이라는 글자가 없어서 곤란해진다.
한글 자체가 원래 초성 + 중성 + 종성의 조합으로 이루어지는 조합형 문자인데 이걸 전부 한 글자 한 글자 만든다는 것도 비효율적이라는 이유로 완성형이 무시당하는 데 한몫 단단히 했다. 또, 그런 식으로 코드를 배당하다 보니 글자를 완성하는 과정이 개무시됐다. 가장 대표적인 예시가 바로 "쓩"이다. 분명 KS X 1001 코드 안에는 쓩이라는 글자가 있긴 있으나 "쓔"가 없어서 ㅆㅠㅇ이라고 쓰인다.[4] 그 외에도 두벌식 키보드로 한글을 타이핑하는 과정에서 받침 없는 첫 음절 다음 음절의 초성이 받침으로 들어가서 완성형을 벗어나는 글자가 일상적인 단어에서 수없이 등장한다.
5.1. KS X 1001로 쓸 수 없는 예시
KS X 1001이 외래어 표기법을 포함한 한글 맞춤법을 강제하기 위한 목적이라는 주장도 있으며, 실제로도 그런 효과가 있기는 하지만, 막상 빈도 조사를 하면 완성형 2350자만으로는 표준어조차 다 적을 수 없다. 아래 예시에서 굵은 글씨는 완성형에 포함되지 않는 글자이다.- 여깄다/저깄다('여기있다'/'저기있다'의 준말)
- 꺍하다(더 들어가지 못할 만큼 가득하다)
- 붴('부엌'의 준말): 글꼴의 이유로 초성이 미음처럼 보일 수 있으나 비읍이다.
- 늧(순우리말): 앞으로 어떻게 될 것 같은 일의 근원. 또는 먼저 보이는 빌미.
- 닁큼('냉큼'의 센말)
- 됭경모치(국내에 서식하는 어류), 됭케르크(대체명 덩케르크)
- 도럄직하다(= 도리암직하다, 되럄직하다. 얼굴이나 몸매가 동그랗고 똥똥하다)
- 하얬다('하얗다'의 과거형)
- 거칢('거칠다'의 명사형)
- 둥긂('둥글다'의 명사형)
- 여읩니다('여의다'의 존칭형)
- 사뢔/아뢔('사뢰어'/'아뢰어'의 준말로, 정작 사뢨다, 아뢨다의 '뢨'은 완성형에 등록되어 있다.)
- 전홥니다('전화입니다'의 준말)
- 설렜다('설레었다'의 준말로, 건네었다 → 건넸다와 같은 원리)
- 누렜다/퍼렜다('누렇다'/'퍼렇다'의 과거형)
- 괐다('고았다'의 준말)
- 되놰/되뇄다('되뇌어'/'되뇌었다'의 준말로, 되어 → 돼, 됐다 → 됐다와 같은 원리)
- 시보귬(원소 이름)
- 섬찟(갑자기 소름이 끼치도록 무시무시하고 끔찍한 느낌이 드는 모양): 2014년 12월에 표준어로 인정됐다.[5] 그런데 기사를 보면 알겠지만 여기서도 '찟'은 깨졌다.
- 어씃하다(마음이 호탕하고 의협심이 강하다)
- 좠다(조다(울퉁불퉁한 것을 고르게 다듬다)의 과거형)
- 으쌰으쌰(힘을 내는 모습, 정작 '썅'은 완성형에 등록되어 있다.)
- 수퍼마켙(슈퍼마켓의 옛 표기 중 하나로, 지금도 '수퍼마켙'으로 표기된 오래된 점포들을 볼 수 있다. 예를 들어 가주마켙 등.)
- 케잌(케이크의 옛 표기)
- 케챂(케첩의 옛 표기로, 오뚜기에서는 지금도 '오뚜기케챂'이라는 이름으로 판매하고 있다. 케챺으로도 표기했으며, 지금도 표기가 뒤죽박죽이라 케찹, 케챱, 케쳡 등으로도 표기한다.)
- -숖(가게를 뜻하는 shop의 옛 표기 중 하나이다. 대표적으로 헤어숖, 커피숖 등이 있다. 지금도 표기가 뒤죽박죽이라 -샵, -숍, -샾 등으로도 표기한다.)
- -칲(기름에 튀기는 음식을 뜻하는 chip의 옛 표기이다. 대표적으로 콘칲, 포테토칲[6] 등이 있다.)
- 삘딍(빌딩의 옛 표기 중 하나이다. 빌딍으로 표기하기도 하며, 현재도 오래된 건물에서 볼 수 있다.)
- -냬(-냐고 해의 준말)
- 퀙토(SI 접두어)
고유명사들도 사정은 마찬가지이다. 특히 냉전 시대가 끝나고 세계화 시대가 도래하여 외래어/외국어 사용 빈도가 높아지면서 문제가 되었다.
- 베르됭(프랑스 지명 Verdun)
- 루디 푈러(독일 축구 선수 이름)
- 포스코의 계열사에서 지은 아파트 이름인 더샾
- 중국 국수 뱡뱡면
- 궨트(영국 웨일스의 주 Gwent)[7]
- 궬로(Gwelo, 짐바브웨의 한 도시 Gweru의 옛 이름)
- 세묜 부됸늬
- 안드리 솁첸코: 다만 우크라이나어 표기 방식으로는 '안드리 셰우첸코'이다. 참고로 해당 표기는 러시아어 표기 방식이다.
- 캪틴큐(롯데칠성음료에서 만든 대중 양주)
- 펲시
- 똠얌꿍
- 나카무라 슌스케
- 아이묭(일본의 싱어송라이터)
- 도키도키 무네큥 오마츠리 타임(태고의 달인 시리즈 수록곡[8])
- 삨(선불교통카드 어플리케이션)
- 벼볌벼(아이스크림 이름) 네이버 검색
- 쬰쬬니 (롯데제과의 스틱형 캔디류)
- 얔ㅗ 아 ㅇㅗ타(빨간내복야코의 3번째 앨범)
- 반반쮺(본죽의 메뉴 중 하나)
- 숲튽훈(김장훈의 별명)
그리고 '겍', '훕', '똠', '똡', '똣', '뚭', '뚯', '띡', '씅' 등 완성형에 등재되어 있을 것 같아 보이는 글자들도 없다. 백괴사전의 https://uncyclopedia.kr/wiki/KS_X_1001 문서에 표준어인데도 표기할 수 없는 단어들의 예가 나와 있다. 반면에 '붤'[9], '싻'[10], '쏀'[11] 등 완성형에 등록되어 있지 않을 것 같은 글자가 완성형에 등록되어 있다. 또한 시기상으로 1987년에 만들어졌기 때문에, '겆'(설거지 ← 설겆이), '돐'(돌 ← 돐)[12], '뭏'(아무튼 ← 아뭏든)과 같이 1988년의 맞춤법 개정 이후로 표준어에서 탈락된 단어를 표기하기 위한 글자도 몇 개 포함하고 있다.
또한 한국어의 발음 표기를 위한 글자가 많이 빠져 있다는 점도 문제다. 예를 들어 발음 교육을 위해 '갈등', '물엿'의 발음이 /갈뜽/, /물렫/임을 표시하고자 할 때 '뜽', '렫' 자가 없어서 '갈등', '물엿'의 발음을 표기할 수 없다.
각 기업에 전산화가 시작되던 시점인 1990년 MBC에서 방영한 "똠방각하"라는 드라마는 완성형에 똠자가 없어서 프린터로 출력한 대본이나 편성표 등지에는 "돔방각하"로 표기를 해놓고 그대로 내보내거나 일단 "돔방각하"로 출력한 다음 볼펜 등을 사용해서 ㄷ을 ㄸ으로 고치는 등의 문제도 있었다. 당시 완성형의 단점으로 가장 많이 지목되던 부분이기도 했다.
2011년 네이트의 '오늘 운세'에서 마지막이 으?으?!로 끝나서 점술가가 점 보다가 급사했다며 유머짤로 퍼져나간 적이 있다. 글쓴이는 '으쌰으쌰!'라고 쓰고 싶었던 듯 한데, EUC-KR에 '쌰'가 없어서 저런 참사가 일어났다. 실은 당시에도 EUC-KR 자체는 구닥다리 인코딩으로서 웹페이지 제작시 엄연히 표준이 아니었지만, 대부분의 메이저 사이트들이 EUC-KR을 사용했다. 심지어 HTML 교육에 사용된 예제들에서도 기본틀로 제시하는 문서가 EUC-KR이었으니 별 생각 없는 웹 디자이너들이 굳이 찾아서 바꾸지도 않았던 듯하다. 이러한 모습은 2010년대까지도 계속됐다. 2020년대 시점에서도 이 문제는 네이버 뉴스 등에 존재하며, 가장 흔히 보이는 경우는 가운뎃점이 들어가는 경우이다. 한편 대통령의 발언이 깨져서 나오기도 했다. 원문은 위의 경우와 같은 으쌰으쌰이다.
긴급재난문자와 안전안내문자에도 같은 문제가 있다. 경상남도 창원시에서 코로나 확진자가 방문한 돈까스 프랜차이즈 매장 이름에 들어가는 쑝이라는 글자를 쓰지 못 해 쑈+ㅇ 으로 고쳐 안내하는 일이 있었다.[13] 부산광역시 수영구에서는 같은 프랜차이즈를 쏭(ㅆ+ㅗ+ㅇ)으로 고쳐서 안내했는데, 이 당시 지점명까지 잘못 안내하는 실수를 해서 논란이 된 적이 있었다. 확진자가 다녀간 매장으로 잘못 지목당하고 손님이 끊겨 폐업을 하게 된 점주가 청와대 국민청원 사이트에 글을 올렸는데, 이 소식을 전하는 뉴스에서도 브랜드 이름을 제대로 쓰지 못하고 '숑'으로 고쳐서 보도됐다.
어떤 사람이 배달앱으로 배달음식을 주문했는데, 요청사항에 '김빼주세요'라고 적는다는 것이 '김뺴(ㅃ+ㅒ)주세요'로 오타를 냈고 뺴라는 글자가 완성형에 없어서 영수증 출력기에서 '김?주세요'로 깨져 나오는 바람에 결국 김이 왔다는 웃지못할 사연을 SNS에 남긴 바 있다.
만일 0xA4D4의 구현방법이 널리 알려진다면 이런 일은 볼 수 없을지도 모른다. 다만 구현과 입력이 번거로워 사장된 규정이다.
위에있는 예시들을 한글 채움 문자를 포함해 완성형으로 저장하여 Gecko 기반 브라우저로 출력한 스크린샷[14][15]
6. 현재의 KS X 1001
저 2,350자 기본 완성형은 아직도 메모리 용량에 목숨 걸어야 하는 일부 분야에서 사용되고 있는데[16], 대표적인 분야가 피처폰과 중국산 스마트밴드류이다. 그렇기 때문에 일부 제조사의 핸드폰에서는 문자 메시지에서 '뷁'을 사용할 수 없다. 뿐만 아니라 앞서 언급한 '쓩' 같은 글자는 여전히 홍길동 신세를 탈출하지 못하고 있으며 심지어는 '뛔'도 마찬가지이다. 분명히 '뛔'는 있다. 하지만 핸드폰에서 뛔를 쓰려면 ㄷㄷㅜㅓㅣ의 순서로 써야 하기 때문에 중간에 '뚸'를 거쳐야 하지만 그 글자가 2,350자 안에 없다. 천지인 자판(ㆍ, ㅡ, ㅣ)을 채택하는 핸드폰의 경우 ㄷ → ㅌ → ㄸ → 뜨 → 뚜 → 뜌 → 뚸 → 뛔 순으로 써야 되는데 '뚸' 바로 앞의 '뜌'도 없다. 반면 흖은 있다. 흖은 흔하다의 준말이다. 그러나 이마저도 폰의 용량이 커지면서 서서히 사라지다가[17], 스마트폰 시대가 오면서 유니코드로 대체됐다. 스마트폰에서 가장 많이 쓰이는 OS인 안드로이드나 iOS는 글로벌 환경을 지원하기 때문에 유니코드를 쓴다.롬파일 혹은 1바이트짜리 문자 인코딩을 사용하는 게임의 한글패치를 제작할 때도, 프로그래밍에 정통해서 롬을 확장하거나 문자 인코딩을 2바이트로 늘리거나 다른 방법을 찾아 우회하지 않는 이상 들어갈 수 있는 글자 수가 정해져 있기 때문에, 완성형을 쓰는 경우가 있다. 대신 완성형도 2,350자+24자(한글 자모)+알파벳+숫자+일부 특수문자를 포함하여 대략 2,400여 자를 입력해야 하기 때문에, 롬파일의 확장 혹은 이곳 저곳의 데이터 여백에 포인터를 배치하는 것으로 입력글자수를 늘리거나, 아니면 아예 처음부터 수천자를 입력시켜놓은 중국어 롬파일을 구해서 사용하는 케이스가 많다. 이것조차 안되면 직결식 폰트를 사용해서 1바이트 환경에서도 사용할 수 있다.
책을 컴퓨터로 편집하는 데 쓰는 프로그램의 대다수가 EUC-KR 방식만을 지원하기 때문에 일본어 이름을 지니고 있는 몇몇 인물들이 생고생을 하기도 한다. 특히 일본 대중문화 개방이 이루어지면서 이런 문제가 많아졌는데, 이는 완성형이 제정됐을 때에는 아직 개방이 이루어지기 이전이었기 때문이다. 대표적인 예로 쿈과 슌을 들 수 있다. 실제로 일본 영화 러브레터가 국내에 수입될 당시, 당시에는 이 영화를 제작한 이와이 슌지(岩井 俊二, いわい しゅんじ) 감독의 슌 자를 제대로 표기할 수 없어 이와이 슈운지로 표기하는 경우가 잦았다. 또한 미즈노 슌페이는 미즈노 순페이로 개명당했다. 이외에 나카무라 순스케, 오구리 순도 마찬가지로 피해자가 됐으며, 창작물의 경우 마츠오카 슈운과 호조인 인슈운이 한국어 번역의 피해자가 됐다. 다만 이것은 인쇄할 때 쓰는 소프트웨어가 QuarkXPress[18] 구버전이어서 그렇고[19], 최근에는 인디자인으로 많이 갈아타고 있어 조만간 해결될 가능성이 있다. 비단 이건 일본어뿐 아니라 상술한 것처럼 다른 언어들도 해당되는 문제이다.
방송업계에서 쓰는 시스템도 완성형이라 특정한 단어들을 표현하는데 애를 먹기도 한다. 대표적인 예로 신화의 노래 '으쌰으쌰'는 '쌰'를 표현할 수 없어 '쌰'만 다른 프로그램을 이용해 다른 글꼴을 사용하거나, 일단 '으싸으싸'라고 쓴 다음 '싸'에 덧칠을 하는 식으로 표현했다. 이 시기 노래방 책자나 불법 복제 테이프 등에서도 ㅆ 따로 ㅑ 따로 해서 '으ㅆㅑ으ㅆㅑ'라고 표기되어 있기도 했다. 심지어 1990년에 MBC에서 방영한 드라마 똠방각하는 '똠' 자가 없어서 대본이나 편성표에는 '돔방각하'로 인쇄하는 경우도 있었다.[20] 후에 같은 MBC에서 방송한 맨도롱 또똣도 마찬가지이다. 여기서 '맨도롱 또똣'은 제주도 방언으로 미지근 뜨뜻, 다시 말해 음식이 먹기 좋을만큼 따뜻하다는 뜻이다. '똣' 자가 완성형에 없어서 일부 IPTV 등에서는 맨도롱 또돗으로 표기했다. 2016년에 라붐이 발표한 노래 '푱푱'도 완성형 문자에 없는 글자다 보니 '퐁퐁' 으로 표기되기도 했다. 이건 2020년대인 현재도 여전해서, 2020년에 발매된 오마이걸의 살짝 설렜어 (Nonstop)란 노래도 '렜'자가 완성형에 없어 완성형을 사용하는 금영엔터테인먼트 노래방 시스템과 olleh tv에서는 '렛'으로, TJ미디어 노래방 시스템에서는 '랬'으로 대체하여 표기하고 있다. 그나마 이쪽은 '렜'자가 조금 어색하게 표현된 경우는 있었지만 방송 자막은 제대로 표시됐다.
이는 대한민국의 행정 전산망도 예외가 아니다. 대한민국의 행정 전산망 역시 아직도 완성형을 쓰고 있기 때문에 일부 이름을 표기하지 못한다. 수기로 출생신고를 하던 시절에는 이런 상황을 예상할 수 없었을 것이니, 처음부터 이를 피해서 이름을 짓는 것도 불가능했다. 실제로 설믜(눈썰미의 고어)라는 사람의 경험담을 보면 전산 시스템 때문에 엄청 고생하는 것을 알 수 있다. EUC-KR을 특정 '프로그램'으로 알고 있는 것으로 보아, 문자 인코딩에 관련한 깊은 지식이 있는 블로거는 아닌 듯하다. 물론 이걸 알고 모르고를 떠나, '믜'가 입력이 안 되는 완성형 체제 자체는 까여야 마땅하다. 다만, 옛 한국어의 자음 + ㅢ는 늬, 희 등 일부를 제외하고는 모두 자음 + ㅣ로 변했기 때문에(예: 기차 ← 긔챠, 마디 ← 마듸, 거미 ← 거믜, 나비 ← 나븨, 키(신장) ← 킈, 티끌 ← 틧글, 피우다 ← 픠우다 등), 현대 한국어 정서법에 따르면 '설미'가 돼야 하긴 하다. 물론 인명이니 본인이 특이한 표기를 쓰겠다고 하면 할 말 없다. 워낙 심각한 문제이다 보니 국립한글박물관 기획전에서도 비슷한 사연을 가진 분의 졸업증명서[21]가 전시될 정도였고, 또 다른 '설믜'라는 이름을 가진 사람 역시 일상 생활에 불편을 겪은 나머지 청와대 국민청원에다가 자신의 사연을 올렸다.[22][23]
또한 언리얼 엔진과 같은 외국산 엔진의 경우, 문자를 비트맵으로 불러들여 사용하기 때문에 알파벳이나 가나처럼 문자의 수가 정해져 있다면 문제가 없겠지만 한글처럼 조합하여 표시하는 경우 문자를 표시하기 위한 비트맵 크기가 어마어마해진다. 알파벳 계열은 많아야 100개 정도, 한글은 대략 11,000글자이다. 사실 이건 PC에서 문자 처리를 글꼴을 이용해서 할 경우 비트맵으로 불러들여 처리하는 것보다 성능이 떨어지기에 도입된 방식이다. 이 때문에 2000년 이전에 개발된 게임에서 내부 글자를 글꼴로 처리하는 경우는 별로 없다. 이때의 국산 게임도 완성형 글꼴을 비트맵 파일로 만들어 표현하는 경우가 많았다.
물론 단점만 있는 것은 아니다. 국제 표준과 잘 맞아서 통신에 이용하기 수월하며, 글자가 순서대로 저장되어 있으므로 쉽게 오름차순/내림차순 정리가 가능하다는 장점이 있다(통합 완성형은 해당 안 됨, 그리고 조합형도 정렬은 됨).
포토샵 등에서 두벌식 타이핑 중에 일시적으로 앞음절의 초성이 될 자음이 종성에 일시적으로 붙는 경우[24], 그 부분에서부터 글꼴을 강제로 굴림체로 바뀌게 만드는 원인이기도 하다. 이쁘장하다 싶은 글꼴은 제작 시간과 글꼴 파일 용량을 절약하는 차원에서 '뛗', '쁎' 등 거의 쓰일 일이 없는 글자와 '똣', '훕' 등 사용빈도가 낮은 글자는 아예 빼 버리고 한글 영역에서 완성형만 집어넣기 때문에, 여기에 없는 한글을 적게 되면 포토샵 쪽에서 해당 글자가 있는 글꼴로 바꿔 버리기 때문이다. 몇몇 소프트웨어 전용 글꼴을 사용하는 한/글에서도 완성형 전용 글꼴의 경우 2,350자 이외 글자에 한해서 조합형 글꼴로 대체하고 있다. 설정에서 안 바뀌게 만들 수는 있지만(포토샵에서는 설정에서 "누락된 글리프 보호"를 체크 해제), 글자 자체가 없는 것이 고질적인 문제이다.
타이포그래피 분야, 정확히는 한글 글꼴 제작 업계에서도 완성형이 꾸준히 사용되는데, 이유는 글꼴의 제작에 시간과 예산이 한정된 경우가 있기 때문이다. 한글 전체를 글꼴로 제작하려면 11,172개 글자를 디자인해야 하는데, 단순히 산술적으로 계산해보자면 완성형 2,350자만 디자인하면 반의 반 정도만 시간과 예산을 들여도 만들 수 있다. 대표적으로 나눔스퀘어, 배달의민족 글꼴이 이런 이유로 2,350자만 지원하고 있다. 특이한 케이스는 11,172자를 전부 만든 글꼴을 놓고 2,350자만 들어간 미니 글꼴로 축소시키는 경우인데, 웹 폰트의 사용이 늘어나면서 서버 부하를 줄이기 위해 이렇게 일부러 웹 폰트를 개조하는 경우도 늘어나고 있다. 한편 최근에는 한글 폰트를 제작할 때 11172과 2350 사이의 숫자에서 타협하는 경우도 있는데, Adobe-KR-9 보충 0의 2780자를 지원하여 적당한 중간점을 갖는 글꼴들도 많이 제작되는 추세이다.[25]
7. KS X 1001에서의 한자
한자의 경우, 독음이 여러 개인 일부 한자를 그 독음 수만큼 중복 배당하는 정신 나간 짓을 저질렀다. 이에 대한 자세한 정보와 중복 한자의 목록은 KS X 1001/중복 한자 문서에 있다.일본어에서 쓰이는 신자체를 지원하지 않아 기기묘묘한 표기법들을 양산했고(일명 고자 일본어), 중국어에서 쓰이는 간체자 등의 상용자를 지원하지 않아서 중국 노래를 다루는 사이트 등지에서 해당 글자를 병음이나 파자해서 가사를 적곤 했다. 예) 你好 → ni好, 什么/什麼 → 什me 등
8. 여담
완성형 2350자 중 가장 획수가 많은 글자는 빪으로 16획이다.9. 관련 문서
[1] 그러나 해당 내용이 개정 과정에서 누락되었는지 현재 표준 해설서에는 82년판에서의 한글 낱자 위치 이동에 관련된 언급이 존재하지 않는다.[2] 해당 링크에서는 문서 제목이 KS 조합형 2기로 되어 있는데, 당시 해당 위키의 관리자가 82년판 원문을 구하지 못해 참고한 자료 중 마이컴 1990년 10월 호에 수록된 '컴퓨터와 나랏말싸미' 글에서 82년 조합형 표가 신형으로 기재된 오류가 있었던 것으로 보인다.#[3] 정작 표준 문서 내 해설서에는 '1982년에 정의된 코드 표'를 상용 조합형으로 바꿨다고 해설하는 오류가 있다.[4] Windows 3.1에서는 모종의 버그로 입력이 되긴 한다.[5] #[6] 다만 현재는 포테토칩으로 쓴다.[7] 귄트라고 부르는 경우도 있다.[8] 실제로 해당 악곡이 최초로 수록되어 나온 PS41에서는 '큥'이 ‰로 깨져 표출되었다. 현재는 '큐웅'으로 수정.[9] 일부 지역에서 '벌'의 방언으로 쓴 적이 있다.[10] 일부 지역에서 '삯'의 방언으로 쓴 적이 있다.[11] 표준어는커녕 방언조차 사용 사례가 없다. 오히려 이 글자를 적기 위해 거치는 단계인 '쎠'와 '쎼'는 완성형에 없다. 단, Windows 3.1에서는 모종의 버그로 '쎙'을 입력하면 이 글자가 입력됐다.[12] 문화어에서는 현재도 표준어이다.[13] 문자 내용[14] ![파일:lBochs PC Emulator20210712195325.png]()
해당 html 파일을 메모장으로 불러온 스크린샷으로, 용량은 태그까지 포함해서 약 2KB가 된다.[15] 표준 완성형만 지원하는 Windows 95에서 Retrozilla로 html파일을 불러온 것이다. 참고로 Retrozilla를 포함한 Gecko기반 브라우저들은 EUC-KR 또는 UHC에서만 글자가 합쳐진다.[16] 옛 도스 환경의 조합형 한글 글꼴은 오히려 2,350자 완성형 글꼴보다 용량이 적다. 초성 몇 벌, 중성 몇 벌, 종성 몇 벌(보통 초성 8벌, 중성 4벌, 종성 4벌이었다)을 디자인해 놓고 일정한 규칙에 따라 그 자형들을 조합해서(정확히는 겹쳐서, 일종의 레이어로 생각하면 된다) 1만 1172자를 출력했기 때문이다(당시에는 글꼴을 이렇게 만들고 초성, 중성, 종성을 겹쳐서 출력했다). 필요한 자형 수는 많아야 몇백 개뿐이다. 반면 완성형 글꼴은 2,350자를 하나하나 디자인해야 하기에 옛 도스 환경의 조합형 한글 글꼴보다 용량이 클 수밖에 없다. 코딩할 때도 완성형은 한글 코드와 자소가 전혀 관계 없기 때문에 일일이 코드페이지에서 찾아 줘야하지만 조합형은 자소의 코드를 합치기만 하면 글자가 완성된다.[17] 예를 들어 연아의 햅틱의 경우 위에 나타난 쓩, 뷁, 뛔, 쿈 등을 모두 표기할 수 있다.[18] 참고로 이 프로그램의 약자 중 하나가 쿽인데, 이 글자 역시 완성형에 없어서 '쿼크'로도 많이 표기했다.[19] 왜 이렇게 됐나면, 당시 구형 매킨토시에서 돌아가는 QuarkXPress는 한국 실정에 현지화된 3.3k 버전을 쓰고 있었는데, 제작사가 라이센스비를 올리자 인쇄 업계 측에서 담합해 신버전을 쓰지 않기로 하고 기존 버전을 고수해서 그렇다고 한다.[20] #[21] 이쪽은 '믜'를 '므ㅣ'로 표기했다.
[22] #[23] #[24] 종성 우선, 또는 이른바 도깨비불 현상[25] 다만 2,780자로도 쓸 수 없는 글자는 많아서 근본적인 문제 해결은 안되기는 한다.
해당 html 파일을 메모장으로 불러온 스크린샷으로, 용량은 태그까지 포함해서 약 2KB가 된다.[15] 표준 완성형만 지원하는 Windows 95에서 Retrozilla로 html파일을 불러온 것이다. 참고로 Retrozilla를 포함한 Gecko기반 브라우저들은 EUC-KR 또는 UHC에서만 글자가 합쳐진다.[16] 옛 도스 환경의 조합형 한글 글꼴은 오히려 2,350자 완성형 글꼴보다 용량이 적다. 초성 몇 벌, 중성 몇 벌, 종성 몇 벌(보통 초성 8벌, 중성 4벌, 종성 4벌이었다)을 디자인해 놓고 일정한 규칙에 따라 그 자형들을 조합해서(정확히는 겹쳐서, 일종의 레이어로 생각하면 된다) 1만 1172자를 출력했기 때문이다(당시에는 글꼴을 이렇게 만들고 초성, 중성, 종성을 겹쳐서 출력했다). 필요한 자형 수는 많아야 몇백 개뿐이다. 반면 완성형 글꼴은 2,350자를 하나하나 디자인해야 하기에 옛 도스 환경의 조합형 한글 글꼴보다 용량이 클 수밖에 없다. 코딩할 때도 완성형은 한글 코드와 자소가 전혀 관계 없기 때문에 일일이 코드페이지에서 찾아 줘야하지만 조합형은 자소의 코드를 합치기만 하면 글자가 완성된다.[17] 예를 들어 연아의 햅틱의 경우 위에 나타난 쓩, 뷁, 뛔, 쿈 등을 모두 표기할 수 있다.[18] 참고로 이 프로그램의 약자 중 하나가 쿽인데, 이 글자 역시 완성형에 없어서 '쿼크'로도 많이 표기했다.[19] 왜 이렇게 됐나면, 당시 구형 매킨토시에서 돌아가는 QuarkXPress는 한국 실정에 현지화된 3.3k 버전을 쓰고 있었는데, 제작사가 라이센스비를 올리자 인쇄 업계 측에서 담합해 신버전을 쓰지 않기로 하고 기존 버전을 고수해서 그렇다고 한다.[20] #[21] 이쪽은 '믜'를 '므ㅣ'로 표기했다.