최근 수정 시각 : 2019-11-08 02:02:36

OCR

1. 예시2. 개요3. 제품

1. 예시

파일:external/www.download.com.vn/ABBYYFineReader11ORC3.jpg
OCR 프로그램 중 가장 성능이 좋다고 알려진 ABBYY FineReader 11. 2019년 4월 현재 가장 최신 버전인 14 기준으로 개인용은 239,000원.[1] 후지쯔 스냅스캔 시리즈 등 여러 회사의 문서처리용 고속스캐너 중에 번들로 넣어주는 모델이 있다. 문서를 스캔하면서 PDF파일로 묶는데, 그 때 OCR한 결과를 넣어서 검색가능한 PDF로 만들어준다.

2. 개요

OCR (optical character recognition). 한국어로 풀자면 광학식 문자 판독.

보통 컴퓨터가 이진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR 은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다. Adobe Acrobat도 OCR 기능이 있다.

이미 존재하는 폰트와 대조하는 식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식률이 더 높다. 물론 이전에 프린터로 인쇄했던 문서라면 가장 잘 인식된다.

언어/문자별로 은근히 인식률이 차이가 있다. 그냥 한 줄로 쭉 쓰는 영어 및 서유럽 언어가 가장 연구가 진행되어 있어서 인식률이 매우 뛰어나다. 어지간한 영어 문서는 99.5% 제대로 인식된다고 보면 된다. 휘갈겨 쓴 필기체의 인식률도 뛰어난 편이다. 반면 한글, 한자같은 문자는 모양이 복잡하기도 하고 연구 투자도 서양에 비해 미진한 편이기 때문에 더 높은 해상도로 스캔하거나 하지 않으면 오자율이 상당하다. 손으로 쓴 한글이 특수 문자로 변환되는 건 아주 흔하다. 또한 모양이 비슷한 글자가 있어서 결과물이 야민정음으로 나오는 경우도 있다(...). 특히 '관'을 '판'으로 인식하는 오류가 가장 심해서, "-에 판하여"로 검색하면 논문이 줄줄이 나온다.(#네이버 검색 결과) "에 머하여"는 의외로 안 나온다. 실생활에 쓰이는 문서(이력서나 공문서)가 소설 책같이 글자만 있는 것은 아니므로 안 그래도 떨어지는 인식률이 바닥을 달린다. 특히 표나 그림이 들어간 문서는 인식률이 최악이다. 한국의 오래된 행정 문서들이 수백 년 역사를 가진 미국보다 느리게 디지털화되고 있는 이유이기도 하다.

일본어 중 히라가나, 가타가나만으로 된 경우는 양호하다. 글자 자체가 정형화되어 있어서 활자본 글자는 90% 이상 인식이 된다. ソ(so)와 ン(n) 정도만 빼면 웬만한 것들은 정확하다. 전각과 반각 문서에도 있지만 일본이 자국어를 컴퓨터로 표현하는 것을 연구한 역사는 꽤 유구하다. 물론 ソ와 ン를 문맥으로 자연스럽게 구분하기 위한 연구도 활발하다.

예전에 비해 인식률이 많이 올라간 상황이나, 100% 믿지는 말 것. 원본 이미지는 보관하는 게 신상에 좋다.

네이버랩(네이버는 서비스 종료했다)이나 기타 회사에서 웹을 통해 OCR 프로그램/서비스를 제공하고 있는데, 아무리 그래도 신뢰도 높은 고가의 프로그램/장비들보단 기능이 떨어지는 편이다. 온라인 문서변환 서비스와 마찬가지로, 데이터 유출 방지와 보안을 위해 믿을 수 있는 사이트만 이용하도록 하자.

대한민국 여권에 영문 이름을 적어 넣을 때도 1차적으로 OCR을 사용하는 것으로 보인다. KIM이 KTM으로 잘못 적히거나 PARK이 RARK으로 잘못 적히거나 JIWON이 JIWOW로 잘못 적히는 문제는 OCR이 아니라면 일어날 수 없는 문제이다. OCR을 뜬 뒤 직원이 글자가 잘못 인식된 것을 미처 발견하지 못하고 여권을 발급하면 저렇게 된다. 신용카드/체크카드 발급시에도 종종 이런 오류가 발생한다.

모바일용 구글 번역에서는 OCR을 이용한 번역을 지원한다. 인식률은 매우 괜찮은 수준.

우체국에서도 OCR을 이용해 주소를 판독한다고 한다. 89년도부터 도입이 시작됐던 모양.

최근 OCR 앱이 나오면서 스마트폰으로 사진을 찍고, 바로 문서로 변환할 수 있게 되었다. 영어 원서는 어느 앱이나 인식률이 높다. 한글은 TextGrabber + Translator의 성능이 괜찮다. FineReader를 만든 ABBYY에서 만든 앱으로 가격은 11,000원이다. 몇 년 전 OCR을 생각하면 훌륭하지만, 오류가 많아서 손으로 일일이 수정해야 하는 것은 변함없다. 프랑스어독일어, 베트남어diacritic이 있는 언어는 Office Lens를 추천한다. 마이크로소프트에서 만들어 무료로 배포하는 앱으로, diacritic 인식률이 훌륭하다.

Adobe Acrobat Pro DC에서도 한국어 OCR을 지원해 준다.

3. 제품



[1] ABBYY FineReader 12로 2016년 수능특강 물리2를 스캔한 모습 파일:ABBYY수능특강.png 그러나 이처럼 한글과 수식이 섞인 문서를 인식하려고 하면 어김없이 깨지는 모습을 보인다. 사실 인식 후 문서의 양식을 유지해 준다거나 이미지 밑에 문자를 숨겨서 검색만 가능하게 해 준다거나 하는 부가 기능이 유용한 거지 인식 기능이 엄청나게 차이 나지는 않는다.[2] 개인용 기능에 문서 비교 기능과 매월 5,000 페이지의 OCR 자동화 기능이 추가되어 있다.[3] 다른 OCR 제품들과 달리 한 번 구입하면 끝이 아니라, 매월 구독료를 지불해야 한다. 이는 Adobe의 CC 버전 이후 모든 제품들이 동일하다.[4] 물론 개인 사용자에게만 무료고, 기업이 이용하려면 유료다.[5] 2.10.3 버전 이후 OCR 인식 기능이 중단되었으므로 구버전을 다운로드해야한다.

분류