최근 수정 시각 : 2024-08-03 15:22:09

OCR

오시알에서 넘어옴


[[컴퓨터공학|컴퓨터 과학 & 공학
Computer Science & Engineering
]]
[ 펼치기 · 접기 ]
||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||
하드웨어 구성 SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술 기계어 · 어셈블리어 · C/C++ · C# · Java · Python · BIOS · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구

기타
논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영 체제 · 데이터베이스 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크 · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템 · Git · GitHub)

1. 개요2. 언어별 인식도3. 용도4. 예시5. 제품 및 플랫폼

1. 개요

光學文字認識 (광학 문자 인식) / Optical Character Recognition (OCR)[1]

보통 컴퓨터2진법(0/1) 데이터를 폰트를 통해 인간이 인식할 수 있는 형태로 글자를 보여 준다면, OCR은 그 반대로 인간이 종이 위에 써 놓은 글씨를 인지하여 텍스트 데이터로 치환한다. 보통은 스캐너로 읽어들인 이미지 파일을 분석하여 텍스트나 워드 파일로 결과물을 내놓는다.

이미 존재하는 폰트와 대조하는 방식으로 이미지를 인식하므로, 적어도 300dpi 이상의 해상도에 필기체보단 정자로 또박또박 잘 쓴 글씨가 인식율이 더 높다. 물론 이전에 프린터로 인쇄했던 문서라면 가장 잘 인식된다.

2. 언어별 인식도

언어와 문자별로 은근히 인식도 차이가 있다. 그냥 한 줄로 쭉 쓰는 영어 및 서유럽 언어가 가장 연구가 진행되어 있어서 인식율이 매우 뛰어나다. 어지간한 영어 로마자 문서는 99.5% 제대로 인식된다고 보면 된다. 휘갈겨 쓴 필기체의 인식도도 뛰어난 편이다.

반면 한글, 한자같은 문자는 모양이 복잡하기도 하고 연구 투자도 서양에 비해 미진한 편이기 때문에 더 높은 해상도로 스캔하거나 하지 않으면 오자율이 상당하다. 손으로 쓴 한글이 특수 문자로 변환되는 건 아주 흔하다. 또한 모양이 비슷한 글자가 있어서 결과물이 야민정음으로 나오는 경우도 있다. 특히 ''을 ''으로 인식하는 오류가 가장 심해서, "-에 판하여"로 검색하면 논문이 줄줄이 나온다.(구글 검색 결과) 실생활에 쓰이는 문서(이력서나 공문서)가 소설 책같이 글자만 있는 것은 아니므로 안 그래도 떨어지는 인식율이 바닥을 달린다. 특히 표나 그림이 들어간 문서는 인식율이 최악이다. 한국의 오래된 행정 문서들이 수백 년 역사를 가진 미국보다 느리게 디지털화되고 있는 이유이기도 하다.

같은 한자라도, 비영어권 문자라도 일본어처럼 히라가나, 가타카나가 섞인 문면은 한글에 비해 훨씬 인식율이 높은 편이다. 글자 모양이 로마자만큼이나 단순한 데다 정형화되어 있어서 활자본 글자는 90% 이상 인식이 된다. (so)와 (n), (shi)와 (tsu) 정도만 빼면 웬만한 것들은 정확하다. 일본이 일본어 문헌을 컴퓨터로 표현하는 것을 연구한 역사는 꽤 유구했기도 해서 영어를 제외하면 일본어의 OCR 인식율이 가장 좋다. ソ와 ン, シ와 ツ를 문맥으로 자연스럽게 구분하기 위한 연구도 활발하다.

예전에 비해 인식율이 많이 올라간 상황이나 100% 믿지는 않는 것이 좋다. 원본 이미지는 보관하도록 하자.

OCR의 성능을 향상시키기 위해 OCR-A나 OCR-B 같은 전용 폰트도 만들어졌다. 여권의 기계판독영역에 사용되는 폰트가 OCR-B이다.

3. 용도

기본적으로 이 OCR이 가장 널리 사용되는 것은 과속 단속 카메라이다. 이 때문에 한국 번호판에서 특수목적 번호판(군용, 외교 번호판 등)을 제외하면 혼동될 수 있거나 복잡한 글자를 쓰지 않는다.

고문서를 디지털화할 때에도 사람이 타이핑하지는 않고 이렇게 OCR을 사용할 때가 많다. 애매한 단어의 경우에는 인력으로[2] 보완한다.

대한민국 여권에 로마자 이름을 적어 넣을 때도 1차적으로 OCR을 사용한다. 그래서 간혹 KIM이 KTM으로 잘못 적히거나 PARK이 RARK으로 잘못 적히는 문제가 생기기도 한다. 여권 발급 신청서를 OCR 뜬 뒤 공무원이 글자가 잘못 인식된 것을 미처 발견하지 못하고 여권 발급을 진행하면 저렇게 된다. 신용카드/체크카드 발급시에도 종종 이런 오류가 발생한다.

모바일용 구글 번역에서는 OCR을 이용한 번역을 지원한다. 인식률은 매우 괜찮은 수준. 최근 OCR 앱이 나오면서 스마트폰으로 사진을 찍고, 바로 문서로 변환할 수 있게 되었다. 영어 원서는 어느 앱이나 인식률이 높다. 한글은 TextGrabber + Translator의 성능이 괜찮다. FineReader를 만든 ABBYY에서 만든 앱으로 가격은 11,000원이다. 몇 년 전 OCR을 생각하면 훌륭하지만, 오류가 많아서 손으로 일일이 수정해야 하는 것은 변함없다. 프랑스어독일어, 베트남어다이어크리틱이 있는 언어는 Office Lens를 추천한다. 마이크로소프트에서 만들어 무료로 배포하는 앱으로, diacritic 인식률이 훌륭하다. 파파고 등에서는 이미지의 텍스트를 인식/번역하고, 기계학습 기반의 인공지능으로 텍스트 영역을 편집해서 번역된 텍스트를 합성해주는 서비스도 제공한다.

우체국에서도 OCR을 이용해 주소를 판독한다고 한다. 89년도부터 도입이 시작됐던 모양이다.

ICAO Doc 9303 문서의 MRZ를 인식할때도 쓰인다.

4. 예시

1. 네이버 클라우드 플랫폼 OCR

파일:네이버 클라우드 플랫폼 OCR.png
OCRI분야에서 가장 권위있는 경진대회인 "CDAR Robust Reading Competition" 에서 4개 분야를 석권한 네이버 Clova OCR이 최근 네이버 클라우드 플랫폼 콘솔을 통해 서비스 이용 가능해졌다. 고가의 OCR프로그램을 별도로 설치하여 사용하지 않아도 건 별 3원이라는 저렴한 가격으로 이용가능하다. 활자체의 경우 타사대비 15%이상 높은 인식률을 보이며, 필기체의 경우에도 2~3배 정도 높은 인식률을 보유한다. 네이버의 AI 기술을 활용하여 주요 비즈니스 활용에 최적화된 고성능 OCR 인식 모델을 적용시켰다. 문자 인식이 제공되는 언어는 한국어, 영어, 일본어이며, 필기체 인식은 한국어와 일본어가 지원된다. 또한 문서 레이아웃 분석 및 글자를 읽는 순서 방향을 추정하여 둥글게 곡선으로 배열되거나 기울어진 문자, 필기체 인식 등 고성능 AI 모델바탕으로 높은 수준의 정확도를 제공한다. OCR분야 가장 권위있는 글로벌 챌린지ICDAR2019 4개 분야에서 1위, CVPR 및 ICCV 국제학회 논문 선정 등 독보적인 기술이 집약되어 있다.

2. ABBYY OCR
파일:external/www.download.com.vn/ABBYYFineReader11ORC3.jpg
OCR 프로그램 중 가장 성능이 좋다고 알려진 ABBYY FineReader 11. 2022년 5월 기준 ABBYY FineReader PDF 15라는 최신버전 기준으로 1년 구독 라이선스의 가격은 139,900원이다.[3] 후지쯔 스냅스캔 시리즈 등 여러 회사의 문서처리용 고속스캐너 중에 번들로 넣어주는 모델이 있다. 문서를 스캔하면서 PDF파일로 묶는데, 그 때 OCR한 결과를 넣어서 검색가능한 PDF로 만들어준다.

애플 iOS 16의 "지능형 기능"과, 삼성 갤럭시의 빅스비 이미지 분석 기능에 OCR 기능이 포함되어 있다.

5. 제품 및 플랫폼

  • 무료
    • Windows 10, 11 캡처 도구
    • 구글 이미지 검색: 구글 검색창 오른쪽에 있는 이미지로 검색[8] 클릭. 점선으로 둘러싼 곳에 이미지를 드래그하거나 파일을 업로드. 업로드된 이미지 파일 밑에 3항목[9] 중 텍스트 항목 클릭. 업로드 된 이미지 파일 클릭 후 드래그하여 텍스트를 선택.[10]
    • ScanTexter 맥북, 아이패드, 아이폰에서 사용 가능한 AI 번역 앱으로 사진, 동영상, PDF 문서 등 다양한 디지털 콘텐츠 내 문자를 자동 추출하여 쉽게 번역할 수 있는 앱이다. https://apps.apple.com/app/id1635954549
    • 네이버 웨일: 이미지의 마우스 오른쪽을 클릭. 이미지에 있는 글자 번역 클릭. 작은 파파고 번역창에서 이미지에 있는 글자의 언어를 선택. 마우스로 영역을 지정. 작은 파파고 번역창에 인식된 글자가 나오고 동시에 번역까지 나온다.
    • MORT : PC 화면을 캡처하여 주로 실시간으로 게임을 번역하기 위해 만들어진 OCR로 당연히 이미지 OCR로도 쓸 수 있다.
    • 알PDF[12][13] 한가지 팁이 있다면, ocr 처리에 있어 여러 언어를 지정할 수 있는데, 절대로 그렇게 하지 말고 한가지 언어만 지정해서 해야 안정적이다. 2가지 이상의 언어를 선택하면 혼선이 빚어져서 거의 100% 튕긴다.
    • Capture2Text: 마우스로 영역을 지정한 부분을 인식 가능한 OCR. 일본어 만화를 보기 위해 만들어졌으며, 클립보드로 출력을 지원해서, EZTrans XP(or 구글번역), 아네모네 등과 조합해서 실시간으로 만화를 번역하며 볼 수 있다.
    • Capture2OCR: 마우스 영역 지정을 통해 이미지에서 텍스트를 뽑아 번역 해주는 OCR.
    • New OCR Free Online OCR
    • PDF24 Creator
  • 모바일

최근 네이버 Clova에서 OCR서비스를 오픈했으며, 네이버 클라우드 플랫폼 콘솔에서 Gateway API를 통해 이용 가능하다. OCR 챌린지인 'ICDAR Robust Reading Competition'에서 '19년 4개 분야를 석권, 정확도와 기술력을 인정받았다고 한다. 금액도 1건 당 3원이며, 무료 100건/월 제공된다. 다만, 개발자를 대상으로 만든 서비스이기 때문에 일반인이 사용하기엔 조금 복잡하다. 온라인 문서변환 서비스와 마찬가지로 데이터 유출 방지와 보안을 위해 믿을 수 있는 플랫폼만 이용하도록 하자. #

Adobe Acrobat Pro DC에서도 한국어 OCR을 지원해 준다.
[1] 광학표시판독(Optical Mark Recognition, OMR)과 구분해야 한다.[2] 한때 운용되었던 reCAPTCHA v1 등[3] ABBYY FineReader 12로 2016년 수능특강 물리2를 스캔한 모습 파일:ABBYY수능특강.png 그러나 이처럼 한글과 수식이 섞인 문서를 인식하려고 하면 어김없이 깨지는 모습을 보인다. 사실 인식 후 문서의 양식을 유지해 준다거나 이미지 밑에 문자를 숨겨서 검색만 가능하게 해 준다거나 하는 부가 기능이 유용한 거지 인식 기능이 엄청나게 차이 나지는 않는다.[4] 개인용 기능에 문서 비교 기능과 매월 5,000 페이지의 OCR 자동화 기능이 추가되어 있다.[5] ABBYY 본사에서 직접 판매하는 해외 링크, 표기된 가격은 위의 국내 판매처와 동일하다. 다만 자국 통화 결제는 스팀처럼 이중 환전이 있을 수 있으니 주의. 해당 본사 판매처에서는 월 구독 방식도 지원한다.[6] 한 번 구입하면 끝이 아니라, 매월 구독료를 지불해야 한다. 이는 Adobe의 CC 버전 이후 모든 제품들이 동일하다.[7] 다만 체험판으로도 제공하며 체험판 사용 기간이 만료되어도 계속 쓸 수 있다.[8] 구글 렌즈 아이콘.[9] 검색, 텍스트, 번역.[10] 모든 텍스트를 선택하려면 마우스로 전체를 드래그하거나 오른쪽 파란색 "모든 텍스트 선택" 버튼 클릭.[11] 확장자가 webp인 파일은 구글문서 변환이 안됨.[12] 2.10.3 버전 이후 OCR 인식 기능이 중단되었으나 2.3버전 이후 OCR 기능이 재개되었으며 성능이 향상되었다.[13] 물론 개인 사용자에게만 무료고, 기업이 이용하려면 유료다.[14] 텍스트에 맞춰 사진을 찍은 뒤 T자 아이콘 터치.