[[컴퓨터공학|컴퓨터 과학 & 공학
Computer Science & Engineering
]]- [ 펼치기 · 접기 ]
- ||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colkeepall><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||
하드웨어 구성 SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품 기술 기계어 · 어셈블리어 · 바이오스 · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속 연구 및 기타 논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영체제(멀티태스킹 · 프로세스 스케줄링 · 데드락 · 식사하는 철학자 문제 · 뮤텍스 · 세마포어 · 인터럽트) · 데이터베이스 · 컴퓨터 언어 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 어휘 분석 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 마크업 언어 · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크(네트워크 포트) · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템) · 난수생성
1. 개요2. 인공지능 모델3. 사용 예
3.1. 인식 및 식별 (Recognition & Identification)3.2. 위치 특정, 탐지 및 분할 (Localization, Detection & Segmentation)3.3. 움직임, 추적 및 비디오 분석 (Motion, Tracking & Video Analysis)3.4. 장면 및 맥락 이해 (Scene & Context Understanding)3.5. 기타 판별 과제3.6. 생성 및 변환 (Generation & Transformation)
4. 평가5. 관련 문서6. 관련 기업7. 관련 인물1. 개요
computer vision컴퓨터 공학의 한 분야로 컴퓨터로 시각(vision) 데이터를 처리하는 분야이다. 카메라와 센서가 인간의 눈의 기능을 한다면, 컴퓨터 비전은 이 시각 데이터를 처리하는 인지능력이다. 경찰학적으로는 사람의 얼굴을 인식하여 신원 데이터를 조회하는 기술로 응용되며, 군사적으로는 피아식별을 통해 사살해야 하는 대상을 찾아내고, 생태학적으로는 야생동물의 이동경로를 추적하거나, 의학적으로는 영상의학과 원격 수술에 응용되고 있다.
컴퓨터 비전은 영상 처리와 패턴 인식을 포함하는 분야로, 2D 벡터를 사용하여 이미지 데이터를 표현하고 분석한다. 이미지의 각 픽셀을 2D 벡터로 표현하고, 영상 처리 기법을 적용하여 이미지를 조작하고 분석한다. 또한, 2D 벡터 기반의 기계 학습 알고리즘을 사용하여 패턴 인식 문제를 해결하는 데에도 활용된다.
2. 인공지능 모델
- CNN : 컨볼루션 신경망. 2012년 인공지능 학회에서 처음으로 발표된 내용이며 반박의 여지가 없는 인공지능 혁명의 시작을 알리는 알고리즘이자 컴퓨터 비전의 핵심이 되는 알고리즘이다. 딥러닝을 공부하게 되면 제일 처음으로 접하게 되는 신경망이자 지금도 그 중요도가 매우 높은 알고리즘으로 대우받고 있다. 실제 아래에 설명한 분야들은 다 이 알고리즘을 활용한 분야이다.
- classification : 이미지가 무슨 이미지인지 분류하는 일이다. 고양이 사진을 고양이라고 판단하는 것과 같다.
- object detection : 이미지에 물체가 어디에 있는지 네모 박스를 치는 일이다. 고양이 사진에서 고양이 부분에 네모난 영역을 치는 것과 같다.
- semantic segmentation : 이미지에 물체가 무엇인지 픽셀 단위로 분류하는 일이다. 고양이 사진에서 고양이 부분을 떠내는 것과 같다. 이 때 고양이가 2마리여도 둘 다 고양이라고 판단한다.
- instance segmentation : 이미지에 물체가 어디에 있는지 픽셀 단위로 판단하는 일이다. 고양이 사진에서 고양이 부분을 떠내되, 고양이마다 다르게 분류해야 한다. 즉, 2마리의 고양이는 서로 달라야 한다.
- self-supervised Learning
- GAN
- autoencoder
- VAE
- flow-based model
- diffusion model
- score based model
- NeRF
- super resolution
3. 사용 예
3.1. 인식 및 식별 (Recognition & Identification)
- 이미지 분류 (Image Classification): 고양이 이미지, 자동차 이미지 등 이미지 전체의 주된 내용 분류 과제.
- 세부 분류(Fine-grained Classification): 애완견의 품종의 품종이 시베리안 허스키인지 혹은 치와와를 분류하는 과제처럼 상위 분류의 더 세밀한 하위 카테고리를 분류하는 태스크
- 얼굴 인식 / 분석(Facial Recognition / Analysis)[1]: 얼굴을 식별하거나 얼굴의 속성(나이, 성별, 표정)을 분석하는 과제.
- 광학 문자 인식(Optical Character Recognition, OCR): 이미지 속 텍스트를 인식하는 태스크
- 손글씨 인식(Handwritten character recognition, HCR): 사람이 쓴 손글씨를 텍스트로 인식하는 태스크. 넓게 보면 OCR의 일종이라고 할 수도 있으나 다른 OCR 과제보다 정확성이 훨씬 떨어지는 경향이 많아 따로 분리해서 이야기하는 경우가 많다.
3.2. 위치 특정, 탐지 및 분할 (Localization, Detection & Segmentation)
- 객체 탐지(Object Detection): 객체의 위치를 바운딩 박스(Bounding Box)로 표시하고 분류하는 과제.
- 이미지 분할(Image Segmentation):
- 시맨틱 분할 (Semantic Segmentation): 픽셀 단위로 클래스를 분류함. (ex) 도로 픽셀, 하늘 픽셀)
- 인스턴스 분할(Instance Segmentation): 개별 객체 인스턴스까지 픽셀 단위로 구분함. (ex) 1번 사람 픽셀, 2번 사람 픽셀)
- 파놉틱 분할(Panoptic Segmentation): 시맨틱 분할과 인스턴스 분할을 결합한 형태.
- 자세 추정(Pose Estimation): 사람이나 객체의 주요 관절(Keypoints) 위치를 특정함.
- 랜드마크 탐지(Landmark Detection) / 키포인트 탐지 (Keypoint Detection)[3]: 얼굴의 눈, 코, 입 위치나 객체의 특정 지점 등 주요 지점의 정확한 위치를 찾는 데 중점을 둔 과제
- 경계선 탐지 (Boundary/Edge Detection): 객체나 영역의 외곽선(경계)을 정밀하게 찾는 과제.
3.3. 움직임, 추적 및 비디오 분석 (Motion, Tracking & Video Analysis)
- 객체 추적(Object Tracking): 비디오에서 특정 객체를 연속적으로 따라가는 태스크.
- 모션 트래킹(Motion Tracking)
- 광학식 모션 캡쳐, 립모션을 이용한 손의 움직임 감지, 오큘러스 퀘스트의 외부 적외선 카메라를 이용한 손 움직임 감지 등 영상정보로부터 관절의 위치를 역산하여 움직임을 구현한다.
- 광학 흐름 추정 (Optical Flow Estimation): 프레임 간 픽셀의 이동 벡터를 추정한다.[4]
- 시각적 주행 측정(Visual Odometry): 카메라가 탑재된 기계가 찍는 사진들로 기계 자신의 이동과 회전을 측정하는 기술
- 비디오 분석(Video Analysis): 행동 인식(Action Recognition), 이벤트 감지(Event Detection) 등 비디오 전체의 내용을 이해함.
3.4. 장면 및 맥락 이해 (Scene & Context Understanding)
- 장면 이해(Scene Understanding): "해변에서 일몰을 보고 있는 장면"같은 이미지의 전체적인 상황이나 환경을 이해함.
- 이미지 캡셔닝(Image Captioning): 이미지 내용을 설명하는 자연어 텍스트(캡션)를 자동으로 생성함.
3.5. 기타 판별 과제
- 이미지 검색 / 매칭(Image Retrieval / Matching): 주어진 이미지와 유사한 이미지를 데이터베이스에서 찾거나, 다른 이미지에서 동일한 지점을 찾는 태스크
3.6. 생성 및 변환 (Generation & Transformation)
- 이미지 생성(Image Generation): 특정 조건(텍스트 설명 등)에 맞는 새로운 이미지를 생성함. (ex) GAN, 디퓨전 모델)
- 이미지 복원 / 개선(Image Restoration / Enhancement): 저화질, 노이즈 등 손상된 이미지 품질을 개선함. (ex) 노이즈 제거, 초해상화, 흐림 제거)
- 3D 복원(3D Reconstruction): 2D 이미지나 비디오 시퀀스로부터 3차원 객체/장면의 형태와 구조를 복원함.
- 스타일 전이(Style Transfer): 콘텐츠 이미지의 구조(내용)와 스타일 이미지의 텍스처, 색감, 패턴(스타일)을 분리하고, 분석된 콘텐츠와 스타일 정보를 결합해 새로운 이미지를 생성하거나 기존 이미지를 변환하는 과제
4. 평가
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[인공지능 벤치마크#s-3.2|3.2]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[인공지능 벤치마크#|]][[인공지능 벤치마크#|]] 부분을
참고하십시오.5. 관련 문서
6. 관련 기업
7. 관련 인물
[1] 가장 흔히 볼 수 있는 컴퓨터 비전. 휴대폰 카메라로 할 수 있는 QR 코드/바코드 스캐닝, 페이스북의 얼굴 인식 등, 생각보다 많은 일상생활 분야에 사용된다. 아이폰의 Face ID 또한 적외선 카메라를 이용한 보안성 높은 얼굴 인식이다.[2] LiDAR가 아닌 카메라로 주변 환경을 감지하는 경우. 테슬라가 대표적이다.[3] 자세 추정은 인체에 특화된 키포인트 탐지의 한 종류로 볼 수 있다.[4] 광학 컴퓨터 마우스가 이 기술을 사용해서 움직임을 측정한다. 아랫쪽에서 나오는 빨간 빛과 관련이 있다.