정보검색

1. 정보검색의 개요2. 정보검색의 역사

2.1. 초기 정보검색 (1940년대)2.2. 1950년대, 정보검색 발전2.3. 1960년대, 정보검색 변화2.4. 1970년대, 온라인 정보검색2.5. 1980년대, 정보검색과 기술 발전2.6. 1990년대, 인터넷과 정보검색2.7. 2000년대 이후, 도전과 변화

3. 정보검색시스템

3.1. 정의3.2. 구성요소3.3. 색인의 종류3.4. 적합성 피드백(Relevance Feedback)

4. 정보검색시스템 유형

4.1. 데이터 검색 시스템 (Data Retrieval System)4.2. 참조 정보검색시스템 (Reference-Retrieval System)4.3. 전문 검색시스템 (Text-Retrieval System)4.4. 질의응답시스템 (Question-Answering System)4.5. 지능형 정보검색시스템 (Intelligent Information Retrieval System)

5. 학술정보 데이터베이스

1. 정보검색의 개요

정보검색(Information Retrieval, IR)이란, 수집된 정보를 분석, 조직, 표현, 그리고 축적하여, 이를 기반으로 사용자가 필요한 정보를 찾을 수 있게 해주는 과정 전체를 의미한다. 이 과정은 주로 정보의 축적과 검색으로 나누어진다.

검색(retrieval): 질문에 적합한 정보를 찾아내는 결과적인 행위.
탐색(search): 데이터베이스 내의 정보를 체계적으로 조사하는 과정적인 행위.

일반적으로 사람들이 "정보검색"이라고 생각할 때는 협의의 개념, 즉 정보를 찾는 행위만을 의미하는 경우가 많다.

위키피디아의 정의에 따르면, 정보검색은 문헌의 내용, 문헌 자체, 메타데이터, 데이터베이스의 정보 찾기 등을 포함한다.

<colbgcolor=#0079c1><colcolor=#fff> 정보검색과 관련된 기타 용어
데이터 검색(Data Retrieval)	정확한 질의어로 조건에 맞는 결과를 찾는 것. 예시: ISBN으로 서지데이터베이스에서 검색.
문헌 검색(Document Retrieval)	주어진 질의어를 만족시키는 데이터보다는 특정 주제와 관련된 정보를 찾는 것이 목적이며, 대부분 자연어 텍스트 기반으로 검색된다.

<colbgcolor=#0079c1><colcolor=#fff> 정보검색의 구성요소
인적요소	정보의 최종이용자, 생산자, 색인자, 전문 정보검색자 등
물적요소	축적된 정보와 이를 통한 정보검색시스템[1]

2. 정보검색의 역사

<rowcolor=#fff> 연대	개요	주요 역사
1940년대	수동, 반기계화된 시스템	Bush Memex
1950년대	정보검색 이론 및 실험의 기틀 마련, 최초의 컴퓨터기반의 검색시스템 개발	Taube의 유니시스템, Luhn의 KWIC색인과 단어 출현 빈도
1960년대	컴퓨터의 본격적 활용, 오프라인 배치 시스템	MEDLARS 배치 검색 서비스 및 크랜필드, SMART 등의 대규모 검색 실험 실시
1970년대	온라인 검색 시스템 다수 개발	MEDLINE, DIALOG, ORBIT, LEXIS 등의 온라인 서비스 시작
1980년대	대규모의 온라인 데이터베이스 데이터통신, CD-ROM의 활용	다양한 데이터베이스 산업의 급성장
1990년대	인터넷(WWW)의 등장	온라인 데이터베이스의 원격 접근, 네트워크를 통한 타도서관의 OPAC 접근
2000년 ~ 현재[2]	WWW의 급성장, 디지털 도서관의 등장	웹 자원과 디지털 자원의 확대, 디지털 도서관 구축, 웹 기반 데이터베이스, 웹 기반 OPAC 시스템

정보검색(Information Retrieval)은 Calvin N. Mooers가 1950년에 문헌에서 처음 언급한 개념이다. 그러나 그 이전부터 반기계화된 검색시스템이 존재하였다.

2.1. 초기 정보검색 (1940년대)

1940년대: 주로 목록 카드와 수작업 검색.
1940년: 학문의 발전으로 문헌의 자동화된 검색 시스템 필요성 대두.
1945년: Vannevar Bush가 "As We May Think"에서 Memex 기계를 제안, 연상색인법(Associative Indexing)의 중요성을 강조.

정보검색의 개념은 1950년 Calvin N. Mooers에 의해 처음 소개되었지만, 이전부터 반기계화된 검색 시스템이 있었다.

1940년대 학문의 발전과 문헌 증가로 정보검색 시스템의 필요성이 대두되었다. 1945년, Bush, Vannevar는 'As We May Think'에서 Memex라는 기계를 제안하였다. 이 기계는 오늘날의 검색시스템의 원형인 연상색인법을 활용하였다.

2.2. 1950년대, 정보검색 발전

1951년: Mortimer Taube가 유니텀시스템(Uniterm System)을 도입. 키워드 색인 방식의 시작.
1954년: 컴퓨터를 사용한 첫 검색 실시, 정보검색 시스템의 기원.
1950년대 후반: Hans Peter Luhn이 KWIC 색인과 통계적 기법 도입.

1950년대는 정보검색 분야의 기틀을 마련하는 중요한 시기였다.

1951년, Taube, Mortimer는 연상색인법을 바탕으로 유니텀시스템을 구현하였으며, 이는 키워드 색인 방식을 최초로 도입한 시스템이다.

1954년에는 컴퓨터를 활용하여 최초의 검색을 시도하였고, 이는 현대의 정보검색시스템의 발단이다.

1950년대 후반, Luhn, Hans Peter는 KWIC 색인을 제안하며 통계적 기법을 도입하였다. 이후의 연구는 단어 출현 빈도를 중심으로 진행되었다.

2.3. 1960년대, 정보검색 변화

1960년대: 컴퓨터 사용 본격화, 오프라인의 배차검색 서비스 시작.
1964년: 미국 의학도서관(NLM)의 MEDLARS가 배차 검색 서비스 시작, 1971년에 온라인으로 전환.

1960년대에는 컴퓨터의 본격적인 도입과 함께 오프라인 배치검색 서비스가 시작되었다. 대표적으로 미국 의학도서관의 MEDLARS와 이후 MEDLINE, 그리고 크랜필드 실험 등이 이 시기의 주요 연구였다.

2.4. 1970년대, 온라인 정보검색

록히드 항공사의 DIALOG, SDC의 ORBIT 등 대규모 데이터베이스가 온라인 서비스 시작.
국내: 한국과학기술정보센터가 TECHNOLINE 서비스 시작
일본에서는 JICST의 JOIS-I 서비스 개시

1970년대에는 대규모 데이터베이스와 온라인 정보검색 시스템이 등장하였다. 한국에서는 TECHNOLINE, 일본에서는 JOIS-I가 서비스되었다.

2.5. 1980년대, 정보검색과 기술 발전

개인용 컴퓨터 보급, CD-ROM 등 대용량 저장매체 등장, 정보 통신망 발달.
1985년: CD-ROM 생산 시작

1980년대에는 개인용 컴퓨터, CD-ROM 등의 기술 발전과 함께 데이터베이스가 급증하였다.

2.6. 1990년대, 인터넷과 정보검색

인터넷, 특히 WWW의 등장으로 데이터베이스 성장 및 저렴한 정보 통신비용으로 최종 이용자들에게 직접 검색 가능

1990년대는 인터넷의 등장과 함께 정보검색 분야에 혁명이 일어났다. 디지털 자원의 대량화와 디지털 도서관의 등장은 정보검색을 획기적으로 발전시켰다.

2.7. 2000년대 이후, 도전과 변화

웹의 확장, 컴퓨터 및 네트워크 기술 발전으로 다양한 디지털 자원의 효율적인 구축 및 서비스 가능.
클라우드 서비스 등장으로 보다 쉬운 접근 가능.
현재: 정보 모델링, 자동 분류, 데이터 시각화, 기계학습, HCI, 딥 러닝 등이 포함된 복잡한 환경

최근의 연구는 텍스트 위주의 검색에서 멀티미디어 검색 시스템으로의 발전을 추구하고 있으며, 디지털 도서관의 활용성과 접근성을 높이는 방향으로 연구가 진행되고 있다.

정보검색 분야의 발전은 지속적이며, 디지털 시대의 요구와 기술 발전에 따라 변화하고 있다.

3. 정보검색시스템

3.1. 정의

정보검색시스템은 도서관의 소장 문헌 검색을 위한 출발점으로, 이용자가 필요로 하는 정보를 수집, 가공, 논리적 축적 후, 정보요구 발생 시 적합한 정보 제공하는 시스템이다.

목적

적합한 문헌 검색 및 부적합 문헌 배제이다.

발전

초기 도서관 중심에서 시작되어 현재 다양한 상업기관의 정보자원을 대상으로 확장되었다.

정보검색의 어려움

문헌의 복잡한 의미와 이용자의 정보요구 간의 매칭이 어려움.

3.2. 구성요소

문헌집합(Document): 검색의 대상이 되는 데이터. 예: 도서관의 OPAC.
색인(Index): 검색 대상 단어를 문헌에서 추출하여 문헌리스트 생성.
검색모델: 검색의 순위화 및 매칭을 담당. 예: 불리언(Boolean) 모델, 벡터(Vector) 모델.
중개자(Broker): 인터페이스의 역할을 수행, 이용자와 시스템을 연결.
이용자: 정보검색 과정에 영향을 주는 요소.

3.3. 색인의 종류

수동 색인 vs 자동 색인: 색인 작업을 행하는 주체에 따라.
주제색인 vs 비주제색인: 색인어의 유형에 따라.
자연언어색인 vs 통제언어색인: 색인어의 통제 여부에 따라.

3.4. 적합성 피드백(Relevance Feedback)

검색의 질과 양 개선을 위한 방법.

명시적 피드백과 암묵적 피드백으로 구분.

4. 정보검색시스템 유형

정보검색시스템은 검색 대상의 정보 유형, 데이터베이스 구축 방법, 검색 방식 등에 따라 주로 다섯 가지로 분류될 수 있다.

4.1. 데이터 검색 시스템 (Data Retrieval System)

정의: 가장 기본적인 형태의 정보검색시스템으로, 단어나 수치로 표현된 정형화된 데이터 항목을 데이터베이스로 축적하고 검색한다.
구축: 일반적으로 ORACLE, DB2, INFORMIX, SYBASE와 같은 상용 DBMS를 활용하여 데이터베이스를 구축하고 검색한다.
예시: 과학기술 데이터, 수치 및 통계 데이터, 비즈니스 데이터 등. 여론조사, 정치 및 경제 통계 데이터를 포함한 ICPSR가 대표적이다.

4.2. 참조 정보검색시스템 (Reference-Retrieval System)

정의: 일차정보인 도서, 논문, 보고서 등에 대한 접근점을 제공하는 이차정보 데이터베이스를 검색 대상으로 한다.
특징: 서지 정보, 초록, 디지털화된 원문 등을 포함할 수 있으며, 이를 통해 사용자가 일차정보에 쉽게 접근할 수 있다.
검색 형태

축적 (Ad Hoc): 긴 시간 동안 축적된 서지 정보 데이터베이스를 대상으로 하는 일상적인 검색행위.
여과 (Filtering): 새롭게 저장되는 데이터만 검색 대상으로 하며, 저장된 질의를 반복 사용하는 검색 형태. SDI 서비스가 대표적이다.

4.3. 전문 검색시스템 (Text-Retrieval System)

정의: 문헌의 전문을 포함하는 데이터베이스에서 전문을 직접 검색하는 시스템이다.
차이점: 참조 정보검색시스템은 서지와 초록을 기반으로 검색되며, 전문은 결과 리스트의 링크로만 연결되어 있음. 그러나 전문 검색시스템은 전문 자체나 그 일부에 대한 검색을 제공한다.
대표적인 예시: LEXISNEXIS, Westlaw 등.

4.4. 질의응답시스템 (Question-Answering System)

정의: 사용자의 자연어 질의에 대한 정답을 문헌 내에서 직접적으로 탐색하여 제공하는 시스템. 이는 자연어 처리 기술에 중점을 둔다.
특징

질의 분석, 적합한 정보 검색, 그리고 정답 추출의 세 단계로 구성됨.
자연어 처리 기술의 활용: 형태소 분석, 구문 분석, 의미 분석 등을 통해 질의를 검색 가능한 형태로 변환.
지식베이스 기반 추론을 허용하는 시스템과 그렇지 않은 시스템으로 분류됨.
예시: 자연언어 인터페이스를 활용하는 데이터 검색시스템이나, 지식베이스에 기반하여 정답을 추론하는 시스템.

4.5. 지능형 정보검색시스템 (Intelligent Information Retrieval System)

정의: 인간의 사고과정과 논리적인 문제 해결 과정을 검색 과정에 포함시킨 시스템. 이는 인공지능 기술과 연계되어 이용자의 문제를 보다 정밀하게 해결하려고 한다.
특징

자연어 처리 기술과 전문가시스템(Expert System)이 주로 사용됨.
자연어처리 기술의 시작: 1950년대의 기계번역시스템과 1960년대의 SHRDLU 시스템 연구.
전문가시스템: 인간의 지식을 기반으로 하는 지식베이스 시스템. 주요 구성 요소로는 사용자 인터페이스, 지식베이스, 추론 엔진이 있음.
예시: DENDRAL, MYCIN, PROSPECTOR. 중개자 전문가시스템으로는 Peter Ingwersen이 제안한 Mediator 모델, DIALOG의 CONIT과 같은 시스템이 있다.

5. 학술정보 데이터베이스

[1] 데이터베이스, 검색엔진, 인터페이스 포함[2] 예전: 재현율 중요시, 최근: 정확율 중요