색인(Indexing) 이란?
효율적인 검색을 위해 문서를 미리 가공해두는 과정을 의미 합니다.
색인 과정
① 색인(indexing) : 데이터(문서)가 검색될 수 있는 구조로 변경하기 위해 원본 문서를
검색어 토큰들로 변환하여 저장하는 일련의 과정
② 인덱스(index) : 색인 과정을 거친 결과물 또는 색인된 데이터가
저장되는 저장소 이며 문서들의 논리적인 집합을 표현하는 단위
③ 검색(Search) : 인덱스에 들어있는 검색어 토큰들을 포함하고 있는 문서를 찾아가는 과정
④ 질의(Query) : 사용자가 원하는 문서를 찾거나 집계 결과를 출력하기 위해 검색 시 입력하는 검색어 또는 검색 조건
색인 방법
전조합 색인의 종류
입력된 표제로부터 키워드를 선정하여 각 키워드가 접근점이 되도록 순열시켜 키워드 수 만큼의 색인기입을 생성합니다.
이에, 색인을 구성하는 개념의 조합이 검색보다 이전에 조합되어 색인으로 부여되는 형태 입니다.
① KWIC(Keyword in context)
제목이 해당 내용을 나타내는 원칙에 기초하며 문서의 제목은 문서의 한 줄 요약인 것으로 여겨집니다.
이에, KWIC 색인은 문맥을 그대로 유지하기 위해 제목의 나머지 부분과 함께 제목의 각 중요한 단어 아래에 항목을 만듭니다.
ex) 대학 도서관의 도서 분류(식별 코드 1300)
1단계 : 우선 제목에서 중요한 단어나 키워드를 선택하며 관사, 전치사, 접속사 및 기타 중요하지 않은 단어나 용어를 생략하여 수행됩니다.
👉 도서 분류 대학 도서관
2단계 : 키워드를 선택한 후 컴퓨터는 특정 항목에 대한 중요한 단어가 항상 맨 왼쪽이나 중앙에 표시되도록 제목을 옆으로 이동합니다.
👉 대학 도서관 도서 분류 1300
👉 대학 도서관 도서 분류 / 1300
👉 UNIVERSITY 도서관 도서 분류 / 1300 도서관 도서 분류
👉 / 대학 도서 분류 1279
3단계 : 문서의 모든 색인 항목이 생성된 후 각 항목은 알파벳 순서로 적절한 위치에 정리 됩니다.
👉 대학 도서관 도서 분류 / Classification of 1300
👉 CLASSIFICATION of Books in a University Library 1300
👉 LIBRARY / Classification of Books in a University 1300
👉 UNIVERSITY Library / Classification of Books in a 1300
② KWOC(Keyword out of context)
시스템에서는 키워드 또는 액세스 포인트가 줄 시작 부분의 정상적인 위치에서 가장 왼쪽으로 이동하며 색인 파일에 알파벳 순서로 정리 됩니다.
ex) 인도 도서관 전산화
👉 COMPUTERIZATION 인도 도서관 전산화 1300
👉 INDIA 인도 도서관 전산화 1300
👉 LIBRARIES 인도 도서관 전산화 1300
후조합 색인의 종류
색인을 구성하는 개념의 조합이 발생하는 시점이 검색 시 발생하는 경우이며
색인 시 각각의 개념을 독립적인 색인어로 문서에 부여 한 후 이용자가 검색 시 마음대로 조합해서 검색 합니다.
ex) 문서번호 문헌명
👉 21 한국의 수학교육
👉 22 미국의 수학교육
👉 23 한국의 고등학교 수학교육
👉 24 미국의 고등학교 수학교육