정확도와 메타데이터 검색 확장성 높인「리눅스 데스크톱 검색 시스템」개발

그 동안의 여러 제약 요소를 넘어서는 리눅스 사용자를 위한 다양한 메타데이터를 기반으로 한 데스크톱검색 시스템이 개발되었다. 이로써 시맨틱 데스크톱 검색기술 개발이 오픈 소스 환경에서도 활발해질 전망이다.

ETRI는 21일, 고품질 자연어 처리에 기반한 형태소 분석기를 사용해 검색 결과의 정확도를 높이고, ID3V1, ID3V2, EXIF, IPTC등의 메타데이터를 활용하여 검색의 기능을 확장시킨 리눅스 데스크톱 검색 시스템 ‘antbear’를 개발했다고 발표했다.

고품질 자연어 처리 가능한 형태소 분석기술로 검색 정확도 높여
그 동안 윈도우 환경에서 제공되는 다양한 데스크톱 검색 기능에 비해 리눅스 환경에서의 데스크톱 검색은 몇 가지 한계가 있었다. 비글(Beagle)을 비롯하여 기존 리눅스 데스크톱 검색 시스템들은 한글뿐만 아니라 아시아권 언어(CJK: Chinese, Japanese, and Korean)에 대한 특성을 고려하지 않은 채 두 글자씩(bigram) 절단하여 색인하고 검색한다. 그러나 바이그램을 사용한 절단검색 방법은 문서의 양이 많아지면 false drop된 문서가 많이 포함되어 검색결과의 정확률이 떨어지며, 색인크기가 증가하는 단점이 있다.

예를 들어, "정보검색" 이라는 단어를 색인하는 경우, 바이그램 방법에 의해 생성되는 색인어들은 "정", "정보", "보검", "검색", "색"의 5개 음절이 색인데이터로 저장된다. 또한 사용자가 "정보검색"을 찾고자 하는 경우에는 의미적으로 관계없는 "정", "보검", "색"을 포함한 문서들까지 검색 결과에 포함되는 정보 과부하 현상이 발생한다.

그러나 antbear는 고품질 자연어 처리에 기반한 형태소 분석기를 사용해 검색 결과에 사용자의 질의어와 관계없는 문서들이 포함되는 문제를 해결하였다.

antbear는 한글뿐만 아니라 영어로 작성된 문서에 대해서도 검색을 지원하며, 중국어나 일본어 등의 아시아권 언어들도 형태소 분석기를 플러그인 형태로 추가하면 다양한 언어들을 쉽게 지원할 수 있다. 또한 이 시스템은 리눅스 커널 버전이 2.6.13이상이면 쉽게 이식 가능하다.

고품질 자연어 처리에 기반한 형태소 분석기를 사용한 리눅스 데스크톱 검색시스템 antbear의 검색화면

다양한 메타데이터 활용으로 검색 기능 확장
또다른 쾌거는 기존 데스크톱 검색 시스템은 파일 이름과 극히 제한된 일부 메타데이터(파일 크기, 위치, 수정 날짜 등)들만 검색에 활용하였으나, antbear는 ID3V1, ID3V2, EXIF, IPTC 등의 메타데이터를 활용하여 검색한다는 것이다. 사진의 경우에는 이미지 분석 기술을 활용하여 사진에 포함된 사람의 수, 흑백 또는 칼러 사진 여부, 실내 또는 실외에서 촬영된 사진 여부를 자동으로 메타데이터로 추출하는 기능도 제공한다. 이와 같은 메타데이터를 활용하면 풍경사진만 검색 할 수도 있고, 혼자 찍은 독사진도 검색할 수 있다.

antbear의 개발팀을 이끌고 있는 ETRI 음성언어정보센터 지식마이닝연구팀 장명길 팀장은 “현재 데스크톱 검색의 세계적인 추세는 기본적으로 파일의 내용 분석을 바탕으로 한 시맨틱 데스크톱 검색(개인 정보 공간으로써의 개인 PC를 공유가 가능하도록 RDF 스키마로 설계하는 등 시맨틱웹 기술을 적용하여 구현한 검색)인데, ETRI는 시맨틱 데스크톱 검색 시스템을 목표로 개발하고 있고, 향후 차세대 PC 환경의 진화의 중심에서 가장 중요한 기술로 대두될 것”이라고 밝혔다.

한국소프트웨어진흥원의 유영민 원장은 이번 antbear의 개발은 “리눅스가 한층 더 사용자들 가까이 다가서는 획기적인 전환점이 될 것이며, 향후 리눅스 데스크톱 관련 소프트웨어 기술의 개발이 활발해지는 계기가 될 것이다”고 강조했다.

이 리눅스 데스크톱 검색 시스템은 향후 ETRI에서 리눅스 업체로 기술이 이전되어 기술을 이전받은 업체에서 오브젝트 형태로 공개될 예정이다.

한편 ETRI는 지난 5월에 리눅스 데스크톱 검색을 포함한 리눅스 개인용 미디어 관리 기술을 개발하였다.

댓글

이 블로그의 인기 게시물

도꾜여행~! 여기는 꼭 가봐라

http://www.clearpointsystems.com/ewpi.php

How to use digital Signatures