특징 벡터 데이터 공간의 인덱싱 방법(Indexing method of feature vector data space)

2018. 5. 3. 16:54

(19)대한민국특허청(KR)
(12) 등록특허공보(B1)

(51) 。Int. Cl.
H04N 7/28 (2006.01)
(45) 공고일자
(11) 등록번호
(24) 등록일자
2007년01월12일
10-0667741
2007년01월05일
(21) 출원번호 10-2000-0048323 (65) 공개번호 10-2001-0109067
(22) 출원일자 2000년08월21일 (43) 공개일자 2001년12월08일
심사청구일자 2005년08월11일
(30) 우선권주장 60/208,086 2000년05월31일 미국(US)
(73) 특허권자 삼성전자주식회사
경기도 수원시 영통구 매탄동 416
더 리전트 오브 더 유니버시티 오브 캘리포니아
미국 94607-5200 캘리포니아주 오클랜드 플랭크린 스트리트 1111 12층
(72) 발명자 신현두
경기도성남시분당구구미동무지개마을청구아파트510동1302호
최양림
경기도수원시팔달구우만동105우만선경아파트102동1112호
펭우
미합중국캘리포니아93106-9560산타바바라,유니버시티오브캘리포니
아
비.에스.만주나스
미합중국캘리포니아93106-9560산타바바라,유니버시티오브캘리포티
아
(74) 대리인 리앤목특허법인
이해영
심사관 : 정두한
전체 청구항 수 : 총 11 항
(54) 특징 벡터 데이터 공간의 인덱싱 방법
(57) 요약
다차 벡터 공간내에서의 유사도 검색에 사용될 수 있는 특징 벡터 데이터 공간의 인덱싱 방법이 개시된다. 본 특징 벡터 데
이터 공간의 인덱싱 방법은 (a) 특징 벡터가 집중된 셀들이 존재하는지를 판별하는 단계; 및 (b) 상기 (a) 단계에서 특징 벡
터가 집중된 셀들이 존재하는 것으로 판별되면 특징 벡터 데이터 공간을 계층적으로 인덱싱하는 단계;를 포함하는 것을 특
징으로 한다.
등록특허 10-0667741
- 1 -
본 발명에 의한 특징 벡터 데이터 공간의 인덱싱 방법은 차수(dimensionality)가 높은 벡터 공간내에서 특징 벡터들이 균
일하게 분포하지 않는 경우에 특징 벡터 데이터 공간을 미세하게 인덱싱하는 것이 가능하다.
대표도
도 1
특허청구의 범위
청구항 1.
특징 벡터 데이터 공간내에서 특징 벡터를 인덱싱하는 방법에 있어서,
(a) 특징 벡터가 집중된 셀들이 존재하는지를 판별하는 단계; 및
(b) 상기 (a) 단계에서 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 특징 벡터 데이터 공간을 계층적으로 인덱싱
하는 단계;를 포함하는 것을 특징으로 하는 특징 벡터 데이터 공간의 인덱싱 방법.
청구항 2.
제1항에 있어서, 상기 (a) 단계 이전에,
(pa-1) 상기 특징 벡터 데이터 공간을 균등한 크기를 가지는 복수 개의 셀로 분할하는 단계;를 더 포함하는 것을 특징으로
하는 특징 벡터 데이터 공간의 인덱싱 방법.
청구항 3.
제1항에 있어서, 상기 (a) 단계는,
(a-1) 셀들별 특징 벡터들의 수를 나타내는 히스토그램을 구하는 단계; 및
(a-2) 상기 히스토그램을 사용하여 특징 벡터들의 분포를 판별함으로써 특징 벡터가 집중된 셀들이 존재하는지를 판별하
는 단계;를 포함하는 것을 특징으로 하는 특징 벡터 데이터 공간의 인덱싱 방법.
청구항 4.
제1항에 있어서, 상기 (b) 단계는,
VA(vector approximation: 벡터 근사화) 파일을 사용하여 인덱싱하는 단계;를 포함하는 것을 특징으로 하는 특징 벡터 데
이터 공간의 인덱싱 방법.
청구항 5.
제4항에 있어서, 상기 (b) 단계는,
(b-1) 특징 벡터가 집중된 셀들에 대하여 서브 VA 파일을 구성하는 단계;
등록특허 10-0667741
- 2 -
(b-2) VA 파일과 서브 VA 파일을 사용하여 해당 셀들내의 특징 벡터들을 근사화하는 단계;를 포함하는 것을 특징으로 하
는 특징 벡터 데이터 공간의 인덱싱 방법.
청구항 6.
제1항에 있어서, 상기 (b) 단계는,
(b-1) 상기 (a) 단계에서 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 해당 셀들을 분할하는 단계; 및
(b-1) 상기 셀 내의 특징 벡터들을 분할된 셀들을 사용하여 근사화 함으로써 특징 벡터 데이터 공간을 계층적으로 인덱싱
하는 단계;를 포함하는 것을 특징으로 하는 특징 벡터 데이터 공간의 인덱싱 방법.
청구항 7.
특징 벡터 데이터 공간을 인덱싱하는 방법을 수행하는 프로그램 코드들을 저장하는 컴퓨터 독취 가능 기록 매체에 있어서,
(a) 특징 벡터가 집중된 셀들이 존재하는지를 판별하는 단계; 및
(b) 상기 (a) 단계에서 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 특징 벡터 데이터 공간을 계층적으로 인덱싱
하는 단계;를 포함하는 특징 벡터 데이터 공간의 인덱싱 방법을 수행하는 프로그램 코드들을 저장하는 것을 특징으로 하는
컴퓨터 독취가능 기록매체.
청구항 8.
제7항에 있어서, 상기 (b) 단계는,
VA(vector approximation: 벡터 근사화) 파일을 사용하여 특징 벡터 데이터 공간을 인덱싱하는 단계;를 포함하는 것을 특
징으로 하는 컴퓨터 독취 가능 기록 매체.
청구항 9.
제8항에 있어서,
상기 (a) 단계는,
(a-1) 셀들별 특징 벡터들의 수를 나타내는 히스토그램을 구하는 단계; 및
(a-2) 상기 히스토그램을 사용하여 특징 벡터들의 분포를 판별함으로써 특징 벡터가 집중된 셀들이 존재하는지를 판별하
는 단계;를 포함하고,
상기 (b) 단계는,
(b-1) 특징 벡터가 집중된 셀들에 대하여 서브 VA 파일을 구성하는 단계;
(b-2) VA 파일과 서브 VA 파일을 사용하여 해당 셀들내의 특징 벡터들을 근사화하는 단계;를 포함하는 것을 특징으로 하
는 컴퓨터 독취 가능 기록 매체.
등록특허 10-0667741
- 3 -
청구항 10.
특징 벡터들이 인덱싱되어 있는 특징 벡터 데이터 공간내에서 유사도를 검색하는 방법에 있어서,
(a) 특징 벡터가 집중된 셀들이 존재하는지를 판별하고, 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 해당 셀들
내의 특징 벡터들을 소정의 인덱싱 방법에 따라 계층적으로 인덱싱하는 소정의 인덱싱 방법에 따라 인덱싱된 특징 벡터 데
이터 공간내에서 유사도 검색을 수행하는 단계;를 포함하는 것을 특징으로 하는 유사도 검색 방법.
청구항 11.
제10항에 있어서, 상기 (a) 단계는,
NN(nearest neighbor: 최인접) 검색을 기초로 하는 것을 특징으로 하는 유사도 검색 방법.
명세서
발명의 상세한 설명
발명의 목적
발명이 속하는 기술 및 그 분야의 종래기술
본 발명은 특징 벡터 데이터 공간의 인덱싱 방법에 관한 것으로, 더 상세하게는 특징 벡터들을 상기 특징 벡터들의 집중도
에 따라 계층적으로 근사화함으로써 특징 벡터의 집중도가 높은 셀들에 대한 세밀한 인덱싱을 가능하게 하는 특징 벡터 데
이터 공간의 인덱싱 방법에 관한 것이다.
많은 양의 멀티미디어 데이터를 다룰때에는 데이터베이스에의 빠르고 효율적인 엑세스가 중요하다. 최근에는 멀티미디어
데이터를 생성하는 능력이 빠르게 성장하고 있으며, 그러한 데이터데이스를 다루고 멀티미디어 콘텐츠를 엑세스하는 방법
이 중요한 과제로 되고 있다. 예를들어, 일반적인 영상 수집은 수 십만 내지 수 백만 이상의 아이템에 걸쳐 이루어진다. 수
집된 영상을 저장하는 이러한 데이터베이스내의 각 객체 또는 레코드의 차수(degree)가 높다.
이러한 데이터베이스를 엑세스하기 위해서는 효율적인 인덱싱 방법을 설계할 것이 요구된다. 인덱싱 방법의 효율성은 그
인덱싱 방법에 초점을 고정함으로써 공정하게 평가될 수 있다. 예를들어, 어떤 인덱싱 방법은 스토리지 오버헤드를 최소화
하는 것에 초점을 둔다. 또 다른 어떠한 인덱싱 방법은 쿼리 범위를 효율적으로 지원하는 것에 초점을 둔다.
다차 데이터(multi-dimensional data)를 인덱싱하기 위한 인덱싱 방법이 수년간의 연구 과제가 되고 있다. 하지만, 이러한
종래의 인덱싱 방법들은 멀티미디어 데이터베이스의 경우에는 도메인 한정적 요구로 인하여 NN(nearest neighbor: 최인
접) 검색을 충분히 지원하기 위한 만족할 만한 데이터 구조가 되지 못하였다.
이러한 문제점을 해결하기 위한 다른 종래기술의 인덱싱 방법에 따르면 VA(vector approximation: 벡터 근사화) 파일을
사용한다. 하지만, 이러한 종래의 인덱싱 방법은 특징 벡터의 분포에 영향을 받을 수 있다. 즉, 상기와 같은 종래의 인덱싱
방법에 따르면, 특징 벡터들이 균일하게 분포하는 경우에는 복잡성을 현저하게 줄이는 것이 가능하지만, 특징 벡터들이 균
일하게 분포하지 않는 경우에는 인덱싱이 효율적으로 이루어지지 않는 경우가 있다는 문제점이 있다.
발명이 이루고자 하는 기술적 과제
본 발명이 이루고자 하는 기술적 과제는 특징 벡터의 집중도가 높은 셀들에 대한 세밀한 인덱싱을 가능하게 하는 특징 벡
터 데이터 공간의 인덱싱 방법을 제공하는 것이다.
본 발명이 이루고자 하는 다른 기술적 과제는 상기 특징 벡터 데이터 공간의 인덱싱 방법을 수행하는 프로그램 코드들을
저장하는 컴퓨터 독취 가능 기록 매체를 제공하는 것이다.
등록특허 10-0667741
- 4 -
본 발명이 이루고자 하는 또 다른 기술적 과제는 상기 특징 벡터 데이터 공간의 인덱싱 방법에 따라 인덱싱된 특징 벡터 데
이터 공간내에서 유사도 검색을 수행하는 유사도 검색 방법을 제공하는 것이다.
발명의 구성
상기 과제를 이루기 위하여 본 발명에 따른 특징 벡터 데이터 공간의 인덱싱 방법은 (a) 특징 벡터가 집중된 셀들이 존재하
는지를 판별하는 단계; 및 (b) 상기 (a) 단계에서 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 특징 벡터 데이터
공간을 계층적으로 인덱싱하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 특징 벡터 데이터 공간의 인덱싱 방법은 상기 (a) 단계 이전에, (pa-1) 상기 특징 벡터 데이터 공간을 균등한 크
기를 가지는 복수 개의 셀로 분할하는 단계;를 더 포함하는 것이 바람직하다.
또한, 상기 (a) 단계는, (a-1) 셀들별 특징 벡터들의 수를 나타내는 히스토그램을 구하는 단계; 및 (a-2) 상기 히스토그램
을 사용하여 특징 벡터들의 분포를 판별함으로써 특징 벡터가 집중된 셀들이 존재하는지를 판별하는 단계;를 포함하는 것
이 바람직하다.
또한, 상기 (b) 단계는, VA(vector approximation: 벡터 근사화) 파일을 사용하여 인덱싱하는 단계;를 포함하는 것이 바람
직하다.
또한, 상기 (b) 단계는, (b-1) 특징 벡터가 집중된 셀들에 대하여 서브 VA 파일을 구성하는 단계; (b-2) VA 파일과 서브
VA 파일을 사용하여 해당 셀들내의 특징 벡터들을 근사화하는 단계;를 포함하는 것이 바람직하다.
또한, 상기 (b) 단계는, (b-1) 상기 (a) 단계에서 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 해당 셀들을 분할
하는 단계; 및 (b-1) 상기 셀 내의 특징 벡터들을 분할된 셀들을 사용하여 근사화 함으로써 특징 벡터 데이터 공간을 계층
적으로 인덱싱하는 단계;를 포함하는 것이 바람직하다.
또한, 상기 다른 과제를 이루기 위하여 본 발명에 따른 컴퓨터 독취 가능 기록 매체는 (a) 특징 벡터가 집중된 셀들이 존재
하는지를 판별하는 단계; 및 (b) 상기 (a) 단계에서 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 특징 벡터 데이
터 공간을 계층적으로 인덱싱하는 단계;를 포함하는 특징 벡터 데이터 공간의 인덱싱 방법을 수행하는 프로그램 코드들을
저장하는 것을 특징으로 한다.
또한, 상기 또 다른 과제를 이루기 위하여 본 발명에 따른 유사도 검색 방법은 (a) 특징 벡터가 집중된 셀들이 존재하는지
를 판별하고, 특징 벡터가 집중된 셀들이 존재하는 것으로 판별되면 해당 셀들 내의 특징 벡터들을 소정의 인덱싱 방법에
따라 계층적으로 인덱싱하는 소정의 인덱싱 방법에 따라 인덱싱된 특징 벡터 데이터 공간내에서 유사도 검색을 수행하는
단계;를 포함하는 것을 특징으로 한다.
이하 첨부된 도면들을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명하기로 한다.
도 1에는 본 발명의 실시예에 따른 인덱싱 방법의 주요 단계들을 흐름도로써 나타내었다. 도 1을 참조하면, 본 발명의 실시
예에 따른 인덱싱 방법에서는 먼저, 전체 특징 벡터 데이터 공간내에서 VA 파일을 구성한다(단계 102). VA 파일을 구성하
기 위해서, 상기 특징 벡터 데이터 공간은 균등한 크기를 가지는 복수 개의 셀로 분할되어 있다. 본 명세서에서는 본 발명
이 효과적으로 작용하는 상황을 설명하기 위하여 특징 벡터들이 분할된(partitioned) 복수 개의 셀들 중에서 임의의 셀들
에 집중되어 있는 경우를 가정한다.
도 2에는 VA 파일을 구성하기 위한 특징 벡터 데이터 공간의 일예를 나타내었다. 도 2를 참조하면, 내부의 특징 벡터들이
01 01로 근사화되는 셀(20)과 10 11로 근사화되는 셀(22)에 특징 벡터들이 집중되어 있다. 이하에서는 이와 같이 특징 벡
터들이 집중되어 있는 셀들을 유인점(attractor)이라 칭하기로 한다.
다음으로, 전체 벡터 공간에 대하여 특징 벡터들의 분포를 나타내는 히스토그램을 구한다(단계 104). 이제, 상기 히스토그
램을 참조하여 유인점이 존재하는지를 결정한다(단계 106). 예를들어, 히스토그램 상에서 특징 벡터의 수가 소정 개수 이
상인 셀 들을 유인점으로써 결정하는 것이 가능하다. 본 실시예에서는 10개 이상인 셀을 유인점으로서 결정하는 경우를 예
로써 설명한다. 즉, 내부의 특징 벡터들이 01 01로 근사화되는 셀(20)과 10 11로 근사화되는 셀(22) 내에서 특징 벡터의
수가 10개 이상인 것으로 나타나므로, 해당 셀들을 유인점에 해당하는 셀들로서 결정한다.
등록특허 10-0667741
- 5 -
다음으로, 유인점이 존재하면 해당 셀들에 대하여 서브 VA 파일을 구성한다(단계 108). 해당 셀들은 복수 개의 서브 셀들
로 분할된다. 서브 VA 파일은 서브 셀들내에 존재하는 특징 벡터의 위치를 참조하여 결정된다.
도 3a와 도 3b에는 유인점이 존재하는 셀들을 복수 개의 서브 셀들로 분할한 예를 설명하기 위한 도면을 나타내었다. 도
3a와 도 3b를 각각 참조하면, 01 01로 근사화된 셀과 10 11로 근사화된 셀은 복수 개의 서브 셀들로 분할되어 있다. 서브
셀들 내에 존재하는 특징 벡터들의 위치를 참조하여 서브 VA 파일이 구성된다.
반면에, 유인점이 존재하지 않으면 벡터 공간내에서 근사적으로 균일성이 유지되어 있다고 할 수 있음을 의미하므로, 일반
적인 VA 파일이 사용된다. 즉, 특징 벡터 데이터 공간내의 특징 벡터를 분할된 셀 별로 그대로 근사화하여 VA 파일을 구성
한다.
이제, VA 파일과 서브 VA 파일을 사용하여 해당 셀 내의 특징 벡터들을 근사화한다. 예를들어, 01 01로 참조되는 셀 내에
존재하는 특징 벡터 데이터(302)와 특징 벡터 데이터(304)는 각각 01 01 01 10와 01 01 01 11로 근사화된다. 또한, 10 11
로 참조되는 셀 내에 존재하는 특징 벡터 데이터(322)와 특징 벡터 데이터(324)는 각각 10 11 00 01과 10 11 10 10로 근
사화된다. 이로써, 해당 셀의 서브 VA 파일이 구성됨으로써, 해당 셀은 VA 파일과 서브 VA 파일이 결합된 파일로써 인덱
싱된다. VA 파일과 서브 VA 파일이 결합된 파일은 HVA(hierachical vector approximation) 파일이라 칭할 수 있다.
상기와 같은 인덱싱 방법에 따르면 특징 벡터 데이터 공간을 특징 벡터의 분포를 참조하여 계층적으로 근사화 함으로써 해
당 셀을 인덱싱한다. 계층적인 인덱싱은 특징 벡터의 집중도가 높은 셀들에 대한 세밀한 인덱싱을 가능하게 한다. 특히, 상
기와 같은 본 발명에 의한 방법에 따르면 차수(dimensionality)가 높은 벡터 공간내에서 특징 벡터들이 균일하게 분포하지
않는 경우에 상기 특징 벡터들을 보다 효율적으로 인덱싱한다. 다시 말하면, 특징 벡터 데이터가 집중되는 경우에 대처하
기 위하여 특징 벡터 데이터 공간내의 특징 벡터 데이터의 분포에 따라 근사화 구조가 조정된다.
이하에서는 도 1을 참조하여 설명한 본 발명에 따른 특징 벡터 공간의 인덱싱 방법에 따라 계층적으로 인덱싱된 특징 벡터
데이터 공간내에서 유사도 검색(similarity search)을 수행하는 과정을 설명한다.
본 발명의 실시예에 따른 유사도 검색 방법에 따르면 도 1을 참조하여 설명한 본 발명에 따른 특징 벡터 데이터 공간의 인
덱싱 방법을 사용하여 인덱싱된 특징 벡터 데이터 공간내에서 유사도 검색을 수행한다. 상기 특징 벡터 데이터 공간내에서
특징 벡터들이 집중되어 있는 셀들내의 특징 벡터들은 서브 VA 파일을 사용하여 근사화되어 있다. 예를들어, 01 01 01 10
로 근사화된 쿼리점에 대하여 유사도 검색을 수행되는 경우에는, 특징 벡터 데이터 공간내에서 01 01로 근사화된 셀이 검
색된 셀로서 선택되고 상기 셀내에서 01 10로 근사화된 셀이 존재하는지를 판별한다. 만일, 상기 셀내에서 01 10로 근사
화된 셀이 존재하는것으로 판별되면 해당 셀이 검색된 셀로써 결정된다.
상기와 같은 유사도 검색 방법은 차수(dimensionality)가 높은 벡터 공간내에서 특징 벡터들이 균일하게 분포하지 않는 경
우에도 특징 벡터 데이터 공간내에서 쿼리점과 유사한 특징을 가지는 특징점을 세밀하고 정확하게 검색하는 것이 가능하
다. 검색 방법에는 NN 검색을 포함한 다양한 검색 방법이 적용될 수 있다.
도 1을 참조하여 설명한 실시예에서는 두 단계의 계층적 인덱싱을 수행하는 것을 예로써 설명하였으나 더 많은 단계의 계
층적 인덱싱을 수행하는 것이 가능하다. 또한, 도 1을 참조하여 설명한 실시예에서는 유인점이 존재하는지를 판별하기 위
하여 히스토그램을 사용하는 것을 예로써 설명하였으나 당업자에 의하여 적절한 다른 분삭 방법을 사용하도록 변경 또는
수정하는 것이 가능하다. 즉, 첨부된 청구항들에 의하여 정의되는 본원 발명의 범위는 상기 실시예에 한정되지 않는다.
또한, 상기와 같은 본 발명에 따른 인덱싱 방법은 개인용 또는 서버급의 컴퓨터내에서 실행되는 프로그램으로 작성 가능하
다. 상기 프로그램을 구성하는 프로그램 코드들 및 코드 세그멘트들은 당해 분야의 컴퓨터 프로그래머들에 의하여 용이하
게 추론될 수 있다. 또한, 상기 프로그램은 컴퓨터 독취 가능 기록 매체에 저장될 수 있다. 상기 기록 매체는 자기기록매체,
광기록 매체, 및 전파 매체를 포함한다.
발명의 효과
상술한 바와 같이 본 발명에 의한 특징 벡터 데이터 공간의 인덱싱 방법은 차수(dimensionality)가 높은 벡터 공간내에서
특징 벡터들이 균일하게 분포하지 않는 경우에 특징 벡터 데이터 공간을 미세하게 인덱싱하는 것이 가능하다.
등록특허 10-0667741
- 6 -
또한, 본 발명에 의한 유사도 검색 방법은 차수(dimensionality)가 높은 벡터 공간내에서 특징 벡터들이 균일하게 분포하
지 않는 경우에도 특징 벡터 데이터 공간내에서 쿼리점과 유사한 특징을 가지는 특징점을 세밀하고 정확하게 검색하는 것
이 가능하다.
도면의 간단한 설명
도 1은 본 발명의 실시예에 따른 특징 벡터 데이터 공간의 인덱싱 방법의 주요 단계들을 나타낸 흐름도이다.
도 2는 VA 파일을 구성하기 위한 특징 벡터 데이터 공간의 일예를 나타낸 도면이다.
도 3a와 도 3b는 유인점이 존재하는 셀들을 복수 개의 서브 셀들로 분할한 예를 설명하기 위한 도면이다.
도면
도면1
등록특허 10-0667741
- 7 -
도면2
도면3a
등록특허 10-0667741
- 8 -
도면3b
등록특허 10-0667741
- 9 -

dslss0937-3

특징 벡터 데이터 공간의 인덱싱 방법(Indexing method of feature vector data space)

+ Recent posts

티스토리툴바