- 빠르고 정확하게 데이터 검색하는 딥 바이너리 리프레젠테이션 러닝 알고리즘
서울대 공대는 컴퓨터공학부 송현오 교수 연구팀(정연우 석박통합과정)이 딥러닝 네트워크를 이용해 빠르고 정확한 데이터 검색을 가능하게 하는 바이너리 리프레젠테이션(binary representation)을 얻는 최적화 알고리즘을 고안했다고 11일 밝혔다.
기존의 구글 이미지 검색과 같은 데이터 검색 분야에서는 딥러닝 네트워크로 리프레젠테이션을 먼저 얻은 다음, 벡터 양자화(vector quantization) 같은 미분 불가능한 이진화 (binarization) 후처리 과정을 통해 검색 속도 효율이 더 높은 바이너리 리프레젠테이션을 계산해 사용하고 있다. 이 과정에서 딥러닝 네트워크로 얻은 리프레젠테이션의 정확도가 손실되는 문제가 발생하기도 한다.
이러한 문제를 해결하기 위해 연구팀은 데이터 유사도 정보를 잘 표현하며 동시에 스파스(sparse)한 바이너리 해시 코드를 학습할 수 있는 최적화 알고리즘을 고안했다.(그림1) 이 알고리즘은 최적의 스파스 바이너리 해시 코드를 찾는 단계와 그 코드를 바탕으로 딥러닝 기반 거리 학습 단계로 나눠 단계적으로 최적화한다.
또 연구팀은 최적의 스파스 바이너리 해시 코드를 찾는 조합 최적화(combinatorial optimization) 문제가 그래프 문제 중 하나인 최소 비용 흐름(minimum-cost flow) 문제와 동치관계에 있으며 다항 시간(polynomial time) 내에 최적의 해를 찾을 수 있음을 증명했다.(그림2)
연구진은 이러한 최적화된 스파스 바이너리 해시 코드를 이용해 해시 테이블을 생성했다. 머신러닝 벤치마크 데이터셋인 Cifar-100와 ImageNet에서 각각 검색 속도가 98배와 478배 향상됐으며 정확도 또한 향상된 결과를 얻었다.
송 교수는 “이번 알고리즘 고안을 통해 정확도 손실없이 478배의 검색 속도가 향상된 놀라운 결과를 가져왔다”며, “최근 각광받는 인공지능 검색 분야에 획기적인 발전을 가져올 것”이라고 설명했다.
이번 연구(Efficient end-to-end learning for quantizable representation)는 머신러닝 분야 최고 학회 중 하나인 ICML18에 7월에 게재되며 구연발표 논문으로도 선정됐다.
한편 송 교수의 머신러닝 연구실(https://mllab.snu.ac.kr/)에서는 수학 및 알고리즘적 사고력이 우수하고 머신러닝 연구에 관심이 있는 학생들을 석박통합과정으로 모집 중이다.
자료제공 : 공과대학 대외협력실(02-880-9148)