인간을 능가하는 이미지 인식능력의 소프트웨어

트렌드

HOME > 트렌드 > 디자인 리포트

해외 리포트

등록일2015.03.01 작성자 서효진(nyqueen80) 조회수4560

마이크로소프트 리서치(Microsoft Research)는 최근 <렉터파이어에 대한 깊은 탐구: 인간 수준의 성능을 능가하는 이미지넷 분류(Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification)>라는 제목의 학술 논문을 발표하였다. 이 논문에서 그들은 시각 인식 도전에서 인간 수준의 성능을 능가하는 새로운 렉터파이어 모델을 제안하고 있다.

(전체 논문은 다음의 링크에서 내려 받을 수 있습니다. http://arxiv.org/abs/1502.01852, 출처: 코넬 대학교)

©fastcodesign

이미지넷(ImageNet)은 워드넷(WordNet) 분류 체계에 따라 조직화한 이미지데이터 베이스이다. 현재 이미지 넷은 노드(node)마다 평균 500개 이상의 이미지데이터를 가지고 있다. 이 소프트웨어는 앞으로 연구원, 교육자, 학생 등에게 유용한 자원이 될 것이다.

©ImageNet

마이크로소프트는 이미지넷이 10만 개의 테스트 이미지 내용을 4.94%의 오차율을 보이며 인식했다고 발표했다. 이것은 같은 실험에서 인간이 5.1%의 오차율을 보인 것과 비교된다.

이러한 결과를 얻기 위해 베이징의 리서치 팀은 훈련이미지 120만 개와 검증 이미지 5 만개, 테스트 이미지 10만 개를 포함하는 이미지넷 2012 분류 데이터셋을 분석하였다. 연구진은 인간이 전반적인 인식에서 더 나은 부분이 있지만, 시스템이 이 시나리오에서는 더 나은 수행 결과를 보였다고 말한다. 인간은 양과 소를 구분하는 데 어려움이 없는 반면, 컴퓨터는 이런 간단하지만, 비정형화된 과제에는 완벽하지 못하다고 마이크로소프트의 수석 연구원 지안 선(Jian Sun)은 밝힌다. 또, 그는 하지만 양의 품종 차이에 따른 구분은 인간보다 컴퓨터가 더 나은 결과를 나타낸다며, 컴퓨터는 이미지의 세부사항, 질감, 형태와 맥락을 파악하도록 훈련될 수 있고, 그래서 인간이 관찰할 수 없는 차이를 볼 수 있다고 한다.

©Microsoft

정보의 홍수 속에 데이터의 적절한 활용이 더욱 중요해지면서 최근 빅데이터(big data) 기술이나 기계 학습(machine learning)이 주목받고 있다. 빅데이터(big data) 기술은 기존 데이터베이스 관리 도구로 자료를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술(위키백과 인용)이고, 기계 학습(machine learning)은 단순히 미리 입력된 규칙을 따르기보다는 수많은 데이터로부터 컴퓨터가 스스로 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다. 이런 기술들은 인터넷 검색이나 휴대폰 음성인식기능, 기업의 광고 등 알게 모르게 우리 생활에 널리 사용되는 기술이다. 이 같은 기술은 증강현실이나 가상현실 기술이 보편화하고 시각 정보는 넘쳐나게 되면서 이미지 데이터의 활용에도 널리 이용될 전망이다. 이번 마이크로소프트의 실험은 기계 학습을 통해 인간 수준의 시각 인식과제를 수행하는 기계 알고리즘 개발을 할 수 있는 날이 머지않았음을 보여주었다.

©Microsoft Research

마이크로소프트의 이번 연구 결과는 인터렉션의 다음 흐름을 위한 첫걸음이 될 것이라는 패스트컴퍼니(Fast Company)의 디자인 전문매체 코 디자인(co.design)의 기사를 간단히 소개하려고 한다.

이미지넷(ImageNet)의 이미지들은 멋진 사진이라기보다는 아주 평범한 120여만 장의 이미지를 제공한다. 하지만 이미지넷이 중요한 이유는 전 세계 과학자들이 자신의 소프트웨어에 이미지 인식을 가르치고 테스트하는데 사용하는 중요한 이미지 모음이기 때문이다. 해를 거듭할수록 이런 이미지들에 무엇이 들어있는지 식별하는 알고리즘이 향상되고 있다. 마이크로소프트는 이미지넷의 10만 개의 테스트 이미지의 내용을 4.94%의 오차율을 보이며 인식했다고 발표했다. 이것은 같은 실험에서 인간이 5.1%의 오차율을 보인 것과 비교된다. 바꿔 말하면 마이크로소프트는 경쟁업체를 이겼을 뿐만 아니라 스스로 게임에서 인간을 이겼다고 할 수 있다. 마이크로소프트의 시스템이 인간보다 우수한 점은 개의 120가지 다른 종을 구별할 수 있도록 하는 등의 "미립자(fine grain)"라는 재료에서 온다. 그리고 이것이 인터페이스의 미래에 있어서 중요한 발전이다.

©Microsoft

마이크로소프트의 홀로렌즈(Hololens)와 매직 립(Magic Leap)같은 디지털 안경이 시장에 진출함에 따라 우리 주변의 모든 일상적인 객체에 인터페이스와 정보를 추가하면서 마이크로소프트의 시스템은 현실감을 증대하려고 할 것이다. 그런데 식료품 가게 선반의 모든 시리얼 상자에 RFID 칩을 부착하지 않고 시스템을 실행할 수 있는 두 가지 방법이 있다.

우선, 첫 번째로 위치정보를 들 수 있다. 홀로렌즈 특허 출원은 전 세계를 클라우드로 연결된 지도를 구축하는 것을 기술하고 있다. 그래서 만약 당신이 말하고 걸어서 공원을 통과한다면 모든 나무는 지도의 데이터베이스에 연동되고 태그 될 것이다. 그리고 당신이 어떤 지점을 통과할 때 안경은 실시간으로 관련 정보를 제공할 수 있다.

두 번째는 이미지 인식이다. 같은 종류의 기술을 페이스북은 친구의 얼굴에 태그를 다는 데에 사용한다. 이 시나리오에서 만약 당신이 증강현실 안경을 낀 채로 정지 표지판을 봤다면 당신의 안경은 인간이 그렇듯이 그 자체의 시각적 논리를 통해 그것이 정지 표지판인지 알게 될 것이다.

의심할 여지 없이 미래의 증강 현실 시스템은 이 두 가지의 조합을 사용할 것이다.

홈 자동화도 객체 인식기술의 폭넓은 혜택을 받기는 마찬가지이다. 보안 웹캠은 이미 움직임을 추적하고 얼굴을 인식하지만, 만약 마이크로소프트의 키넥트(Kinect) 카메라에 거실의 모든 물체를 인식할 수 있는 알고리즘이 장착되었다고 상상해보자. 당신이 "엑스박스(Xbox), 내가 키를 어디에 두었지?"라고 말하면 엑스박스는 방을 스캔하고 당신에게 알려줄 것이다. 특정 데이터에서 인간을 능가하는 놀라운 결과를 보여주지만, 그런데도 이미지 분석 플랫폼의 한계는 있다. 하지만 사용자 경험 디자인에서 더 나은 이미지 인식 소프트웨어에 전적으로 의지하는 순간이 있고 무한한 발전 가능성을 가진 분야이기 때문에, 우리는 이 기술을 통해 공상 과학 시나리오를 꿈꿀 수 있다.

기본적으로 마이크로소프트는 이런 종류의 기술을 앞으로 빙(Bing)의 이미지 검색 기능 등을 지원하기 위해 사용할 수 있을 것이고, 더 나아가 이미지와 관련된 수많은 산업에 활용할 수 있을 것이다.

*기사자료 참고: fastcodesign.com, Microsoft Research

한국디자인진흥원 디자인DB.com / 한국디자인진흥원 페이스북
본 콘텐츠의 저작권은 저자 또는 제공처에 있으며, 이를 무단 이용하는 경우 저작권법 등에 따라 법적 책임을 질 수 있습니다. 본 콘텐츠를 블로그, 개인 홈페이지 등에 게재 시에는 반드시 출처를 밝혀주시기 바랍니다.
* 외부필자에 의해 제공된 콘텐츠의 내용은 designdb의 입장과 다를 수 있습니다.

Tag

#Microsoft Research #I

링크주소복사

관련 사이트