news

200813samsungai9.jpg
삼성전자 세트 부문 선행 연구개발(R&D) 조직인 삼성리서치 산하 폴란드연구소(Samsung R&D Institute Poland)와 북경연구소(Samsung R&D Institute China-Beijing)가 각종 글로벌 AI 경진대회에서 우승을 차지하며 눈부신 성과를 이뤘다.

폴란드연구소와 북경연구소는 세계적으로 전통 있는 자동 언어 번역 워크숍 중 하나인 구술 언어 번역 국제워크숍(International Workshop on Spoken Language Translation, IWSLT)에 참가해 두 개의 개별 과제에서 1위를 차지했다. IWSLT는 올해 자연어 처리 분야에서 최고 수준의 국제학술대회인 전산언어학협회(Association for Computational Linguistics, ACL) 콘퍼런스에 포함되며 그 권위를 인정받았다.

녹취 없이 음성에서 번역으로… IWSLT E2E 분야 1위 차지한 폴란드연구소

폴란드연구소는 영어로 구성된 TED 강연을 독일어로 번역해내는 과제를 자체 연구 역량만으로 성공적으로 이행하며 2년 연속 오디오-텍스트 번역 부문 1위를 달성했다. 텍스트-텍스트 번역 부문을 포함하면 올해로 4년 연속 IWSLT 경진대회 1위를 기록하는 쾌거를 거둔 것이다.

폴란드연구소는 영어-독일어 오디오-텍스트 번역 부문에 참가해, 입력된 음성을 곧바로 번역하는 엔드 투 엔드(End-to-End, E2E) 시스템으로 과제를 해결했다.[1] E2E 시스템에 기반한 단독형 인코더-디코더 딥 뉴럴 네트워크를 사용해서, 영어와 독일어 두 언어의 텍스트를 모두 작성할 수 있도록 한 것. 녹취 과정을 포함해 음성 인식 단계의 오류가 빈번했던 전통적 시스템과 달리, E2E는 음성 입력 후 곧바로 번역이 진행돼 오류를 줄일 수 있다. E2E 음성 번역 시스템은 아직 연구 기간도 3년에 불과하고 주목도 덜한 방식이다. 폴란드연구소는 E2E 시스템을 사용해 전통적 방식을 능가하는 성과를 내며 음성 번역 연구의 선두 주자로 떠올랐다.

200813samsungai7.png
▲ IWSLT 경진대회에 참가한 폴란드연구소(Samsung R&D Institute Poland) 팀

나아가 폴란드연구소는 국제전기전자공학회(IEEE)가 개최한 DCASE(Detection and Classification of Acoustic Scenes and Events) 2020 경진대회에서 기술을 선도하는 팀으로 인정받기도 했다. DCASE는 첨단 AI 기술을 활용해 오디오 신호를 이해·해석하는 것을 목표로 하는 대회. 2019년 음향 장면 이해와 소리의 출처를 측정하는 과제에서 각각 1위를 차지했던 폴란드연구소가 올해는 ‘기계 상태 모니터링을 위한 이례적인 소리의 자율적 포착(Unsupervised Detection of Anomalous Sounds for Machine Condition Monitoring)’ 과제에 초점을 맞췄다. 정상적인 소리 샘플들 사이에서 이례적 소리를 감지해내는 과제였는데, 폴란드연구소는 40개 팀 중 2위를 기록하며 기술의 우위를 증명했다.

200813samsungai5re.jpg
▲ DCASE 경진대회에 참가한 폴란드 연구소 (Samsung R&D Institute Poland) 팀

아시아 언어 사이의 번역 능력 ‘최상’, 상위권 휩쓴 북경연구소

아시아 언어 사이의 번역 능력 평가에서도 삼성리서치의 기술력이 빛났다. 북경연구소가 IWSLT에 참가해, 일본어-중국어 간 번역 능력을 평가하는 ‘오픈 도메인 번역(Open Domain Translation)’ 과제에서 우승을 차지한 것. 이는 아시아 언어 간의 번역 연구를 활성화하고 기계 번역을 위한 웹 말뭉치[2]들의 활용과 데이터 출처에 대한 세밀한 처리를 촉진하기 위한 과제였다.

북경연구소는 일본어를 중국어로 번역하는 분야에 참여했다. 채택한 방식은 대형 번역 모델 설계를 기반으로 한 ‘상대적 위치 어텐션(Relative Position Attention)’으로, 사전 데이터 처리의 정교함을 높여 번역의 정확도를 끌어올렸다. 뿐만 아니라 바이트 페어 인코딩(Byte Pair Encoding)을 통해 단어를 의미 있는 단위로 쪼갠 결과물과, 문장을 구성한 조각들을 비교했다. 신경망 기계 번역(Neural Machine Translation, NMT) 성능을 향상시키기 위해 단일 언어 말뭉치를 본래 언어로 역번역하는 과정도 포함됐다.

200813samsungai10.jpg
▲ IWSLT 경진대회에 참가한 북경연구소(Samsung R&D Institute China-Beijing) 팀

앞서 북경연구소는 지난 6월 컴퓨터 비전 분야 세계 최고 수준 학회인 CVPR(Conference on Computer Vision and Pattern Recognition) 2020이 주최한 각종 경진대회에서도 우수한 성적을 거뒀다. △가상 환경하에서 로봇이 인간의 명령을 이해하고 올바른 행동을 할 수 있도록 유도하는 ‘체화된 인공지능 경진대회’, △시각장애인이 촬영한 이미지에 대해 알맞은 설명을 예측해내는 ‘비즈위즈 캡션 경진대회’, △다양한 언어로 영상에 대해 설명할 수 있는 모델 개발의 진행 상황을 비교·평가하는 ‘바텍스 영상 캡션 경진대회’ 등에 참가하여 각각 2위를 차지했다.

200813samsungai8.jpg

200813samsungai2.jpg
▲ CVPR 경진대회에 참가한 북경연구소(Samsung R&D Institute China-Beijing) 팀들

[1]참가자들은 두 가지 시스템 중 하나를 선택해 과제를 해결하는데, 하나는 자동 음성 인식(Automatic Speech Recognition, ASR) 후 녹취본을 기계 번역(Machine Translation, MT)으로 풀어내는 전통적 음성 번역 시스템이고, 다른 하나는 입력된 음성을 곧바로 번역하는 엔드 투 엔드(End-to-End, E2E) 시스템이다.

[2]언어 연구를 위하여 컴퓨터가 텍스트를 가공·처리·분석할 수 있는 형태로 모아 놓은 자료의 집합