본문 바로가기

사이트 내 전체검색


 

HOME > 새소식 > 모교 소식
모교 소식

인공지능학과 장두성 교수 연구팀, 자연어처리 최고 학회 'ACL 2026' 구두 발표 선정

페이지 정보

작성자 최고관리자 작성일26-06-22 18:34 조회17회 댓글0건

본문

인공지능학과 장두성 교수 연구팀, 자연어처리 최고 학회 'ACL 2026' 구두 발표 선정

35dbc021e3b14bc77029f44434d7005a_1782120856_1467.jpg

 ▲ (좌측 상단부터 시계방향) 인공지능학과 장두성 교수, 구명완 교수, 이인성 석사과정, 신용섭(아텍 21), 유해준 박사과정


   모교 인공지능학과 NLP&ISDS 연구실 장두성 교수 연구팀(인공지능학과 박사과정생 유해준, 석사과정생 이인성, 학부생 신용섭)이 제출한 논문이 자연어처리 분야 세계 최고 권위 학술대회인 ACL 2026(The 64th Annual Meeting of the Association for Computational Linguistics) 본회의(Main Conference)에 게재 승인되었다.

 

게재된 논문은 ‘Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval’로, 연구팀은 멀티모달 대규모 언어모델(LLM)을 활용해 실제 사용자의 검색 의도에 강건한 오디오-텍스트 검색 모델을 제안하였다.


기존 오디오-텍스트 검색 모델은 음성·음향에 대한 상세한 설명문(캡션) 형태의 질의를 기준으로 평가되어왔으나, 이는 사람들이 실제로 검색하는 방식과 크게 달라 실용적 강건성을 제대로 측정하지 못한다는 한계가 있었다. 특히 대규모 언어모델의 보편화로 사용자의 질의는 의문형, 명령형, 배제 조건 등으로 점차 복잡해지고 있다. 연구팀은 이러한 실제 검색 행태를 반영하기 위해, 질문·명령·키워드·패러프레이즈·배제형 부정 질의의 다섯 가지 유형으로 구성된 새로운 오디오 검색 평가 벤치마크 User-Intent Queries(UIQ)를 제안하였다.

 

연구팀이 제안한 Omni-Embed-Audio(OEA) 모델은 텍스트와 오디오를 하나의 멀티모달 언어모델로 함께 인코딩하여 공유 임베딩 공간에 정렬하는 방식을 채택하였다. 그 결과 전통적인 텍스트-오디오 검색에서는 기존 최고 수준 모델(M2D-CLAP)과 대등한 성능을 보이면서도, 텍스트-텍스트 검색에서 22%의 상대적 성능 향상을, 그리고 음향적으로 유사하지만 의미가 다른 오디오를 구분하는 ‘난적(hard negative)’ 판별에서 뚜렷한 우위(HNSR@10 +4.3%p, TFR@10 상대 +34.7%)를 달성하였다. 이는 대규모 언어모델을 이용하여 복잡한 질의에 대해 더 우수한 의미 이해 능력을 갖춘 인코더를 확보할 수 있음을 입증한 사례이다.

 

해당 논문은 전 세계에서 제출된 12,148편 중 상위 15%에 해당하는 높은 평가(strong accept)를 받아 구두 발표(oral presentation) 논문으로 선정되었다. 논문은 2026년 7월 미국 샌디에이고에서 열리는 ACL 2026에서 7월 6일 구두 발표될 예정이다.

  • 페이스북으로 보내기
  • 트위터로 보내기
  • 구글플러스로 보내기

댓글목록

등록된 댓글이 없습니다.

게시물 검색

 


COPYRIGHT 2007 THE SOGANG UNIVERSITY ALUMNI ASSOCIATION ALL RIGHTS RESERVED
서강대학교총동문회 | 대표 김광호 | 사업자등록번호 : 105-82-61502
서강동문장학회 | 대표 김광호 | 고유번호 : 105-82-04118
04107 서울시 마포구 백범로 35 아루페관 400호
02-712-4265 | alumni@sogang.ac.kr
개인정보보호정책 / 이용약관 / 총동문회 회칙 
[상단으로]
PC 버전으로 보기