인공지능학과 장두성 교수 연구팀, 자연어처리 최고 학회 'ACL 2026' 구두 발표 선정
페이지 정보
작성자 최고관리자 작성일26-06-22 18:34 조회21회 댓글0건관련링크
본문
인공지능학과 장두성 교수 연구팀, 자연어처리 최고 학회 'ACL 2026' 구두 발표 선정

▲ (좌측 상단부터 시계방향) 인공지능학과 장두성 교수, 구명완 교수, 이인성 석사과정, 신용섭(아텍 21), 유해준 박사과정
모교 인공지능학과 NLP&ISDS 연구실 장두성 교수 연구팀(인공지능학과 박사과정생 유해준, 석사과정생 이인성, 학부생 신용섭)이 제출한 논문이 자연어처리 분야 세계 최고 권위 학술대회인 ACL 2026(The 64th Annual Meeting of the Association for Computational Linguistics) 본회의(Main Conference)에 게재 승인되었다.
게재된 논문은 ‘Omni-Embed-Audio: Leveraging Multimodal LLMs for Robust Audio-Text Retrieval’로, 연구팀은 멀티모달 대규모 언어모델(LLM)을 활용해 실제 사용자의 검색 의도에 강건한 오디오-텍스트 검색 모델을 제안하였다.
기존 오디오-텍스트 검색 모델은 음성·음향에 대한 상세한 설명문(캡션) 형태의 질의를 기준으로 평가되어왔으나, 이는 사람들이 실제로 검색하는 방식과 크게 달라 실용적 강건성을 제대로 측정하지 못한다는 한계가 있었다. 특히 대규모 언어모델의 보편화로 사용자의 질의는 의문형, 명령형, 배제 조건 등으로 점차 복잡해지고 있다. 연구팀은 이러한 실제 검색 행태를 반영하기 위해, 질문·명령·키워드·패러프레이즈·배제형 부정 질의의 다섯 가지 유형으로 구성된 새로운 오디오 검색 평가 벤치마크 User-Intent Queries(UIQ)를 제안하였다.
연구팀이 제안한 Omni-Embed-Audio(OEA) 모델은 텍스트와 오디오를 하나의 멀티모달 언어모델로 함께 인코딩하여 공유 임베딩 공간에 정렬하는 방식을 채택하였다. 그 결과 전통적인 텍스트-오디오 검색에서는 기존 최고 수준 모델(M2D-CLAP)과 대등한 성능을 보이면서도, 텍스트-텍스트 검색에서 22%의 상대적 성능 향상을, 그리고 음향적으로 유사하지만 의미가 다른 오디오를 구분하는 ‘난적(hard negative)’ 판별에서 뚜렷한 우위(HNSR@10 +4.3%p, TFR@10 상대 +34.7%)를 달성하였다. 이는 대규모 언어모델을 이용하여 복잡한 질의에 대해 더 우수한 의미 이해 능력을 갖춘 인코더를 확보할 수 있음을 입증한 사례이다.
해당 논문은 전 세계에서 제출된 12,148편 중 상위 15%에 해당하는 높은 평가(strong accept)를 받아 구두 발표(oral presentation) 논문으로 선정되었다. 논문은 2026년 7월 미국 샌디에이고에서 열리는 ACL 2026에서 7월 6일 구두 발표될 예정이다.
댓글목록
등록된 댓글이 없습니다.



