서강대학교 아트&테크놀로지학과 정다샘 교수 연구팀, 신호처리 분야 저명 국제학술지 IEEE TASLPRO 논문 게재
페이지 정보
작성자 최고관리자 작성일26-04-20 14:58 조회6회 댓글0건관련링크
본문
서강대학교 아트&테크놀로지학과 정다샘 교수 연구팀, 신호처리 분야 저명 국제학술지 IEEE TASLPRO 논문 게재
▲ (좌측 상단부터 시계방향) 서강대학교 아트&테크놀로지학과 정다샘 교수, 정종민 석사, 조설아 석사과정, 이시훈 박사과정, 김동민 석사
서강대학교(총장 심종혁) 아트&테크놀로지학과 정다샘 교수 연구팀(인공지능학과 정종민 석사, 김동민 석사, 이시훈 박사과정생, 조설아 석사과정생)이 서울대학교 소형준 박사후 연구원, 미국 Carnegie Mellon University의 Chris Donahu 교수 연구팀과 공동으로 제출한 논문이 신호처리 분야 국제 저명학술지 IEEE Transactions on Audio, Speech and Language Processing (이하 TASLPRO)에 게재되었다.
게재된 논문은 'U-MusT: A Unified Framework for Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio'로, 연구팀은 해당 논문에서 다양한 음악적 모달리티 간의 번역 과제를 동시에 학습할 수 있는 범용 모델을 제안하였다.
음악은 악보 이미지, 심볼릭 악보, MIDI, 오디오 등의 다양한 모달리티로 존재하고, 이러한 모달리티 간의 번역 작업 (자동 음악 전사와 광학적 악보 인식)은 음악 정보 검색 (MIR)의 핵심 과제이다. 기존 연구들이 개별의 번역 과제에 특화된 모델을 제안하는 데에 그친 반면, 정다샘 교수 연구팀은 여러 모달리티 간의 번역 과제를 동시에 학습할 수 있는 범용 모델을 제안하였다.
해당 연구에서 제안된 모델은 피아노 악보 인식에 있어 현재 최저 수준의 기호 오류율을 달성하였으며, 세계 최초로 제안된 악보 이미지에서 바로 표현력 있는 연주 (expressive performance) 오디오를 중간 과정 없이 생성할 수 있는 모델이다. 더불어 연구팀은 제안된 모델의 학습을 위해 구축한 1300시간 이상의 악보 이미지-연주 오디오 짝 데이터셋을 공개하여 음악 정보 검색 연구계에 기여했다.
게재된 논문은 2026년 5월 4일부터 스페인 바르셀로나에서 열리는 신호처리 분야 세계 최대 규모 학회 ICASSP 2026에서도 발표될 예정이다.
댓글목록
등록된 댓글이 없습니다.



