resource detail

SeqFusionNet: 순서 인식을 위한 혼합 모델과 전 세계적으로 통합된 음향 표현

2025-09-09 19:01 | 추천 : 0 | 댓글 : 0
동물들은 주로 울음소리를 통해 정보를 소통하며, 이러한 음성 직접 사용은 종 보전 및 생물 다양성 추적에 필수적입니다. 기존 시각적 접근법은 거리와 주변 환경에 의해 자주 제한되며, 반면에 소리에 기반한 모니터링은 동물들 자체에 집중하여 시각적 기술보다 더 효과적이고 간단합니다. 이 논문에서는 SeqFusionNet이라는 동물 소리 분류 모델을 소개하며, 이는 Transformer의 순차적 인코딩과 MLP의 글로벌 인식을 통합하여 튼튼한 전 세계적 특징 추출을 달성합니다. 연구는 네 가지 일반적인 음향 데이터 세트(돼지, 새, 도시 소리, 해양 포유류)를 수집하고 구성하는 것으로 시작했으며, 종 간의 음성 특징의 적용 가능성과 모델의 인식 능력을 탐구하는 광범위한 실험을 수행했습니다. 실험 결과, SeqFusionNet의 동물 소리 분류 효능은 95.00%의 정확도로 네 가지 돼지 울음 유형을, 94.52%와 95.24%의 정확도로 각각 아홉 개와 여섯 개의 조류 범주를, 96.43%와 97.50%의 정확도로 각각 열다섯 개와 열한 개의 해양 포유류 유형을 식별하며, 열 개의 도시 소리 범주에서 94.39%의 정확도를 달성했습니다. 비교 분석은 우리 방법이 기존 접근법을 능가함을 보여줍니다. UrbanSound8K와 같은 참고 모델과 비교하여, SeqFusionNet은 종 간에 강력한 견고성과 일반화를 보여줍니다. 본 연구는 야생동물 보존, 생태학적 연구, 환경 소리 분석 응용을 지원하는 확장 가능하고 효율적인 자동 생물음향 모니터링 프레임워크를 제공합니다.
Key Points
  • SeqFusionNet은 Transformer의 순차적 인코딩과 MLP의 글로벌 인식을 조합하여 동물 소리의 견고한 전 세계적 특징 추출을 통해 높은 분류 정확도를 달성합니다.
  • 네 가지 일반적인 음향 데이터 세트(돼지, 새, 도시 소리, 해양 포유류)를 통해 광범위한 실험이 수행되었으며, 다수의 동물 소리 유형에 대한 높은 인식 능력을 입증했습니다.
  • SeqFusionNet은 기존의 접근 방식을 능가하며, 야생동물 보존 및 생태학적 연구를 위한 확장 가능하고 효율적인 자동 생물음향 모니터링 도구를 제공합니다.