board detail

SeqFusionNet: 연속성을 고려한 전 세계적으로 통합된 음향 표현을 위한 하이브리드 모델

2025-09-09 19:01 | 추천 : 0 | 댓글 : 0
동물들은 주로 그들의 소리를 통해 정보를 전달하며, 이러한 음성 사용은 종 보존과 생물 다양성 추적에 필수적입니다. 기존의 시각적 접근법은 종종 거리와 주변 환경에 의해 제한되지만, 소리를 기반으로 한 모니터링은 동물들 자체에 집중함으로써 훨씬 더 효과적이고 직관적입니다. 이 논문은 SeqFusionNet이라는 동물 소리 분류 모델을 소개하며, 이는 강력한 글로벌 특징 추출을 위해 Transformer의 연속적 인코딩과 MLP의 전 지구적 인식을 통합합니다. 연구에는 네 가지 일반적인 음향 데이터셋(돼지, 새, 도시 소리, 해양 포유류)을 수집하고 조직하는 작업이 포함되었으며, 여러 종에 걸쳐 음성 특징의 적용 가능성과 모델의 인식 능력을 탐구하는 광범위한 실험을 진행했습니다. 실험 결과, SeqFusionNet은 동물 소리 분류에서 뛰어난 효율성을 입증했습니다: 돼지 소리 네 가지 유형을 95.00%의 정확도로 식별하며, 새 소리 아홉 개와 여섯 개 유형을 각각 94.52% 및 95.24%의 정확도로 구별하고, 해양 포유류 열다섯 개와 열한 개 유형은 각각 96.43% 및 97.50%의 정확도를 달성했으며, 도시 소리 열 개 유형에서는 94.39%의 정확도를 기록했습니다. 비교 분석 결과, 우리의 방법이 기존 접근법을 능가함을 보여줍니다. UrbanSound8K의 참조 모델과 일치할 뿐만 아니라, SeqFusionNet은 종에 걸친 강력한 견고성과 일반화 능력을 보여줍니다. 이 연구는 생태 보호, 생태학 연구 및 환경 소리 분석 응용을 지원하는 자동화된 생물음향 모니터링을 위한 확장 가능한 효율적인 프레임워크를 제공합니다.