resource detail

돼지 MutBERT: 돼지의 기능적 요소 예측을 위한 경량 유전체 기초 모델군

2026-06-20 07:01
돼지(Sus scrofa)는 경제적으로 중요한 가축종이자 가치 있는 생의학 모델입니다. 돼지의 유전체는 길들이기와 선택에 의해 형성된 규제적 특성을 지니고 있으며, 이러한 특성은 인간이나 모델 생물 데이터를 기반으로 훈련된 유전체 언어 모델(gLMs)로는 잘 포착되지 않는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 진화적으로 정보를 제공하는 단일 염기 다형성을 겨냥한 확률적 마스킹 전략을 사용하는 8,600만 개의 매개변수를 갖춘 경량 gLMs 모음인 Porcine MutBERT를 개발했습니다. 이 설계는 인구 특유의 변이를 포착하면서도 계산 비용을 줄입니다. 우리는 또한 PorcineBench라는 벤치마크를 제안하여, 크로마틴 접근성(ATAC-seq), CTCF 결합, 히스톤 수정(H3K27ac, H3K4me1, H3K27me3) 등을 포함한 돼지 기능 유전체 작업 전반에서 gLM의 성능을 평가합니다. 결과는 Porcine MutBERT 모델군이 PorcineBench에서 상당히 더 큰 모델들과 비교하여 높은 경쟁력을 가진 성능을 발휘하며, 돼지 기능 유전체의 다운스트림 작업에 명확히 돼지에 적합한 대안을 제공함을 보여줍니다. 이러한 발견은 농업 유전체학에서 종에 적합한 효율적인 아키텍처의 장점을 강조하며, 자원이 제한된 환경에서 소형 gLMs가 접근성과 영향을 확장할 수 있음을 보여줍니다. 코드와 데이터는 https://github.com/ai4nucleome/pigmutbert에서 확인할 수 있습니다.