메타게놈과 신종 바이러스 감시
크루즈선 한타바이러스 아웃브레이크와 실시간 역학 조사
2026년 5월 초, 스위스 거주자가 MV Hondius 크루즈선 여행 중 한타바이러스(Andes virus, ANDV)에 감염된 사건이 발생했습니다.[1, 2]
이 사례는 현대 바이오인포매틱스가 공중보건 위기에 얼마나 기민하게 대응할 수 있는지를 보여주는 완벽한 사례입니다.
스위스 국립 신종 바이러스 센터는 Illumina MiSeq 기술을 사용하여 감염자의 혈액 샘플에서 바이러스 전체 게놈을 시퀀싱했으며, 이를 통해 3개의 세그먼트(S, M, L)에 대한 컨센서스 서열을 즉각적으로 생성했습니다.[1]
Phylogenetic 분석(계통 발생 분석) 결과, 해당 바이러스는 칠레와 아르헨티나의 야생 설치류인 Oligoryzomys longicaudatus에서 유래한 특정 클레이드와 밀접하게 관련되어 있음이 밝혀졌습니다.[1, 3]
이는 단순한 감염 확인을 넘어, 기후 변화로 인해 남미의 설치류 매개 바이러스가 북반구로 확산될 가능성을 시사하는 중요한 데이터입니다.[3, 4]
연구자들은 MAFFT와 IQ-Tree 2와 같은 도구를 사용하여 10,000회의 부트스트랩(bootstrap) 분석을 수행함으로써 이 바이러스의 진화적 위치를 확증했습니다.[1]
하수 감시(Wastewater Monitoring)와 현장 기반 메타게놈 분석
감염병 감시는 이제 병원실을 넘어 도시의 하수도로 확장되었습니다.
2026년 5월에 보고된 연구들은 SISPA(Sequence-Independent Single-Primer Amplification) 프로토콜과 Nanopore 시퀀싱 기술을 하수 샘플에 적용하여 바이롬(Virome)을 효율적으로 분석하는 방법을 제시했습니다.[5]
하수 샘플은 바이러스 리드의 비율이 극히 낮다는 한계가 있지만, 전용 바이럴 농축 기술과 SqueezeMeta와 같은 파이프라인을 결합하여 하루 이내에 분류학적 및 기능적 프로파일링을 완료할 수 있게 되었습니다.[5]
또한, 자원 제한적인 환경에서도 MinION 시퀀싱 장비를 활용해 병원 하수에서 항생제 내성 유전자(ARG)를 탐지하는 ‘home-made GridION’ 시스템이 구현되었습니다.[5]
이 시스템은 6시간 이내에 샘플당 50만 개 이상의 리드를 생성하며 실시간으로 데이터를 분석할 수 있는 능력을 갖추고 있습니다.[5]
임상 미생물학의 대전환: mNGS의 표준화와 One Health
전통적인 배양 기반 방식으로는 탐지하기 어려운 병원체들을 찾아내기 위해 mNGS(Metagenomic Next-Generation Sequencing)의 임상 도입이 가속화되고 있습니다.[6, 7]
2026년 5월의 최신 리뷰들에 따르면, mNGS는 뇌척수액, 혈액, 기관지 세척액 등 다양한 임상 검체에서 가설 없이(hypothesis-free) 박테리아, 바이러스, 곰팡이, 기생충을 동시에 탐지하는 수준에 이르렀습니다.[6]
특히 176개의 타겟(35종의 박테리아, 11종의 바이러스 등)을 포함하는 분변 mNGS 분석법의 유효성이 검증되면서, 위장관 증상을 보이는 환자들에게서 희귀 병원체를 찾아내는 속도가 비약적으로 빨라졌습니다.[8]
이러한 기술은 인간뿐만 아니라 동물과 환경의 건강이 연결되어 있다는 ‘One Health’ 관점에서의 감시 체계를 구축하는 데 필수적인 요소로 자리 잡았습니다.[7]
[Deep thinking] 4대 병원체 동시 탐지가 기술적으로 놀라운 이유
박테리아, 바이러스, 곰팡이(진균), 기생충은 생물학적 구조와 유전체 크기가 극단적으로 다릅니다. 이를 하나의 튜브에서 동시에 시퀀싱하는 것은 다음 두 가지 장벽을 깨부순 혁신입니다.
- 핵산 추출(Extraction)의 상충 관계 극복: 곰팡이나 박테리아의 단단한 세포벽을 깨기 위해 강한 물리적 화학적 자극(Bead beating 등)을 주면, 구조가 취약한 바이러스의 RNA/DNA는 완전히 파괴됩니다. mNGS는 이 모든 병원체의 핵산을 손상 없이 균일하게 추출하는 전처리 밸런스를 잡아야 합니다.
- 압도적인 신호 대 잡음비(Signal-to-Noise): 감염 환자의 샘플에서 99% 이상은 인간(Host)의 유전체이며, 바이러스나 기생충의 유전체는 0.1% 미만으로 존재합니다. 거대한 인간 유전자의 노이즈 속에서 크기도, 양도 제각각인 4대 병원체의 유전 신호를 한 번에 캡처해 내는 것은 기술적으로 매우 까다로운 작업입니다.
[Deep thinking] mNGS의 매커니즘과 장점
기존 방식처럼 하나의 참조 유전체(Reference Genome)를 차례대로 대조하는 방식을 쓰면 연산 시간이 너무 오래 걸려 실시간 진단이 불가능합니다.
mNGS는 이를 해결하기 위해 통합 데이터베이스 기반의 병렬 및 단계적 필터링 구조를 사용합니다.
- 인간 유전체 1차 필터링 (Host Depletion): 시퀀싱이 끝난 직후, 생산된 수천만 개의 Read를 인간 참조 유전체(hG38 등)에 가장 먼저 매핑하여 환자의 유전 정보를 고속으로 제거(De-hosting)합니다.
- 통합 거대 DB 동시 매핑: 남아있는 미생물 Read들을 박테리아, 바이러스, 진균, 기생충의 유전 정보가 모두 통합된 거대 커스텀 DB(예: NCBI RefSeq 기반 Curated DB)에 동시에 입력합니다.
- 고속 알고리즘 활용: 하나씩 순서대로 대조하는 것이 아니라, 유전체를 짧은 단어 단위로 쪼갠 K-mer 기반 분류기(예: Kraken2)나 인덱싱 정렬 도구(예: Bowtie2, BWA-MEM)를 사용하여 수백만 개의 Read를 수만 종의 참조 유전체와 병렬로 동시에 비교합니다.
mNGS의 장점
- 가설 독립적 검사(Hypothesis-free): 의사가 특정 감염병을 의심하고 타겟을 지정할 필요가 없습니다. 샘플 내 모든 핵산을 읽으므로 미처 예상하지 못한 원인균이나 희귀 병원체까지 찾아냅니다.
- 복합 감염(Co-infection) 규명: 박테리아와 바이러스가 동시에 감염된 중증 환자의 상태를 단 한 번의 검사로 명확하게 구분할 수 있습니다.
- 배양 불가능한 병원체 탐지: 기존의 배양법(Culture)으로는 키우기 까다롭거나 몇 주 이상 걸리는 진균, 결핵균, 혹은 배양이 불가능한 바이러스도 유전자 조각만 있으면 몇 시간 내에 식별합니다.
파이프라인 자동화와 AI의 결합
분석의 재현성을 위한 메타파이프라인: metapipeline-DNA
바이오인포매틱스 연구의 고질적인 문제 중 하나는 분석 파이프라인의 분절화와 재현성 부족입니다.
샌포드 버넘 프레비스(Sanford Burnham Prebys) 연구소와 UCLA 연구진은 2026년 5월, 대규모 게놈 시퀀싱 데이터를 표준화된 방식으로 분석할 수 있는 ‘metapipeline-DNA’를 공개했습니다.[9]
이 도구는 Nextflow를 기반으로 구축되었으며, 1,408개의 풀 리퀘스트(pull request)와 수천 명의 기여자가 참여한 방대한 소프트웨어 엔지니어링의 결과물입니다.[9]
metapipeline-DNA의 가장 큰 강점은 ‘오류 회복 탄력성’입니다.
수만 개의 샘플을 분석하는 슈퍼컴퓨팅 환경에서는 설정 오류 하나로 수일간의 연산 시간이 낭비될 수 있는데, 이 파이프라인은 초기 설정 단계에서 유효성을 검증하고 실패한 지점부터 자동으로 분석을 재개하는 능력을 갖췄습니다.[9, 10]
연구팀은 암 게놈 아틀라스(TCGA) 데이터를 활용하여 이 파이프라인의 성능을 입증했으며, 향후 RNA와 단백질 분석까지 아우르는 통합 플랫폼으로 확장할 계획을 밝혔습니다.[9]
LLM이 코딩하는 바이오인포매틱스 워크플로우
이제 바이오인포매틱스 연구자는 직접 복잡한 코드를 작성하는 대신 AI와 대화하며 분석 환경을 구축합니다.
2026년 5월에 발표된 연구는 ChatGPT-4, ChatGPT-5, Claude 4.5, Gemini 2.5 등의 모델이 엔드투엔드 바이오인포매틱스 파이프라인을 생성하는 능력을 평가했습니다.[11]
결과는 놀라웠습니다. 특히 최신 모델들은 도구 간의 데이터 입출력 흐름을 정확히 설계하고, 버전별 도구 로딩 명령어를 생성하는 데 있어 통계적으로 유의미하게 높은 성공률을 보였습니다.[11]
이러한 AI 모델들은 단순한 코드 생성을 넘어, 공식 문서를 실시간으로 참조하여 최신 도구의 파라미터를 최적화하는 수준에 도달했습니다.
이는 프로그래밍 배경이 부족한 실험 생물학자들이 복잡한 메타바이럴(metaviral) 분석 등을 수행할 수 있도록 돕는 강력한 도구가 되고 있습니다.[11]
하이브리드 메타게놈 분석의 정점: StrainMake와 ACT 파이프라인
단일 미생물 종을 넘어 균주(strain) 수준의 해상도를 확보하려는 노력도 결실을 보고 있습니다.
bioRxiv와 Bioinformatics 저널에 소개된 StrainMake와 ACT(Amplicon Consensus Taxonomy) 파이프라인은 각각 롱리드(Long-read)와 숏리드(Short-read) 데이터의 장점을 결합한 하이브리드 분석을 지원합니다.[12, 13]
특히 ACT 파이프라인은 Oxford Nanopore(ONT) 기술의 긴 읽기 길이를 활용해 16S rRNA 유전자 전체를 분석함으로써, 짧은 리드 분석에서는 불가능했던 종 수준 이상의 정밀 분류를 가능하게 합니다.[13, 14]
이는 미생물 군집 내의 저빈도 종(low-abundance taxa)을 탐지하고 과잉 분류(overclassification)를 방지하는 데 탁월한 성능을 보입니다.
| 도구/파이프라인 | 기반 기술/언어 | 주요 기능 | 특이 사항 |
|---|---|---|---|
| metapipeline-DNA | Nextflow | 암 게놈 변이 탐지, 표준화 | 자동 실패 복구 기능 [9] |
| StrainMake | Snakemake | 균주 수준 해상도, 하이브리드 조립 | 커뮤니티 대사 모델 생성 [12] |
| ACT Pipeline | ONT Long-read | 앰플리콘 컨센서스 분류 | 저빈도 종 탐지 최적화 [13] |
| TaxTriage | Nextflow | 병원체 식별 및 증거 등급 분류 | 클라우드/로컬 유연한 배포 [15] |
단일 세포 및 다중 오믹스
scMarkerGene: 해석 가능한 AI로 찾는 세포의 정체성
단일 세포 전사체 분석(scRNA-seq)의 핵심은 수만 개의 세포 중에서 각 세포 유형을 정의하는 ‘마커 유전자’를 정확히 찾아내는 것입니다.
하지만 기존의 통계적 방식은 단순히 발현량이 높은 유전자를 선택하는 경향이 있어 노이즈에 취약했습니다.
2026년 5월 Briefings in Bioinformatics에 발표된 ‘scMarkerGene’은 해석 가능한 신경망(Interpretable Neural Network)을 활용해 이 문제를 정면으로 돌파했습니다.[16, 17]
scMarkerGene은 신경망의 예측 결과로부터 각 유전자의 기여도를 수치화한 ‘Contribution Score(CS)’ 매트릭스를 생성합니다.[17]
이를 통해 단순히 많이 발현되는 유전자가 아니라, 세포 유형 간의 차이를 가장 명확하게 가르는 유전자를 식별합니다.
또한 드롭아웃(dropout) 노이즈와 데이터 희소성에도 강한 내성을 보여, 공간 전사체 데이터와 위시간(pseudotime) 분석에서도 동적인 마커 유전자를 찾아내는 데 성공했습니다.[17, 18]
소아 대사성 지방간 질환(MASLD)의 장내 미생물 기전 규명
메타게놈과 대사체(Metabolomics) 데이터를 통합하여 질병의 원인을 규명하는 연구도 활발합니다.
285명의 소아를 대상으로 한 통합 분석 연구는 MASLD 환자군에서 특정 박테리아 길드(bacterial guild)가 붕괴되어 있음을 밝혀냈습니다.[19]
특히 Phocaeicola vulgatus와 Bacteroides uniformis의 감소는 탄수화물 대사 경로의 이상과 직결되어 있었습니다.[19]
이 연구는 단순히 어떤 균이 많고 적음을 나열하는 수준을 넘어, 특정 박테리아가 분비하는 효소(CAZymes)가 숙주의 TCA 사이클과 과당/자당 대사에 어떻게 개입하는지를 네트워크 분석을 통해 입증했습니다.[19]
이는 향후 프로바이오틱스나 장내 미생물 이식을 통한 맞춤형 치료법 개발의 강력한 근거가 됩니다.
정밀 온콜로지에서의 AI 기반 약물 반응 예측
암 환자의 유전적 프로필에 딱 맞는 약물을 찾는 과정에서도 바이오인포매틱스가 핵심적인 역할을 합니다.
2026년 5월에 발표된 연구들은 단백질 언어 모델(Protein Language Model) 임베딩 기술을 활용해 약물-타겟 결합력을 예측하는 ‘BindPred’와 같은 프레임워크를 소개했습니다.[20, 21]
또한, 환자의 CT 이미지 데이터와 유전체 변이 데이터를 머신러닝으로 통합하여 면역항암제(Pembrolizumab)에 대한 반응성을 예측하는 모델도 구축되었습니다.[22, 23]
특히 간암(HCC) 환자들을 대상으로 한 리바티닙(Lenvatinib)과 PD-1 억제제 병용 투여 연구에서는, 치료 전 촬영한 CT 영상을 기반으로 한 라디오믹스(Radiomics) 모델이 임상 요인보다 더 정확하게 치료 효과를 예측한다는 사실이 밝혀졌습니다.[23]
참고자료
- Complete sequence of Orthohantavirus andesense virus: Swiss resident 2026 – Hantavirus, https://virological.org/t/complete-sequence-of-orthohantavirus-andesense-virus-swiss-resident-2026/1023
- American Public Health Association, https://www.apha.org/
- May 2026 – Science News, https://www.sciencenews.org/sn-magazine/may-2026
- Science News | The latest news from all areas of science, https://www.sciencenews.org/
- Metagenomic Analysis Pipeline Research Articles – Page 1 – R Discovery, https://discovery.researcher.life/topic/metagenomic-analysis-pipeline/14198245?page=1&topic_name=Metagenomic%20Analysis%20Pipeline
- Metagenomic Next-Generation Sequencing in Infectious Diseases: Clinical Applications, Translational Challenges, and Future Directions – PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12384723/
- Current Uses and Future Perspectives of Genomic Technologies in Clinical Microbiology, https://pmc.ncbi.nlm.nih.gov/articles/PMC10668849/
- Metagenomics enables parallel detection of 176 clinically relevant targets from faecal samples – Frontiers, https://www.frontiersin.org/journals/cellular-and-infection-microbiology/articles/10.3389/fcimb.2026.1759322/full
- New computational biology tool automates and standardizes genome sequencing analysis, https://www.eurekalert.org/news-releases/1119798
- Metapipeline-DNA: A Comprehensive Germline & Somatic Genomics Nextflow Pipeline, https://www.researchgate.net/publication/383865990_Metapipeline-DNA_A_Comprehensive_Germline_Somatic_Genomics_Nextflow_Pipeline
- Prompt-based bioinformatic pipeline generation for a multi-step metaviral workflow – PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12782108/
- StrainMake: reproducible hybrid metagenomics with MAG recovery and strain-level resolution | Bioinformatics | Oxford Academic, https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btag212/8672507
- A Bioinformatic Pipeline for Consensus Taxonomic Classification of Long-Read Amplicons, https://www.biorxiv.org/content/10.64898/2026.04.29.721641v2
- A Bioinformatic Pipeline for Consensus Taxonomic Classification of Long-Read Amplicons | bioRxiv, https://www.biorxiv.org/content/10.64898/2026.04.29.721641v1
- TaxTriage: an open-source metagenomic sequencing data analysis pipeline enabling putative pathogen detection | Bioinformatics | Oxford Academic, https://academic.oup.com/bioinformatics/article/42/4/btag119/8571885
- Briefings in Bioinformatics | Oxford Academic, https://academic.oup.com/bib
- scMarkerGene: an interpretable neural network framework for cell …, https://academic.oup.com/bib/article/27/3/bbag223/8678949
- scMarkerGene: an interpretable neural network framework for cell-type-specific marker gene discovery | Briefings in Bioinformatics | Oxford Academic, https://academic.oup.com/bib/article-abstract/doi/10.1093/bib/bbag223/8678949
- Integrated Metagenomics and Metabolomics Studies Reveal Core Bacterial Guild Regulating Carbohydrate Metabolism in Pediatric MASLD | bioRxiv, https://www.biorxiv.org/content/10.64898/2026.05.11.724093v1
- Bioinformatics – Oxford Academic, https://academic.oup.com/bioinformatics
- Drug Discovery Tools Update – May 18, 2026 #drugdiscovery #ai #bioinformatics – YouTube, https://www.youtube.com/shorts/9_EXhzwTTlE
- Serum metabolomic signatures predict clinical outcomes in advanced non-small cell lung cancer treated with pembrolizumab plus platinum-based chemotherapy – Frontiers, https://www.frontiersin.org/journals/immunology/articles/10.3389/fimmu.2026.1770764/full
- Pretreatment CT-based machine learning radiomics model predicts response in unresectable hepatocellular carcinoma treated with lenvatinib plus PD-1 inhibitors and interventional therapy, https://jitc.bmj.com/content/12/9/e010330