26.04 생물정보학

구글 딥마인드(Google DeepMind)의 AlphaGenome부터 단백질-분자 결합의 패러다임을 바꾼 DrugBLIP까지, 이번 달 생물정보학 분야의 혁신적인 연구들을 정리하였습니다

Content

유전체를 밝히는 파운데이션 모델

최근 인공지능이 쓴 논문이 동료 심사(Peer-review)를 통과했다는 소식이 들릴 정도로 AI의 과학적 역량은 이제 박사급(PhD-level)에 도달했습니다.[2]

특히 2026년 4월은 유전체 데이터를 단순히 읽는 것을 넘어 그 의미를 완벽하게 예측하는 ‘파운데이션 모델’의 시대가 열린 달로 기억될 것입니다.

100만 개의 염기쌍을 한눈에 담는 거인, AlphaGenome의 등장

구글 딥마인드가 발표한 ‘AlphaGenome’은 이번 달 가장 뜨거운 감자입니다.

기존의 유전체 모델들이 짧은 구간의 DNA만 분석할 수 있었던 한계를 극복하고, 무려 100만 개의 염기쌍(1Mb)을 한꺼번에 처리하는 능력을 갖췄습니다.[1, 3]

이 모델의 핵심은 유전체 서열을 입력받아 그 유전자가 어떻게 발현될지, 단백질과 어떻게 결합할지 등을 예측하는 것입니다.

AlphaGenome은 유전자 발현, RNA 스플라이싱, 염색질 접근성, 히스톤 수식, 전사 인자 결합, 그리고 3차원 염색질 접촉까지 무려 11가지의 다양한 생물학적 양상(Modality)을 단일 염기 수준에서 예측합니다.[3]

이는 마치 100만 개의 불 꺼진 방 중 딱 하나의 전등이 켜지는 것을 잡아내는 ‘네온 코랄 스포트라이트’와 같은 정밀함을 자랑합니다.[1]

기능 구분	AlphaGenome 상세 명세
분석 윈도우	최대 1,000,000 base pairs (1Mb) [1, 3]
예측 모달리티	Gene expression, RNA splicing, Chromatin accessibility, TF binding 등 11종 [3]
네트워크 구조	U-Net 기반 인코더-디코더 + Transformer 하이브리드 [4]
성능 지표	26개 변이 효과 예측 작업 중 25개에서 SOTA(최고 성능) 달성 [3]

AlphaGenome은 U-Net 형태의 인코더-디코더 구조를 사용하여 국소적인 특징을 추출하고, 트랜스포머(Transformer) 구성 요소를 통해 아주 멀리 떨어진 유전 요소 간의 상호작용(Long-range dependencies)을 포착합니다.[4]

AI의 과학적 성적표: BixBench와 Stanford HAI 보고서

스탠퍼드 대학교의 인간 중심 AI 연구소(HAI)가 발표한 2026년 AI 인덱스 보고서에 따르면, AI 모델들은 이제 과학적 발견 분야에서 성숙기에 접어들었습니다.[2]

특히 생물정보학 전용 벤치마크인 ‘BixBench’에서 최첨단 모델들은 실제 생물정보학 분석 작업에 대해 약 17%의 정확도를 기록하고 있습니다.[2]

낮은 수치처럼 보일 수 있지만, 작년까지만 해도 이 수치가 한 자릿수였다는 점을 고려하면 가히 폭발적인 성장세입니다.

신약 개발의 디지털 트윈

신약 개발은 열쇠(약물 분자)가 자물쇠(질병 관련 단백질)에 얼마나 잘 맞는지를 찾는 과정입니다.

2026년 4월, Bioinformatics 저널은 이 과정을 수백 배 빠르게 만들 혁신적인 모델들을 소개했습니다.

속도와 정확도를 다 잡은 DrugBLIP

전통적인 약물 도킹(Docking) 방식은 물리 법칙에 기반한 복잡한 계산을 수행하느라 시간이 너무 오래 걸렸습니다.

하지만 새로 발표된 ‘DrugBLIP’은 ‘멀티태스크 그래프 트랜스포머(Multi-task Graph Transformer)’ 모델을 통해 이 문제를 해결했습니다.[5, 6]

DrugBLIP의 가장 놀라운 점은 속도입니다.

기존의 전통적인 도킹 도구들보다 계산 시간을 무려 700배나 단축하면서도, 가상 스크리닝(Virtual Screening) 성능에서는 기존 딥러닝 베이스라인보다 10%에서 127%까지 높은 성능을 보여주었습니다.[6, 7]

평가 항목	DrugBLIP 성적	비교 대상 대비 우위 [5, 6]
가상 스크리닝 AUROC	0.8217	기존 모델 대비 10%~127% 향상
도킹 성공률 (Top-1)	91.2%	CASF-2016 벤치마크 기준 최고 수준
Target Fishing 정확도	41.8%	다양한 시나리오에서의 강건성 입증
연산 효율성	700x 속도 향상	전통적인 스코어링 함수 대비 압도적 속도

DrugBLIP은 SE(3)-Equivariant 아키텍처를 채택하여 단백질과 분자의 3차원 공간적 관계를 포착합니다.[7]

이는 분자가 회전하거나 이동하더라도 그 본질적인 결합 특성을 AI가 동일하게 인식할 수 있게 해주는 마법 같은 기술입니다.[8]

[개념 쏙쏙: 약물 도킹 (Molecular Docking)]

약물 도킹은 단백질과 같은 표적 수용체와 화합물(Ligand) 사이의 최적 결합 구조와 결합력을 컴퓨터 시뮬레이션으로 예측하는 기술입니다.

상호작용 계산: 화합물과 단백질 사이의 수소 결합, 정전기적 인력, 반데르발스 힘 등을 계산하여 결합 에너지를 추정합니다.
구조적 적합성: 열역학적으로 가장 안정한 상태(가장 낮은 자유 에너지)를 찾는 것이 목표입니다.

[불확실성 및 논쟁점]

결합력 예측의 한계: 도킹 점수(Docking Score)가 높다고 해서 반드시 실제 실험(In vitro)에서 효능이 나타나는 것은 아닙니다. 현재 기술은 ‘결합 구조’는 비교적 잘 맞추지만, ‘정확한 결합 에너지 값’을 맞추는 능력은 여전히 부족합니다.

물 분자의 역할: 실제 생체 내에서는 결합 부위에 물 분자가 존재하며 이것이 결합력에 큰 영향을 미치지만, 도킹 시 물 분자를 포함할지 여부와 그 계산 방식은 여전히 난제입니다.

[개념 쏙쏙: 가상 스크리닝과 AUROC]

가상 스크리닝(Virtual Screening, VS)은 수만~수십억 개의 화합물 라이브러리 중 활성 가능성이 높은 물질을 골라내는 과정이며, AUROC은 이 스크리닝 성능을 평가하는 대표적인 지표입니다.

정의: AUROC은 ROC 곡선(가로축: 위양성률, 세로축: 진양성률) 아래의 면적을 의미합니다.
해석: 1.0에 가까울수록 활성 물질과 비활성 물질을 완벽하게 구분해내는 능력이 뛰어난 모델이며, 0.5는 무작위로 찍는 수준을 의미합니다.
판단 기준: 보통 0.7 이상이면 수용 가능한 수준, 0.8 이상이면 우수한 성능으로 평가합니다.

[불확실성 및 논쟁점: AUROC의 맹점]

현재 과학계에서 AUROC의 유효성에 대해 가장 활발하게 논의되는 부분은 “Early Recognition(초기 인식)” 문제입니다.

대안 제시: 이에 따라 현재 컨센서스는 AUROC만 단독으로 사용하기보다는, 상위 농축도를 측정하는 EF(Enrichment Factor)나 BEDROC 지표를 병행하여 평가하는 추세입니다.

비판적 시각: AUROC은 전체 화합물 집단의 순위를 평가합니다. 하지만 실제 실험실에서는 수십만 개 중 상위 1%나 0.1%만 골라 실험합니다. AUROC이 0.9로 높더라도 정작 상위 1% 안에 활성 물질이 하나도 없다면, 신약 개발 관점에서는 실패한 모델입니다.

아미노산에서 단편으로: 단백질 설계의 효율화

단백질 디자인 분야에서도 새로운 소식이 전해졌습니다.

Leonardo V Castorina 등이 발표한 연구에서는 단백질을 원자 수준이 아닌 ‘단편(Fragment)’ 단위로 표현함으로써 단백질 설계의 효율성을 극대화했습니다.[9]

이 방식은 단백질의 기능적인 구조를 더 빠르고 정확하게 예측할 수 있게 해주어, 인공 항체나 효소 설계에 혁신을 가져올 것으로 기대됩니다.

3차원 공간에서 물체가 회전하거나 이동하더라도 그 물리적 성질이나 관계가 변하지 않는 성질을 말합니다.

단백질과 약물이 결합할 때, 어느 각도에서 보든 그 결합력은 같아야 하므로 AI 모델이 이 대칭성을 이해하는 것은 매우 중요합니다.[7, 8]

시스템 생물학과 네트워크 추론

우리 몸의 유전자는 독립적으로 작동하지 않습니다. 수만 개의 유전자가 서로 신호를 주고받으며 아름다운 화음을 만들어내는데, 이를 ‘유전자 조절 네트워크(GRN)‘라고 합니다.

유전자 네트워크의 지휘자 찾기, GRNFormer

단일 세포 전사체(scRNA-seq) 데이터를 통해 유전자 사이의 복잡한 조절 관계를 밝혀내는 것은 생물정보학의 난제 중 하나였습니다. 2026년 4월호 Bioinformatics에 게재된 ‘GRNFormer’는 이 문제를 해결하기 위해 ‘그래프 트랜스포머(Graph Transformer)’ 프레임워크를 도입했습니다.[10, 11]

GRNFormer는 전사 인자(Transcription Factor)를 중심으로 생물학적으로 의미 있는 서브그래프를 샘플링하는 ‘TF-Walker’ 전략을 사용합니다.[10, 12]

이 모델은 인간 배아 줄기세포(hESCs)와 말초 혈액 단핵구(PBMCs) 등 다양한 데이터셋에서 기존 모델들을 압도하는 성능을 보여주었습니다.

모델 특징	GRNFormer 상세 [10, 11]
핵심 알고리즘	TF-Walker (전사 인자 중심 샘플링)
학습 구조	Gene-Transcoder + GraViTAE (변이형 오토인코더)
성능 (AUROC)	약 90% 달성
범용성	종(Species)과 세포 타입에 무관하게 적용 가능

이러한 네트워크 추론 모델은 단순히 어떤 유전자가 많이 발현되는지를 보는 것을 넘어, 어떤 유전자가 ‘원인’이 되어 질병을 일으키는지를 파악하는 데 결정적인 도움을 줍니다.[13]

하이퍼그래프를 통한 세포 클러스터링의 진화

유전자 발현 데이터는 흔히 2차원 행렬로 표현되지만, 실제로는 훨씬 더 복잡한 관계를 맺고 있습니다.

Wan He 등은 단일 세포 RNA 시퀀싱 데이터를 ‘하이퍼그래프(Hypergraph)’로 표현하여 세포 클러스터링의 정확도를 높이는 연구를 발표했습니다.[14, 15]

기존의 단순한 연결망(그래프)보다 더 고차원적인 관계를 포착함으로써, 우리가 미처 발견하지 못했던 새로운 세포 유형을 찾아낼 수 있는 가능성을 열었습니다.

정밀 의료의 최전선: 질병 진단과 기전의 재발견

바이오인포매틱스의 궁극적인 목표는 환자의 삶을 바꾸는 것입니다. 2026년 4월에는 암과 노화, 그리고 신경계 질환에 대한 새로운 진단 지표와 기전들이 대거 공개되었습니다.

난소암 조기 진단의 새로운 희망, 10가지 단백질 지문

Cells 저널에 발표된 연구에 따르면, 혈액 내 엑소좀(Extracellular Vesicles, EV)의 단백질 구성을 분석하여 초기 고등급 장액성 난소암(HGSOC)을 매우 높은 정확도로 진단할 수 있습니다.[16]

연구진은 LC-MS/MS와 근접 연장 분석(PEA) 기술을 결합하여 10가지 핵심 단백질 조합을 찾아냈습니다.

진단 지표	HGSOC EV 단백질 패널 성적 [16]
정확도 (AUC)	0.99 기록 (기존 CA-125보다 월등히 우수)
민감도 (TPR)	0.971
특이도 (FPR)	0.057
핵심 기술	SHUM(smoothed empirical estimate of hyper-volume)

이 연구는 증상이 없어 발견이 늦기로 유명한 난소암을 혈액 한 방울로 조기에 잡아낼 수 있는 시대를 예고하고 있습니다.[16]

액체 생검의 완성도 높이는 ‘fRagmentomics’

암 진단에서 액체 생검(Liquid Biopsy)은 이제 대세가 되었습니다.

하지만 혈액 속에 떠다니는 암 유래 DNA(ctDNA)는 그 양이 너무 적습니다.

이를 해결하기 위해 Killian Maudet 등은 ‘fRagmentomics’라는 R 패키지를 개발했습니다.[14, 19]

이 도구는 DNA의 돌연변이뿐만 아니라 DNA 조각이 잘린 모양과 특징(Fragment features)을 통합적으로 분석하여 액체 생검의 정확도를 획기적으로 높여줍니다.

조직을 직접 떼어내는(생검) 대신, 혈액이나 소변 등 체액 속에 떠다니는 암세포의 흔적(DNA, 단백질 등)을 찾아내어 병을 진단하는 기술입니다.

환자에게 고통이 없고 반복적인 검사가 가능하다는 장점이 있습니다.[14, 19, 20]

장내 미생물과 자폐증: “인과관계인가, 상관관계인가?”

2026년 4월, 마이크로바이옴 학계에서는 자폐 스펙트럼 장애(ASD)와 장내 미생물의 관계를 둘러싼 뜨거운 논쟁이 벌어졌습니다.

자폐증 아동의 장내 미생물 지연 현상

Nature Microbiology와 Nature Communications에 게재된 일련의 논문들은 ASD 아동의 장내 미생물이 신경 전형적(Neurotypical) 아동에 비해 발달이 지연되어 있으며, 특정 대사 경로(ubiquinol-7, thiamine diphosphate)가 결핍되어 있다고 보고했습니다.[21]

연구자들은 이러한 대사 결핍이 미생물의 항산화 능력을 떨어뜨리고, 결과적으로 뇌 기능에 영향을 미칠 수 있다는 ‘메커니즘 서사’를 제시했습니다.

데이터의 투명성과 “설계된 불확실성”에 대한 비판

하지만 생물정보학 전문가인 Meren 등은 이러한 연구들이 가진 ‘인과관계의 논리적 허점’을 날카롭게 지적했습니다.[21]

이들은 ASD 아동의 미생물 차이가 질병의 ‘원인’인지, 아니면 ASD로 인한 편식이나 환경적 요인으로 인한 ‘결과’인지 명확하지 않다고 비판합니다.

특히, 연구 데이터와 코드가 투명하게 공개되지 않거나 머신러닝 모델의 성능이 실제보다 과장될 수 있다는 점을 지적하며, 과학적 주장이 ‘반증 불가능(Unfalsifiable)’하게 설계되어서는 안 된다고 강조했습니다.[21]

비판의 핵심 내용	상세 설명 [21]
인과관계의 혼동	장-뇌 축(Gut-brain axis) 가설에 끼워 맞춘 서사 구조 경계
데이터 투명성 부족	샘플 메타데이터가 처리하기 힘든 PDF에 숨겨져 있는 등 재현성 문제
분석 파이프라인의 고착	“차이 발견 -> 분류기 구축 -> 진단 도구 제안”이라는 정형화된 패턴의 한계
대조군 설정 문제	ADHD나 아토피 등 다른 질환과의 변별력 부족 가능성

이 논쟁은 바이오인포매틱스가 단순히 ‘차이’를 찾아내는 학문을 넘어, 얼마나 엄밀하게 생물학적 진실을 추적해야 하는지를 보여주는 중요한 사례입니다.

생물정보학의 새로운 무기들

연구 결과가 ‘요리’라면, 바이오인포매틱스 도구들은 ‘조리 도구’와 같습니다. 이번 달에도 연구자들을 열광시킬 다양한 도구들이 출시되었습니다.

4월에 출시된 주목할 만한 도구

SpliceHarmonization: RNA 스플라이싱을 조절하는 치료제가 실제로 유전자에 어떤 영향을 주는지 통합적으로 분석해주는 도구입니다.[14]
TaxTriage: 메타게놈 시퀀싱 데이터에서 잠재적인 병원균을 빠르게 선별해주는 오픈소스 파이프라인입니다.[14]
VDJ-Insights: 면역학 연구의 핵심인 T세포 및 B세포 수용체 유전 영역의 주석 처리를 매우 간편하게 만들어줍니다.[14]
Umi-pipeline-nf: 나노포어(Nanopore) 시퀀싱 데이터를 GPU를 이용해 실시간으로 가속 분석해주는 워크플로우입니다.[14]
GraphMana: 대규모 인구 유전체 데이터를 그래프 형태로 관리하여 데이터 효율성을 극대화한 시스템입니다.[24]

이러한 도구들은 특히 자원이 한정된 환경(Resource-limited settings)에서도 대규모 데이터를 분석할 수 있도록 돕는 고성능 컴퓨팅(HPC) 프레임워크와 결합하여 그 빛을 발하고 있습니다.[14]

참고자료

Visualizing AlphaGenome: The Weight of One Base Pair in a Million – Medium, https://medium.com/@lds1491/visualizing-alphagenome-the-weight-of-one-base-pair-in-a-million-eee1b9495ae2
What Stanford’s HAI Report Says About AI in Science – BigDATAwire – HPC Wire, https://www.hpcwire.com/bigdatawire/2026/04/17/what-stanfords-hai-report-says-about-ai-in-science/
Bioinformatics.org: Home, https://www.bioinformatics.org/
Detection of alternative splicing: deep sequencing or deep learning? – Oxford Academic, https://academic.oup.com/bib/article/27/1/bbaf705/8419938
DrugBLIP: exploring the protein–molecule interaction mechanisms with a multi-task learning graph transformer – ResearchGate, https://www.researchgate.net/publication/403756020_DrugBLIP_exploring_the_protein-molecule_interaction_mechanisms_with_a_multi-task_learning_graph_transformer/download
DrugBLIP: Exploring the Protein-Molecule Interaction Mechanisms with a Multi-task Learning Graph Transformer – Oxford Academic, https://academic.oup.com/bioinformatics/advance-article/doi/10.1093/bioinformatics/btag069/8651106
DrugBLIP: Exploring the Protein-Molecule Interaction Mechanisms with a Multi-task Learning Graph Transformer – Oxford Academic, https://academic.oup.com/bioinformatics/advance-article-pdf/doi/10.1093/bioinformatics/btag069/68024733/btag069.pdf
DrugBLIP: exploring the protein–molecule interaction mechanisms with a multi-task learning graph transformer – Oxford Academic, https://academic.oup.com/bioinformatics/article-pdf/42/4/btag069/68024733/btag069.pdf
Advance articles | Bioinformatics | Oxford Academic, https://academic.oup.com/bioinformatics/advance-articles
GRNFomer: Accurate Gene Regulatory Network Inference Using Graph Transformer, https://www.researchgate.net/publication/388456442_GRNFomer_Accurate_Gene_Regulatory_Network_Inference_Using_Graph_Transformer
GRNFormer: accurate gene regulatory network inference using graph transformer | Bioinformatics | Oxford Academic, https://academic.oup.com/bioinformatics/article/42/4/btag144/8540455
GRNFormer: Accurate Gene Regulatory Network Inference Using Graph Transformer | Bioinformatics | Oxford Academic, https://academic.oup.com/bioinformatics/advance-article-abstract/doi/10.1093/bioinformatics/btag144/8540455
GRNFormer: Accurate Gene Regulatory Network Inference Using Graph Transformer, https://www.biorxiv.org/content/10.1101/2025.01.26.634966v3
Volume 42 Issue 4 | Bioinformatics | Oxford Academic, https://academic.oup.com/bioinformatics/issue/42/4
Hypergraph representations of single-cell RNA sequencing data for improved cell clustering | Bioinformatics | Oxford Academic, https://academic.oup.com/bioinformatics/article/42/4/btag148/8551568
Cells, Volume 15, Issue 8 (April-2 2026) – 53 articles, https://www.mdpi.com/2073-4409/15/8
Integrated bioinformatics and single-cell analysis identifies vascular aging-related hub genes and immune drivers in atherosclerosis. | bioRxiv, http://www.biorxiv.org/content/10.64898/2026.04.14.718580
Integrated bioinformatics and single-cell analysis identifies vascular aging-related hub genes and immune drivers in atherosclerosis. | bioRxiv, https://www.biorxiv.org/content/10.64898/2026.04.14.718580v1
Publications – Bioconductor, https://bioconductor.org/help/publications/
New data at AACR 2026 demonstrate advancements in Cancerguard® Multi-Cancer Early Detection Test – Abbott MediaRoom – Press Releases, https://abbott.mediaroom.com/2026-04-17-New-data-at-AACR-2026-demonstrate-advancements-in-Cancerguard-R-Multi-Cancer-Early-Detection-Test
Unfalsifiable by Design: A Year of Trying and Failing to Reproduce a Human Microbiome and Autism Study – – Meren Lab, https://merenlab.org/2026/04/15/unfalsifiable-by-design/
Early influenza virus characterisation and vaccine effectiveness in England in autumn 2025, a period dominated by influenza A(H3N2) subclade K – PMC, https://pmc.ncbi.nlm.nih.gov/articles/PMC12639273/
Answering big questions about the new flu and SARS-CoV-2 viral variants – lji.org, https://www.lji.org/news-events/news/post/new-flu-subclade-k-covid-cicada-variant/
GraphMana: graph-native data management for population genomics projects – bioRxiv, https://www.biorxiv.org/content/10.64898/2026.04.11.717925v2
PAR-26-040: Advancing Bioinformatics, Translational Bioinformatics and Computational Biology Research (R01 Clinical Trial Optional) – Grants.gov, https://files.simpler.grants.gov/opportunities/ca108e77-69f6-4d3a-9723-a1353076a4ad/attachments/1882a2af-b08d-49bf-8edd-08ac7ad5facd/PAR-26-040-Full-Announcement.html