글 황대희 서울대학교 생명의료정보연구소 소장
·서울대학교 생명과학부 교수

지난 20년간 주요 난치성 질환(암, 치매, 당뇨, 자가면역질환 등) 환자들의 시료(조직, 혈액, 뇨 등)에 대한 대용량의 오믹스(전사체, 단백체, 대사체) 데이터가 축적됐다. 이와 함께 환자의 검진데이터(식생활습관, 가족력, 건강보조식품 복용 등)와 환자의 기본 임상정보(키, 혈압, 몸무게 등), 혈액검사(CBC 검사, 질환표지자, 상태표지자, 이온 등), 뇨검사(크레아틴, 이온 등), 영상데이터(MRI, PET, CT, 초음파 등), 투약정보(약물 종류 및 dose) 등을 포함하는 EHR(Electronic Health Record. 전자건강기록)이 기관별로 전산화된 DB에 체계적으로 수록됐다. 이렇게 축적된 오믹스, EHR 빅데이터를 이용한 정밀의료 플랫폼을 구축하려는 시도가 민간 기업 섹터와 정부가 중심이 된 공공 섹터에서 활발하게 진행되고 있다.

오믹스 기반정밀의료

먼저 시작된 것은 전사체와 단백체 데이터를 통합적으로 분석해 환자를 mRNA와 단백질의 발현 패턴으로 분류하고, 분류된 환자 그룹별로 치료법을 제시하는 오믹스 기반 정밀의료 방법이다. 암 분야에서 가장 활발하게 진행되는 방법으로, 미국 국가암연구소(National Cancer Institute)의 CPTAC(Clinical Proteomic Tumor Analysis Consortium) 프로그램이 가장 앞서가고 있다. 발병률과 치료불응성이 큰 10개 이상의 주요 암에 환자 100~200명의 코호트를 구축하고 동일 환자의 전사체, 단백체·인산화단백체·당쇄화단백체, DNA 메틸화(DNA methylation), 단일세포전사체 데이터 등을 생산, 통합해 클러스터링으로 환자를 분류한다. 이를 단백유전체(proteogenomics) 분석을 통한 환자들의 서브타이핑(subtyping)이라 하고, mRNA로 설명할 수 없는 환자의 특성을 단백질 정보로 보강하면 좀 더 정확하게 구분할 수 있다.

분류된 각 환자 서브타입에서 특이적으로 발현량이 증가한 mRNA와 단백질·인산화된 단백질·당쇄화된 단백질이 관여하는 세포기작(cellular process)이나 생체경로(cellular pathways)에 기반해 해당 서브타입의 세포병리학적 특성을 규명한다. 예를 들어 예후가 안 좋은 서브타입에 속하는 환자는 대개 암세포를 죽일 수 있는 면역세포가 활성화되어 있지 않고 전이나 침투(invasion) 포텐셜(potential)이 높은 암을 가지는 경향을 보인다. 이 서브타입에서 특이적으로 올라간 mRNA, 단백질, 인산화된 단백질을 바탕으로 면역 저해의 원인이 조절 T세포(regulatory T cell)의 활성이 강한지, 관문억제(immune checkpoint)의 활성이 강한지, 아니면 T세포의 활성을 막는 골수유래 면역 억제세포(MDSC·myeloid-derived suppressive cell) 양이 많은지 판단할 수 있다. 해당 서브타입 환자 조직 시료에서 생산된 단일세포 전사체 데이터를 이용해 이러한 판단을 검증할 수 있다. 또 환자유래 암조직 이식 모델인 PDX(Patient-Derived Xenografts) 등을 이용해 제시된 면역 저해 이유(예: MDSC)를 억제함으로써 그 유용성을 검증할 수 있다. 이 외에도 전이 및 침투 포텐셜을 증가시키는 생체경로를 서브타입 특이적으로 증가한 인산화된 단백질들에 기반해 예측할 수 있고, 해당 환자 조직에서 확보된 세포주에 생체경로 저해제를 이용해 유용성을 검증할 수 있다.

이런 식으로 각 환자를 서브타입으로 분류하고, 각 서브타입 특성에 맞는 치료법을 제시하는 것이 오믹스 기반 정밀의료의 핵심이다.

EHR 데이터 기반정밀의료

하지만 오믹스 기반 정밀의료는 진정한 개인별 맞춤화된 치료법을 제시할 수는 없고 환자의 서브타입별 치료법을 제시해줄 뿐이다. 또 오믹스 데이터는 질환 진행 경로 중 어느 특정 시점에서 수집된 시료에 대해서만 정보를 제공한다. 즉, 시료 수집 시점 이후에 일어나는 질환 특성 변화에 대해서는 정보가 없다. 이러한 문제점을 해결하기 위해 질환 전주기적으로 수집된 환자의 종속적(longitudinal) EHR 데이터에 기반한 정밀의료에 관심이 높아지고 있다.

이러한 관심에 부합해 질환 전주기적으로 검진, 기초임상, 혈액·뇨 검사, 영상데이터 및 투약정보 등을 모으고, 이를 전처리(outlier 제고, missing value 핸들링, 변수 종류 및 변숫값 통일 등) 및 정규화(normalization)하고, 정규화된 데이터로 딥러닝 기반 모델링을 하는 종속적 EHR 데이터 기반 정밀의료 방법이 빠르게 개발되고 있다. 예를 들어 당뇨의 경우, 10만 명 이상의 내원 환자를 대상으로 종속적으로 수집된 데이터에 당화혈색소(HbA1c)를 예측하는 딥러닝을 수행할 수 있다. 변수들을 연속(continuous) 변수(예: 혈당 수치, CBC 결과 등)와 불연속(discrete) 변수(예: 나이, 성별, 약물 종류 등)로 나누고, 각각에 종속적 데이터를 학습할 수 있는 순환 신경망(recurrent neural network, RNN) 모델과 이 두 모델을 통합하는 다층신경회로망(multilayered percentron, MLP)으로 구성된 RNN-MLP 모델을 구축할 수 있다.

수집된 전주기적 데이터를 이용해 딥러닝을 수행하면, 데이터들은 RNN-MLP 신경회로망 공간으로 임베딩(embedding)되면서 당화혈색소를 최대한 정확하게 예측할 수 있게 된다. 이렇게 학습된 RNN-MLP 딥러닝 모델을 만들고 나면, 먼저 신경회로망에 저장된 임베딩 데이터 정보를 뽑아 환자를 분류한다. 오믹스 기반 정밀의료 방법에서는 mRNA와 단백질 데이터로 환자를 분류한다면, EHR 기반 정밀의료 방법에서는 환자의 임상정보, 혈액·뇨 검사 결과, 투약정보 등에 따라 환자를 분류한다. 각 환자 그룹에서 특이적으로 증가한 변수들을 선별해 오믹스 분석에서와 마찬가지로 해당 그룹에 속하는 환자들의 특성을 정의한다.

예를 들어, CRP가 증가한 환자 그룹에서는 염증기반 인슐린저항성, ALT가 증가한 환자 그룹에서는 간손상(liver demage)에 의한 인슐린저항성, 호르몬 수치가 증가한 환자 그룹에서는 호르몬에 인한 인슐린저항성을 가진다고 판단할 수 있다. 이러한 특성을 이용해 오믹스 기반 정밀의료에서처럼 해당 환자 그룹의 치료법을 제시할 수 있다.

하지만 모든 환자의 종속적 데이터에서 당화혈색소를 예측 가능한 모델이 있으므로, 좀 더 개인별로 맞춤화된 치료법을 예측할 수 있다. 예를 들어 특정 환자의 현시점까지 환자 상태를 대변하는 종속적 데이터에 대해 현재까지 처방된 처방전을 모두 모델에 넣고 각 처방이 어떻게 당화혈색소를 변화시킬 수 있는지 예측할 수 있다. 또한, 이에 기반해 당화혈색소 강화 효과가 가장 큰 처방전을 환자에게 가장 적합한 치료법으로 제시할 수 있다. 이때 신장에 무리를 주는지 판단하기 위해, 당화혈색소 대신 신장투과율(eGFR)을 예측할 수 있는 다른 RNN-MLP 딥러닝 모델을 구축해 eGFR도 당화혈색소와 같이 예측하고, 적합한 치료법이 신장투과율을 떨어뜨리지 않는 것을 확인할 수도 있다. 이러한 방법은 환자 그룹 별로만 치료법을 제시할 수 있는 오믹스 기반 정밀의료의 한계를 넘어 개인별 맞춤형 정밀의료 방법을 제시할 수 있다.

오믹스와EHR 기반
정밀의료의 통합

현재 많은 연구자들이 오믹스와 EHR 기반 정밀의료 방법을 통합하는 시도를 하고 있다. 오믹스로 환자의 서브타입을 예측하고, EHR 기반으로 예측한 최적의 치료법이 오믹스가 예측한 환자의 서브타입 특성을 반영하는지를 평가해 두 가지 정밀의료 방법을 통합하려는 것이다. 하지만 이러한 통합 정밀의료 방법도 1) 오믹스, EHR 모델 구축을 위해서 사용될 환자 코호트 사이즈와 포함되어야 하는 환자를 어떤 기준으로 정할 것인지, 2) 영상데이터는 어떤 식으로 다른 임상정보, 검사 데이터와 통합되어야 하는지, 3) 오믹스 및 EHR 모델 구축 당시 사용된 환자와 많이 다른 환자에게는 오믹스, EHR 모델의 정확도가 높지 않은데 이런 환자에 대한 치료법은 어떻게 예측해결 할 것인지 등을 포함한 다양한 문제점이 제시되고 있다.

이러한 문제를 해결하기 위해서는 오믹스, EHR 기반 정밀의료 방법을 적용하고, 문제점을 파악하고 개선하는 노력을 지속해야 한다. 앞으로 20년 후에는 민간이나 정부섹터에서 개발된 정밀의료 플랫폼이 실제 의료 현장에 도입될 것으로 보인다. 이때는 외국에서 개발된 정밀의료 플랫폼을 사용하며 비용을 지불하는 기술적 종속 상태가 될 것이다. 이러한 상황에 처하지 않으면서 한국 환자의 특성을 반영하는 정밀의료 플랫폼 개발을 위해서는 지금부터라도 이 분야에 투자가 이뤄져야 한다. 우리나라는 선진국보다 환자 데이터 활용에 대한 정책적 지원이 미비해 임상정보 활용 제도가 많이 부족한 상황이다. 또 데이터 소유에 다양한 이해당사자들(병원, 데이터센터, 학교, 정부부처, 민간·공공기관 등)과 IRB 승인 등 여러 문제가 복잡하게 얽혀 있어 연구자가 자유롭게 임상 데이터를 활용하기 어려운 상황이다. 가까운 미래에 이러한 문제를 제도적으로 해결해 한국형 정밀의료 플랫폼 개발 연구가 활발해지기를 기대한다.

황대희

MIT에서 생명정보학으로 박사학위를 취득하고, 미국 시스템생물학연구소에서 시스템생물학 연구를 수행했다. 포스텍, 디지스트, 서울대 교수와 시스템 다이나믹스 센터장, IBS 부단장, 생명의료정보연구소장으로 현재 멀티오믹스 & EHR 기반 정밀의료 연구를 수행하고 있다.