[Drug Discovery] #2 가상탐색을 위한 신뢰할 수 있는 인공지능

인공지능 모델을 개발하고 활용한다는 것은 데이터로부터 모델을 학습시켜 일종의 패턴을 발견하고, 이를 새로운 데이터에 적용하여 예측값을 추론해내는 것을 의미합니다. 그렇기 때문에, 좋은 데이터를 확보하는 것이 인공지능 모델 개발을 위한 첫 번째 단계라고 볼 수있습니다. 허나, 신약개발 및 헬스케어 분야에서 좋은 데이터를 수집하는 것은 쉽지 않습니다. 이를테면, 특정 화합물의 독성여부 데이터를 확보하기 위해서는 실제로 동물 혹은 시험관 실험을 진행해야합니다. 즉, MNIST/CIFAR 데이터셋과 같이 사람이 사진을 보고 쉽게 라벨을 판단할 수 있는 것과 달리, 실험을 통해 데이터를 확보해야하기 때문에 데이터 수집에 막대한 시간과 비용이 요구된다고 할 수 있습니다. 이러한 이유로 공공 목적의 대용량 데이터베이스를 구축하기 위해, 화학/생물학 분야의 논문 투고 시 컨소시엄을 구성하여 데이터베이스를 구축하고, 논문 작성에 활용된 데이터가 자동으로 데이터베이스에 기록 되도록하는 등의 방법을 활용하고 있습니다. 대표적인 예시로 PubChem [1], ChEMBL [2], BindingDB [3], Tox21 [4] 등을 들 수 있습니다. 그럼에도 불구하고, 예측력이 높은 모델을 개발하기 위해서는 데이터 숫자가 턱없이 부족한 상황이 매우빈번합니다. [표1]은 화학정보학 분야에서 머신러닝 연구를 위해 자주 활용되는 벤치마크 데이터셋입니다. 아래 표에서 볼 수 있듯이 데이터의 숫자가 1만개가 되지않는 경우가 대부분입니다. 화합물 공간 (chemical space) 혹은 가상탐색을 위한 라이브러리 (virtual screening library)에 존재하는 화합물의 수는 10억개가 넘는 것에 비하면 매우 적은 수의 데이터가 존재함을 확인할 수 있습니다. 뿐만 아니라 양성:음성 라벨(예: 독성:비독성 라벨)의 비율이 50:50이 아닌, 한 클래스의 숫자가 훨씬 더 많은 비균형 데이터셋임을 알 수 있습니다. 이와 같은 데이터셋을 이용하여 개발된 인공지능 모델은 예측값이 부정확할 뿐만 아니라, 예측값을 확률로써 해석하기 어렵습니다. 즉, 모델 예측의 정확도와 신뢰도가 떨어지게 되는것이죠. [표1] 인공지능 기반 신약개발 연구의 벤치마크로 활용되는 데이터셋에 대한 간략한통계 AITRICS에서는 제한된 수의 데이터를 활용하여 최대한 정확하고 신뢰도 있는 인공지능 모델을 개발하기 위해 베이지안 딥러닝(Bayesian deep learning)을 적극적으로 활용하고 있습니다.[5] 베이지안 딥러닝은 모델의 파라미터를 파라미터 공간에서 점으로써 추정하는 Maximum-A-Posteriori (MAP) 방법과 다르게 사후 분포(Posterior distribution)로 추정합니다. 아래의 [그림1]의 (a), (b), © 는 MAP 방법을, (d), (e), (f) 는 Bayesian 방법을 간단한 이분적 분류(binary classification) 문제에 적용하였을 때를 도식화한 것입니다. MAP 방법은 (b)의 노란 선에 해당되는 하나의 모델 파라미터(decision boundary)를 추정하고 이를 바탕으로 예측을 수행하게 됩니다. [그림1] ©의 빨간색/파란색 점의 훈련 데이터 분포 바깥에 존재하는 노란색 별의 데이터에 대해 예측 확률값이 높게 측정되는 것과 같이 점추정 방식은 과잉확신(over-confident)문제가 발생하게 됩니다. 훈련 데이터 분포에서 멀리 떨어져있어 올바른 라벨을 추정할 수 없음에도 불구하고 빨간 점들과 같은 클래스에 속할 확률이 높게 추정되는 것을 의미합니다. 반면, Bayesian 방법은 [그림1] (d), (e)와 같이 모델 파라미터의 값이 아닌 분포로 추정함으로써, 여러 decision boundary들을 고려하여 도출된 예측값의 기댓값을 예측확률값으로 추정하게 됩니다. 이를 통해 같은 노란색 별에 해당하는 샘플의 예측 확률 값은 [그림1] ©처럼 0.0과 1.0에 가까운 것이 아닌 [그림1] (f)처럼 0.5에 가깝게 되어, 점추정 방법에서 발견되는 과잉확신 문제를 해소할 수있습니다. [그림1] 점추정방법과 베이지안 방법의 binary classification 문제 적용에 대한 간략한 묘사. 출처[6] 베이지안 추론 방법을 통해 예측 확률값을 정확하게 추정하는 것은 도입부에서 설명한 것과 같이 데이터가 부족한 상황에서 특히 더 중요하게 작용합니다. 많은 가상탐색 라이브러리에 존재하는 화합물은 모델 개발에 사용된 데이터 분포에서 out-of-distribution(학습 데이터의 분포에 속하지 않는 데이터)에 해당하여, 확률값을 확실하게 추정할 수 없습니다. 따라서, 그 중 확실한 예측값만을 선택하는 것이 신약개발의 실험 과정으로 진행되었을 때 실패확률을 더 줄일 수있습니다. AITRICS는 베이지안 방법을 활용하여 신뢰도 높은 확률값의 추론 및 불확실성 정량화를 신약개발 연구에 적용하였습니다. 여러 Graph Neural Network(GNN)와 베이지안 학습 방법들을 구현하여 벤치마크 테스트화한 코드를 공개했으며,[7] 그 결과를 2020년 Journal of Chemical Information and Modeling 저널에 논문으로 게재했습니다.[6] AITRICS는 해당 연구에서 화합물 구조를 기반으로하는 정교한 예측모델을 개발하기 위해, 다양한 GNN과 베이지안 학습방법들을 비교했습니다. 베이지안 학습을 위해서는 사후 분포를 추정해야하는데, 정확한 사후분포를 추정하는 것은 매우 어렵기 때문에 지금까지 많은 근사법들이 연구되어왔습니다. 이번 연구에서는 Deep Ensemble,[8] Monte Carlo Dropout (MC-DO),[9] Bayes By Backprop (BBB),[10] Stochastic Gradient Langevin Dynamics (SGLD),[11] Stochastic Weight Averaging (SWA),[12] Stochastic Weight Averaging Gaussian (SWAG) [13] 근사법들을 모두 구현하고, 여러 벤치마크 데이터셋들에 대해 그 결과를검증했습니다. [그림2]는 BACE, BBBP, HIV, Tox21 벤치마크 데이터셋에 여러 베이지안 학습 근사법을 적용한 결과입니다. 모델의 정확도를 측정하는 지표들(Accuracy, AUROC, Recall, Precision, F1-score)과 신뢰도를 측정하는 지표(ECE Expected Calibration Error)를 이용하여 결과를 평가하였으며, 여러 방법들 중 SWA, SWAG 방법이 정확도 뿐만 아니라 신뢰도 향상에 가장 좋은 성능을 보임을확인했습니다. [그림2] 벤치마크 데이터셋들에 여러 베이지안 근사 학습 방법을 적용한결과 위와 같은 평가법에 더해, 모델의 과잉확신 경향 및 확률값 구간에 따른 예측 정확도를 평가하기 위해 예측 확률값 분포를 관찰했습니다. 신약개발 과정에서 0.0 혹은 1.0 근처에 존재하는 예측값들의 빈도와 해당 구간에서의 정확도 파악은 가상탐색 후 실험과정으로 넘어가기 위한 중요한 요소입니다. 실제 1억개의 화합물을 가상탐색 후 100200개로 추려 시험관(in vitro) 실험에 투입하는 시나리오에서 높은 예측 확률값을 가지는 화합물들이 시험관(in vitro) 실험에 투입될 수 있기때문입니다. [그림3]은 BACE, BBBP, HIV 데이터셋에 대한 MAP, SWAG 방법으로 훈련된 모델들의 예측 확률값 분포입니다. MAP 방법은 대부분 예측 확률값들이 0.0 혹은 1.0에 몰려있으므로, 과잉확신 경향이 있음을 확인할 수 있습니다. 반면, SWAG 방법은 과잉확신 경향성이 많이 완화되어, 확률값들이 전구간에 조금 더 고르게 분포하는 것을 확인할 수 있습니다. 이 그림을 통해 정확한 수치를 측정하긴 어렵지만, 1.0 근처의 예측값을 가지는 분자들에 대해서 (이를테면, 0.9~1.0 구간에 존재하는 분자들) 그 정확도가 향상되었음을 확인했습니다. 이는 SWAG 방법을 통해 가상탐색에 더 적합한 모델을 개발할 수 있음을의미합니다. 또한, 훈련 데이터 분포 바깥에 존재할 것으로 생각되는 데이터들에 대한 예측 경향성을 측정하기 위해 가상탐색 라이브러리에 존재하는 화합물 50만개에 대한 예측 확률값 분포를 살펴보았습니다. [그림4]는 그 결과를 나타냅니다. MAP 방법은 여전히 과잉확신 경향성으로 인해 대부분 예측값들이 0.0 혹은 1.0에 가까운 반면, SWAG 방법은 오히려 대부분의 예측값들이 0.5에 가깝게 존재함을 확인할 수있습니다. [그림3] 점추정 방법인 MAP 방법과 베이지안 학습 방법인 SWAG 방법의 예측 확률값의분포 [그림4] BACE 데이터셋으로 훈련된 모델을 ZINC 가상탐색 라이브러리에 존재하는 50개 화합물에 적용하였을 때 예측 확률값의분포 이처럼 베이지안 학습법은 가상탐색을 위한 인공지능 예측모델 개발에 유용함을 확인할 수 있습니다. AITRICS에서는 자체적인 화합물 구조-활성 관계(Structure-Property Relationship) 데이터베이스를 구축한 후, 확보한 데이터들을 바탕으로 독성, CYP 저해능력, 뇌혈관 장벽 투과능력(Blood-Brain Barrier Permeability) 등의 ADME 물성 예측 및 여타 다른 화합물의 물성을 예측하는 모델을 개발하고있습니다. AITRICS는 데이터 확보에 많은 비용이 요구되는 분야에서 효율적으로 모델을 훈련시키기 위해, 활발하게 활용되는 active learning에 자체 개발한 베이지안 학습 파이프라인을 응용하고 있습니다. [14, 15] 불확실성이 높은 예측은 그만큼 예측에 필요한 정보가 부족하다는 의미이기 때문에, 이러한 데이터들의 라벨을 확보하여 모델의 성능을 높은 효율로 개선시킬 수 있습니다. 이를 통해 데이터 확보에 필요한 in vitro, in vivo 혹은 in silico 실험 횟수를 줄여, 보다 더 적은 데이터로 최대한의 성능을 내는 모델을 개발할 수있습니다. 이번 글에서는 AITRICS에서 베이지안 학습을 신약개발에 응용한 사례를 다루어보았습니다. 신뢰할 수 있는 의사결정이 중요한 신약개발, 헬스케어 및 자율주행 등의 분야에서 베이지안 학습 방법이 널리 활용되고 있는만큼, 해당 이론과 알고리즘에 대한 이해가 적합한 인공지능 기술 활용에 큰 도움을 줄 수 있을 것이라 생각됩니다. 머신러닝 커뮤니티에서 이와 관련하여 이미 많은 연구들이 진행되어왔으며 지금까지도 계속해서 진행이 되고 있으므로, 향후 더 많은 분야에서 의미있는 변화들이 이루어질 것입니다. AITRICS에서도 계속해서 자사의 인공지능 기술을 고도화하여, 신약개발과 헬스케어를 비롯한 많은 분야에서 성공 사례들을 보여드리겠습니다. 참고문헌 [1] Kim, Sunghwan, et al. “PubChem 2019 update: improved access to chemical data.” Nucleic acids research 47.D1 (2019): D1102-D1109. [2] Gaulton, Anna, et al. “ChEMBL: a large-scale bioactivity database for drug discovery.” Nucleic acids research 40.D1 (2012): D1100-D1107. [3] Liu, Tiqing, et al. “BindingDB: a web-accessible database of experimentally determined proteinligand binding affinities.” Nucleic acids research 35.suppl_1 (2007): D198-D201. [4] Mayr, Andreas, et al. “DeepTox: toxicity prediction using deep learning.” Frontiers in Environmental Science 3 (2016):80. [5] Hwang, Doyeong, et al. “Comprehensive Study on Molecular Supervised Learning with Graph Neural Networks.” Journal of Chemical Information and Modeling 60.12 (2020): 59365945. [6] Ryu, Seongok, Yongchan Kwon, and Woo Youn Kim. “A Bayesian graph convolutional network for reliable prediction of molecular properties with uncertainty quantification.” Chemical Science 10.36 (2019): 84388446. [7] https://github.com/AITRICS/mol_reliable_gnn [8] Lakshminarayanan, Balaji, Alexander Pritzel, and Charles Blundell. “Simple and scalable predictive uncertainty estimation using deep ensembles.” Advances in neural information processing systems.2017. [9] Gal, Yarin, and Zoubin Ghahramani. “Dropout as a bayesian approximation: Representing model uncertainty in deep learning.” international conference on machine learning. 2016. [10] Blundell, Charles, et al. “Weight uncertainty in neural networks.” arXiv preprint arXiv:1505.05424 (2015). [11] Welling, Max, and Yee W. Teh. “Bayesian learning via stochastic gradient Langevin dynamics.” Proceedings of the 28th international conference on machine learning (ICML-11). 2011. [12] Izmailov, Pavel, et al. “Averaging weights leads to wider optima and better generalization.” arXiv preprint arXiv:1803.05407 (2018). [13] Maddox, Wesley J., et al. “A simple baseline for bayesian uncertainty in deep learning.” Advances in Neural Information Processing Systems 32 (2019): 1315313164. [14] Gentile, Francesco, et al. “Deep Docking: A Deep Learning Platform for Augmentation of Structure Based Drug Discovery.” ACS Central Science(2020). [15] Graff, David E., Eugene I. Shakhnovich, and Connor W. Coley. “Accelerating high-throughput virtual screening through molecular pool-based active learning.” arXiv preprint arXiv:2012.07127 (2020). [Drug Discovery] #2 가상탐색을 위한 신뢰할 수 있는 인공지능 was originally published in AITRICS TECH BLOG on Medium, where people are continuing the conversation by highlighting and responding to this story.

[Drug Discovery] #2 가상탐색을 위한 신뢰할 수 있는 인공지능

댓글 0개