[Drug Discovery] #1 신약개발에서의 인공지능

새로운 신약이 식약처의 허가를 받아 시장에 출시되기까지 시간과 비용 등의 방대한 자원이 소요됩니다. 이는 새로운 신약을 발굴하는 과정이 질병 치료의 메커니즘(Mechnism-of-Action MoA) 및 약물로써 화합물의 유효성과 안전성에 대한 엄밀한 검증을 요구하기 때문일 것입니다. 뿐만 아니라 우주에서 존재가능한 화합물의 수는 사실상 무한대에 가깝다고 회자되기도하는데요. [그림 1] 하나의 신약이 식약처 허가를 받기까지의과정 실제로 신약개발의 가상 및 실험적 탐색을 위한 화합물 라이브러리 중 하나인 ZINC 데이터베이스[1,2] 에 존재하는 화합물의 수는 처음 공개된 2005년 이후로 지속적으로 늘어나고 있으며, 현재 1억개가 넘는 화합물의 구조가 공개되어있습니다. 비록 대용량 탐색기술(High Throughput Screening HTS) [3] 이 계속해서 발전하고 있지만, 이렇게 수많은 화합물을 실험적으로 검증하는 것은 사실상불가능합니다. [그림2] 대용량 가상탐색 (High Throughput Virtual Screening HTVS) 의 모식도,[출처] 그렇기 때문에 신약개발에 있어서 인공지능/기계학습 방법론을 접목하여, 시간과 경제적 비용을 줄이고자 하는 요구는 날이 갈수록 증가하고 있으며, 이를 위한 연구들이 실제로 이루어지고 있습니다. 분자의 구조를 입력값으로 하여 생체활성 및 독성 (ADME/T) [4], 단백질과의 결합력 (Binding affinity) [5] 등을 예측하는 모델은 실험적 검증과정의 대리 가설 (surrogate hypothesis) 로서 활용이 되고 있습니다. 이를 바탕으로 대용량 가상탐색 (High Throughput Virtual Screening HTVS) [6] 을 통해 무수히 많은 수의 분자의 물성을 예측하고, 실험검증의 성공율을 높이고자 하는 노력들이 이루어지고 있으며, 화합물 라이브러리에 존재하지 않는 완전히 새로운 화합물을 디자인하고자 하는 생성모델 [7] 역시 활용되고 있습니다. 이 외에도, 화합물 합성경로를 예측하는 연구 [8], MoA를 규명 및 검증하고자 하는 생물정보학 기반의 연구 [9], 환자맞춤 정밀의료시대에 발맞추어 환자별로 적합한 임상실험을 하기 위한 바이오마커 발굴 연구 [10] 등이 이루어지고 있습니다. 이처럼 화학/생물/기계학습이론 등 많은 학문들이 융합적으로 이루어져서 신약개발 산업의 지평을 넓혀가고있습니다. 하지만 “신약개발”과 “인공지능” 이 둘의 궁합은 단어적 의미만을 놓고 보면 잘 맞지 않을지도 모릅니다. “신약개발”은 “새로운(novel) 것”을 발굴한다는 의미를 가지는 반면, 현재의 인공지능은 훈련용 데이터 분포 바깥에 존재하는 데이터에 대해서는 예측력이 떨어진다는 한계점을 가지고 있습니다. 즉, 신약후보물질이라는 새로운 데이터에 대해서 좋은 예측력을 보일 수 있을지에 대해서 의문을 가질 수 있습니다. 가상탐색을 위한 화합물은 1억개 넘게 존재하는 반면 훈련용 데이터는 수천-수만개 정도 수준임을 감안하면, 인공지능을 신약개발에 접목하는 것이 쉽지 않음은 분명합니다. 그렇다면 인공지능 혹은 계산과학을 신약개발에 접목하여 어떻게 효율화를 이끌어낼 수있을까요? [그림3] (a), (b), (c) 모델 파라미터의 점추방 방식과 베이지안 추론 방식의 비교 도식도. 점추정 방식은 Decision boundary를 하나만 고려하여 제대로 된 예측 확률을 추정하기 힘든 반면, 베이지안 추론 방식은 여러 Decision boundary를 고려하여 좀 더 신뢰도가 높은 예측 확률을 추정케끔 한다.[출처] AITRICS 신약개발팀의 접근법 중 하나는 신뢰할 수 있는 인공지능, 확률로써 결과를 해석할 수 있는 인공지능을 개발하여, 가상탐색의 성공확률을 높이고자 하는 방법입니다. 의료 혹은 자율주행과 같이 인공지능의 신뢰도 및 안전성이 중요한 분야에서 활용되고 있는 “베이지안 딥러닝”이 신약개발 분야에서도 적극적으로 활용되고 있습니다.[11] 일반적으로 모델 파라미터를 점추정(point estimation)하는 인공지능 모델과 달리, 베이지안 러닝 알고리즘을 활용하면 분포를 출력값을 구할 수 있습니다. [12] 이 분포의 평균과 표준편차값을 통해서 기댓값과 불확실성을 정량화할 수 있으며, 불확실성이 높은 예측값은 오류가 발생할 확률이 높기 때문에 실험에 투입 여부를 다시 한번 재고하는 안전장치로써 활용할 수 있습니다. 자율주행에서 사물인식의 불확실성이 높으면 안전제어장치를 발동시킬 수 있는 것과 같이 [13], 신약개발에서 독성이 있을 확률이 높거나 독성 예측의 불확실성이 큰 화합물은 후보물질로써 포함시키지 않기때문에, 실험과정에서의 실패확률을 줄일 수 있습니다.[14] 이상적인 인공지능은 훈련 데이터 분포 바깥에 위치하는 데이터에 대해서는 예측값을 제대로 구할 수 없기 때문에 불확실성이 높고, 그렇지 않은 데이터에 대해서는 불확실성이 낮게 구해져야합니다. 하지만, 이상적이고 완벽한 베이지안 모델은 실제로는 구현이 불가능하여, 많은 근사법들이 제안되어왔지만, 잘못된 근사법을 사용하면 불확실성과 예측값을 제대로 구할 수 없게 되기에 신약개발에서 성공률 향상에 도움이 되지 않을 수 있습니다. 따라서 AITRICS는 여러 베이지안 러닝 알고리즘 구현을 통해 정확도와 신뢰도를 평가하여 [15], 두 마리 토끼를 모두 다 잡을 수 있는 모델을 실전에 사용하고자 하고있습니다. [그림 4] 신약후보 물질 설계의 기본 골격 구조인 Scaffold 구조를 기반으로 하는 분자설계 컴퓨터 비전, 자연어 처리, 음성 인식 등 분야에 따라 적합한 입력값의 표현 방법과 이를 처리하는 뉴럴 네트워크의 구조가 달라지듯, 신약개발에 적합한 입력값과 모델을 활용하는 것이 중요합니다. 예컨데, 분자는 원자와 원자들간의 결합으로 표현이 됩니다. 즉, 분자는 그래프로 표현이 될 수 있으며, 이를 입력하여 처리하는 그래프 뉴럴 네트워크를 활용함으로써 분자 물성 예측 및 분자 생성을 수행할 수 있습니다. [16] 더 나아가서, 사회 관계 네트워크 (social network), 지식 관계 그래프(knowledge graph)와 같이 달리, 분자는 작용기(functional group)라는 작은 그래프/구조들로 이루어져있습니다. 원자들의 조합이 패턴화되어 작용기를 이루고, 이 작용기들이 조합되어 하나의 분자를 이루는 것입니다. 그렇기 때문에, 분자를 조금 더 화학자스럽게 묘사하기 위해서는 이러한 작용기들을 골격으로 하는 표현식과 뉴럴 네트워크를 다루는 것이 더 효율적입니다. [17] 이는 의약화학자들이 약물 디자인을 위해 골격으로 활용하는 스캐폴드(scaffold) 구조에 작용기들을 붙혀가며 약물 물성을 최적화해가는 과정을 묘사하는데 더 적절합니다. 신약개발 전문가와 같은 인공지능을 개발하고자한다고 할 수 있습니다.[18] [그림 5] 도킹 (Docking) 계산 방법론을 활용한 ultra-large scale virtual screening의 도식도와 결과의 예시. 도킹 계산의 대상이 되는 화합물 라이브러리의 사이즈가 커질 수록 도킹 계산 결과값이 개선된다.[출처] 마지막으로, 기존의 계산화학 방법론을 활용하고, 한계점을 극복하기 위해 기계학습을 적극적으로 활용하는 것입니다. Variational Autoencoder (VAE), Graph Convolutional Network (GCN) 등 굵직한 인공지능 알고리즘을 발표한 Max Welling은 인공지능의 발전 방향에 대해 아래와 같은 코멘트를 남겼습니다.[19] “There are no predictions without assumption, no generalization without inductive bias.” 데이터 기반 접근법에 대한 철학적인 표현으로, 더 높은 일반화 성능을 달성하기 위해서는 합리적인 가정과 인간의 개입이 필요하다는 뜻입니다. 이는 물리, 화학, 생물학적인 현상이 데이터라는 숫자로 표현이 되고, 우리는 그 데이터를 분석하여 의사결정을 내리기 위한 인공지능 알고리즘을 개발하는데, 데이터로 표현되는 현상에 대한 적절한 직관이 개입되면 더 좋은 성능을 낼 수 있습니다. 이를테면, 예로부터 신약개발에서는 도킹 계산(molecular docking), 분자 동역학(molecular dynamics)과 같은 물리/화학 기반의 계산방법이 적극적으로 활용되고 있습니다. [6] 인체 내에서 일어나는 현상을 물리수식으로 기술하고, 수식을 바탕으로한 예측을 통해 가상탐색을 수행하는 것입니다. 다만, 물리기반 계산 방법론은 많은 계산 시간이 요구되기에 근사법이 도입되게 되고, 그로인해 계산의 정확도가 떨어진다는 한계점이존재합니다. 상술하였듯이, 데이터 기반 계산은 더 적절한 가정과 원리가 필요하고, 물리기반 계산은 속도와 정확도라는 두 마리 토끼를 잡기 위한 더 나은 근사법이 필요합니다. 서로 다른 두 방법론의 장점을 활용하고 단점을 보완하기 위한 연구들이 활발하게 이루어지고 있으며, AITRICS 신약개발 팀에서도 이를 적극적으로 활용하고자 하고있습니다. 글을 맺으며, 인공지능 및 물리기반 계산방법론은 만병통치약이 아닌, 신약개발에서 수행되는 실험적 검증과정 중 하나의 대리가설임을 강조하고자 합니다. 예를 들어, 임상시험은 약물의 유효성 및 안전성을 인체 내에서 검증하는 과정입니다. 이 과정은 막대한 비용이 요구되기 때문에, 전임상시험(in vivo experiment)을 통과한 엄선된 후보물질에 대해서만 이루어집니다. 즉 전임상시험은 임상시험의 대리가설이라고 할 수 있는 것입니다. 그렇지만 전임상시험 역시 많은 비용이 들기 때문에, 시험관에서 이루어지는 시험(in vitro experiment)이라는 대리가설을 통해 검증된 물질들에 대해서 시험을 수행하게 됩니다. 계산 방법론은 컴퓨터 내에서 이루어지는 in silico experiment라고 할 수 있습니다. in vitro experiment의 대리 가설이라고 할 수 있는 것입니다. 이처럼, 여러 대리 가설들을 연속적으로 적용해가면서 임상시험에 도달되는 후보물질이 발굴되고, 앞단에서 이루어지는 대리 가설이 얼마나 합리적이고 성공적이냐에 따라서 많은 비용이 요구되는 뒷단에서의 실험 성공률이 높아지게됩니다. 이러한 맥락에서, AITRICS 신약개발팀은, 단순히 숫자만을 보는 것이 아닌 “우리가 어떤 대리 가설을 개발하고 있는 것인가?” 를 지속적으로 고민하고, 최대한 옳은 가설을 세우고 엄밀하게 검증해가고자합니다. 위에서 소개한 기술적 내용들은 앞으로 AITRICS Tech Blog를 통해 상세하게 소개해드리겠습니다. 뿐만 아니라, 신약개발을 위한 인공지능 개발에 도입되는 알고리즘 연구 동향, 계산화학/생물학 연구 동향, 신약개발 연구 동향 등 신약개발 도메인과 방법론을 폭넓게 다룰예정입니다. 참고문헌 [1] ZINC Database, https://zinc.docking.org/ [2] Irwin, John J., and Brian K. Shoichet. “ZINC− a free database of commercially available compounds for virtual screening.” Journal of chemical information and modeling 45.1 (2005):177182. [3] Macarron, Ricardo, et al. “Impact of high-throughput screening in biomedical research.” Nature reviews Drug discovery 10.3 (2011):188195. [4] Mayr, Andreas, et al. “DeepTox: toxicity prediction using deep learning.” Frontiers in Environmental Science 3 (2016):80. [5] Lim, Jaechang, et al. “Predicting drugtarget interaction using a novel graph neural network with 3D structure-embedded graph representation.” Journal of chemical information and modeling 59.9 (2019): 39813988. [6] Lyu, Jiankun, et al. “Ultra-large library docking for discovering new chemotypes.” Nature 566.7743 (2019):224229. [7] Zhavoronkov, Alex, et al. “Deep learning enables rapid identification of potent DDR1 kinase inhibitors.” Nature biotechnology 37.9 (2019): 10381040. [8] Jensen, Klavs F., Connor W. Coley, and Natalie S. Eyke. “Autonomous discovery in the chemical sciences part I: Progress.” Angewandte Chemie International Edition(2019). [9] Ata, Sezin Kircali, et al. “Recent Advances in Network-based Methods for Disease Gene Prediction.” arXiv preprint arXiv:2007.10848 (2020). [10] Ozerov, Ivan V., et al. “In silico Pathway Activation Network Decomposition Analysis (iPANDA) as a method for biomarker development.” Nature communications 7.1 (2016):111. [11] Gal, Yarin. “Uncertainty in deep learning.” University of Cambridge 1.3(2016). [12] Blundell, Charles, et al. “Weight uncertainty in neural networks.” arXiv preprint arXiv:1505.05424 (2015). [13] McAllister, Rowan, et al. “Concrete problems for autonomous vehicle safety: Advantages of bayesian deep learning.” International Joint Conferences on Artificial Intelligence, Inc.,2017. [14] Ryu, Seongok, Yongchan Kwon, and Woo Youn Kim. “A Bayesian graph convolutional network for reliable prediction of molecular properties with uncertainty quantification.” Chemical Science 10.36 (2019): 84388446. [15] Hwang, Doyeong, et al. “A benchmark study on reliable molecular supervised learning via Bayesian learning.” arXiv preprint arXiv:2006.07021 (2020). [16] Duvenaud, David K., et al. “Convolutional networks on graphs for learning molecular fingerprints.” Advances in neural information processing systems.2015. [17] Jin, Wengong, Regina Barzilay, and Tommi Jaakkola. “Junction tree variational autoencoder for molecular graph generation.” arXiv preprint arXiv:1802.04364 (2018). [18] Li, Yibo, et al. “DeepScaffold: a comprehensive tool for Scaffold-based de novo drug discovery using deep learning.” Journal of Chemical Information and Modeling 60.1 (2019):7791. [19] Welling, Max. “Do We Still Need Models or Just More Data and Compute?.” University of Amsterdam, April 20(2019). [Drug Discovery] #1 신약개발에서의 인공지능 was originally published in AITRICS TECH BLOG on Medium, where people are continuing the conversation by highlighting and responding to this story.

[Drug Discovery] #1 신약개발에서의 인공지능

댓글 0개