[Drug Discovery]#3 대용량 가상탐색을 위한 계산화학 방법론의 활용과 개선방안

[Drug Discovery] #3 대용량 가상탐색을 위한 계산화학 방법론의 활용과개선방안 최근 신약개발 분야에서 물성 예측, 새로운 후보물질 설계 등의 응용에 인공지능을 적극적으로 활용하고 있습니다. 지난 포스팅에서 소개하였듯이, AITRICS에서는 분자의 단백질 저해 활성도 및 독성 등을 예측하기 위해 Graph Neural Network와 Bayesian Learning 알고리즘을 적용하여 보다 정확하고 신뢰도 높은 인공지능을개발했습니다. 그럼에도 불구하고, in silico drug discovery라고 불리우는 컴퓨터 기반 신약개발 초기단계에 인공지능만을 적용하기에는 여전히 많은 장벽들이 존재합니다. 첫 번째로, 인공지능을 개발하기 위한 데이터 부족 문제가 있습니다. 신약개발에 필요한 데이터들은 대부분 시험관 혹은 동물 실험을 통해 확보하는데, 그 과정에서 많은 시간과 경제적 비용이 소요되는것은 물론이고, 특히 이전까지 연구된 사례가 적은 단백질 타겟의 경우 이러한 데이터 부족 문제가 두드러지게 됩니다. 두 번째로, 현재 인공지능 모델들의 떨어지는 일반화 성능(generalization ability)으로 인해 야기되는 정확도 및 해석 가능성 저하 문제가 있습니다. 분자의 단백질 저하 활성도 및 독성 등은 단백질과 분자의 상호작용이라는 화학적 현상의 결과물이며, 이를 정확하게 묘사하는 것이 이 값들을 예측하는데 중요하게 작용합니다. 하지만, 딥러닝 모델을 활용한 예측은 데이터에서 주요하게 발견할 수 있는 패턴을 인식하여 예측을 수행하기때문에, 분자 수준에서의 현상을 이해한 예측은 어려울 수 있습니다. 이러한 예측 방식은 일반화 성능의 저하로 이어지게됩니다. 따라서, 인공지능 기술과 함께 오랫동안 연구되어온 계산화학 방법론을 in silico drug discovery 분야에 적절하게 활용하는 것이 중요하다고 판단됩니다. 계산화학 방법론은 분자 수준에서의 현상을 물리학적 수식으로 묘사하여 분자-단백질 결합 정도(binding affinity) 등을 예측하는 것 입니다. 대표적으로 (molecular) Docking, Molecular Dynamics (MD), Free Energy Perturbation (FEP) 등의 방법이 있습니다. Docking은 계산속도가 빨라 대용량으로 많은 수의 분자들을 가상탐색하기에 적절한 반면 정확도가 상대적으로 뒤쳐지며, MD/FEP는 높은 정확도를 보이지만 많은 연산량을 요구하기때문에 방대한 분자수를 탐색하기에는 부적절하다는 단점이 존재합니다. 그럼에도 불구하고, 이 방법들은 데이터 기반이 아닌 물리 법칙을 기반으로 함으로써, 레이블링 된 데이터 없이 분자와 단백질 구조만 존재해도 서로간의 결합 정도를 예측할 수 있음으로, 데이터 부족 문제가 두드러지는 상황에서 적절하게 활용할 수 있습니다. 이러한 이유들로, 컴퓨터 하드웨어 및 클라우드 컴퓨팅의 발전과 함께 대용량 가상탐색을 위해 계산화학 방법론을 활용하는 전략에 대한 연구가 활발히 이루어지고있습니다. 소프트웨어와 하드웨어의 발전 뿐 아니라, “가상탐색 라이브러리(virtual screening library)”라고 불리우는 가상탐색을 위한 분자 확보 과정과 보급이 원활해지며 계산화학 방법론에 대한 연구가 더욱 활발해졌습니다. 가상탐색 후에는 시험관 실험을 통해 분자들의 활성도를 예측합니다. 이 실험 이전에 분자 합성 과정이 선행되어야하는데, 합성하는 과정 역시 많은 시간과 경제적 비용이 요구되기 때문에 후보물질을 빠르게 준비할 필요가 있습니다. 이를 위해, 그림1에서 보이는 바와 같이, 100개가 넘는 화학반응을 통해 다양한 빌딩 블록 물질들을 조합하여, 10억개가 넘는 분자들을 저렴하게 합성하는 기술이 보편적으로 활용되고 있습니다. 기존에는 대형 제약사들의 전유물이었지만, 최근 Enamine이라는 업체를 통해 빌딩 블록 물질들 뿐만 아니라 합성된 분자들을 구매할 수 있게 되어, 실험과정에 대한 설계가 더욱용이해졌습니다. [그림 1] Enamine 사의 빌딩 블록 화합물을 활용한 가상탐색 라이브러리의 생성, 그림 출처:[4] 최근 Nature에 발표된 두 논문[4, 5]에서 “많은 수의 분자를 가상 탐색할 수록 실제 시험관 실험에서 유효한 물질(Hit compound)을 발견할 확률이 높다”는 가설을 입증하여 Docking을 이용한 대용량 가상탐색 전략에 큰 이정표를 그었습니다. 그림 2의 (b)에서 설명하는 바와 같이, Docking 점수값이 높은 분자 50개를 선별화할 때 최대한 많은 수의 분자를 탐색할 경우, 선별된 50개 분자의 점수값이 높은 것을 확인할 수 있습니다. 이 결과를 통계학적으로 설명하면 다음과 같습니다. 그림 3과 같이, Docking 점수값이 정규분포를 따른다고 가정하고 이러한 분포에서 무작위로 표본추출을 하였을 때, 추출된 점수값(Docking 점수값)의 최대값에 대한 기대값은 표본추출 횟수의 로그 스케일에 비례하게 됩니다. 즉, 표본 추출을 통해 얻어진 Docking 점수값을 1만큼 향상시키고 싶으면 표본추출횟수를 10배, 2만큼 향상시키고 싶다면 표본추출횟수를 100배 늘려야한다는 뜻입니다. 결국 Docking 점수값이 높을수록 시험관 실험에서 유효할 확률이 높으며, 이를 위해서 Docking 계산을 최대한 많이 수행하는 것이 중요합니다. 또한 우리가 추출하고자 하는 화합물들은 분포의 꼬리부분에 해당하는 샘플들이기 때문에 많은 Docking 계산이 필요합니다. 이처럼 대용량 가상탐색의 성공과 보편화는 앞서 강조한 것과 같이 소프트웨어, 하드웨어, 가상탐색 라이브러리의 조화로운 발전을 통해 가능해졌다고 볼 수있습니다. [그림 2] Docking 방법을 활용한 대용량 가상탐색과 가상탐색 라이브러리의 크기에 따른 상위 50개 화합물의 Docking 점수 분포, 그림 출처:[5] [그림 3] Enamine HTS 데이터셋에 대한 Docking 점수 분포. Docking 점수는 정규분포를 이루고 있음을 확인할 수 있다, 그림 출처:[6] Gorgulla, Christoph, et al., Nature (2020) 논문[5]에서는 13.6억개의 분자를 가상탐색하여 ABC 단백질에 대한 Docking 점수값이 높은 분자 총 590개를 선별하였으며, 이를 통해 실제 시험관 실험에서 69개의 유효물질을 발굴했습니다. 해당 논문의 저자들은 오픈소스 Docking 소프트웨어인 QuickVina2 및 Enamine의 구매가능한 가상탐색 라이브러리 자원을 활용하였습니다. 뿐만 아니라, 4주의 기간동안 13.6억개라는 많은 수의 분자를 탐색하기 위해 Google Cloud Platform(GCP)와 CPU 8000개를 활용했습니다. 이처럼 대용량으로 CPU를 사용할 경우, GCP에 고시된 가격 기준으로 1억원이 넘는 비용이 소요되었을 것으로 생각됩니다. 이 결과를 해석하면, 유효 물질 발굴(Hit discovery)이라는 신약개발의 첫 단계는 1억원이라는 비용만 지불하면 일정 확률로 성공할 수 있다는 뜻임과 동시에, 1억원이 적지 않은 비용이기 때문에 이를 줄이기 위한 연구가 필요하다는 것을의미합니다. 위에서 소개한 연구가 대용량 가상탐색에 큰 변화를 이끌어냈지만, 아직까지 Docking을 활용한 가상탐색에서의 한계점은 존재합니다. AITRICS는 이를 개선하기 위한 연구를 지속하고있습니다. 진행중인 연구 중 그 첫 번째는, Docking에 소요되는 계산 시간과 비용을 줄이기 위한 연구입니다. 앞서 최대한 많은 수의 분자를 탐색하는 것이 유효함을 말씀드렸지만, 이는 모든 경우의 수를 직접 시도하는 “Brute force” 방법에 가깝기때문에, 보다 효율적으로 화합물 공간을 탐색하는 방법이 존재함을 의미합니다. 분자들을 더 효율적으로 탐색하기 위해 유효물질들은 실제로 비슷한 3차원 구조(shape)와 전하분포(electrostatics)를 가진다는 의약화학자들의 오랜 지식을 적용해 볼 수 있습니다. 최근 Connor Coley group에서 수행한 연구[6]에서 Docking-인공지능을 반복적으로 활용하는 능동학습(Active Learning)의 적용 결과를 소개했습니다. Docking 연산량을 줄이기 위해 Docking 계산을 선행하고, 이 과정에서 얻어진 점수값 데이터를 바탕으로 인공지능을 학습합니다. 그 결과 Docking 연산량을 40배 가량 줄일 수 있었으며, 유효물질은 13.6억개를 모두 계산하는 시도 대비 약 90% 찾을 수 있었습니다. 이는 2.5% 만의 비용으로 13.6억개의 유효물질을 계산하는 것과 거의 유사한 성능임을 의미합니다. 이 연구에서, AITRICS에서 오랜기간 연구하여온 Bayesian learning 알고리즘과 이를 활용한 모델들이 적극 활용될 수 있을 것으로 생각됩니다. (지난 포스팅 참고: t.ly/H5bv) 두 번째는, Docking 점수값의 정확도를 개선하기 위한 연구입니다. Docking 방법론은 화합물-단백질 상호작용을 물리법칙을 이용하여 모델링하되, 그 값을 빠르게 계산하기위해 많은 근사법이 적용되어왔습니다. 이로 인해 Docking 방법론의 정확도는 다른 물리기반 계산방법론에 비해 부정확할 수 밖에 없습니다. 이는 False Positive 예측 발생으로, 실제 실험검증단계에서 발굴되는 유효물질 수의 저하라는 결과로 이어지게 됩니다. AITRICS에서는 이를 극복하기 위해, 화합물-단백질의 상호작용을 물리법칙 기반이 아닌 다른 방식으로 모델링하여 새로운 점수 산출 방법을 개발했습니다. 그림 4와 같이 화합물과 단백질간에 가능한 상호작용의 종류로는 수소결합, 이온결합, van der Waals 결합 등이 있으며, 이러한 결합은 정해진 거리 이내에서만 상호작용이 유효합니다. 따라서 i) 상호작용의 종류, ii) 상호작용이 유효한 거리범위를 사전에 데이터 기반으로 정의하고, 유효한 상호작용을 바탕으로 점수를 산출합니다. 그 결과로 기존의 Docking 점수와 함께 활용하였을 때, 가상탐색 성공율이 높아졌음을 벤치마크 데이터셋을 통해 확인하였으며, 이 결과들을 발표할 수 있도록 논문 작성중에있습니다. [그림 4] 화합물과 단백질간에 유효한 상호작용을 모델링한결과 이번 포스팅은 대용량 가상탐색에서의 Docking 계산 방법론의 활용법과 그 한계 및 개선 방향에 대하여 소개해드렸습니다. Docking을 예시로 설명드렸지만, MD/FEP 역시 같은 논리로 적용될 수 있습니다. 이를 통해 유효물질 발굴에 성공하면, 그 다음으로 진행되는 단계는 유효물질(Hit)을 선도물질(Lead)로 개발하는 Hit-to-Lead 과정과 선도물질 최적화(Lead optimization) 단계입니다. 이 과정에서 발굴된 유효물질의 결합 활성도를 더 높여 원하는 타겟 단백질에 더 특이적으로 결합할 수 있도록 하며, 생체 내에서 독성이 없고 대사될 수 있게끔 구조를 최적화합니다. 이를 위해 AITRICS에서는 기존의 의약화학 지식을 결합하여 화합물 공간을 더 효율적으로 탐색하는 인공지능을 개발하고 있으며, 논문을 통해 이러한 결과를 발표할 수 있도록 준비중입니다. 아울러, 다음 테크 블로그 포스팅에서 인공지능 기반 Hit-to-Lead, Lead optimization 과정에 대해 소개해드리겠습니다. References [1] Wikipedia, Molecular Docking, https://en.wikipedia.org/wiki/Docking_(molecular) [2] Wikipedia, Molecular Dynamics, https://en.wikipedia.org/wiki/Molecular_dynamics [3] Wikipedia, Free Energy Perturbation, https://en.wikipedia.org/wiki/Free_energy_perturbation [4] Lyu, Jiankun, et al. “Ultra-large library docking for discovering new chemotypes.” Nature 566.7743 (2019):224229. [5] Gorgulla, Christoph, et al. “An open-source drug discovery platform enables ultra-large virtual screens.” Nature 580.7805 (2020):663668. [6] Graff, David E., Eugene I. Shakhnovich, and Connor W. Coley. “Accelerating high-throughput virtual screening through molecular pool-based active learning.” arXiv preprint arXiv:2012.07127 (2020). [Drug Discovery]#3 대용량 가상탐색을 위한 계산화학 방법론의 활용과 개선방안 was originally published in AITRICS TECH BLOG on Medium, where people are continuing the conversation by highlighting and responding to this story.

[Drug Discovery]#3 대용량 가상탐색을 위한 계산화학 방법론의 활용과 개선방안

댓글 0개