[생성형 AI(Generative AI), 인간의 창작 영역을 넘본다! (59)] 생성형 AI가 신약을 본격 개발하는 시대 도래하다! ④ - 제약회사들이 알파폴드(AlphaFold)에 주목하는 이유는? (ii)

최봉 산업경제 전문기자 입력 : 2024.06.25 00:30 ㅣ 수정 : 2024.06.25 00:30

[기사요약]
‘단백질 접힘 문제’, 1972년 노벨 화학상 수상 연설에서 크리스티안 안핀센의 역사적인 예측으로 시작
단백질, 다른 생체분자보다 다양한 구조와 기능 수행할 수 있어.. 다양성은 단백질이 만들어지는 방식 때문
단백질 접히는 모양 이해하는 것, 생명 작동 원리 이해하는 데 필수
2020년 출시된 알파폴드 2, 단백질 접힘 문제 풀어내..

  • 카카오스토리
  • 네이버밴드
  • 페이스북
  • 트위터
  • 글자크게
  • 글자작게

사람들은 시, 소설, 보고서 등 글쓰기, 그림 그리기, 알고리즘 코딩 등 창작의 세계가 그동안 인간에게만 허락된 별도의 영역이라 알고 있었다. 그런데 AI(인공지능)의 발전과 함께 이제는 진화한 AI가 스스로 창작의 영역을 넘보는 시대가 되었다. 생성형 AI(Generative AI)의 등장은 인간에게 어떤 의미가 있으며 우리의 미래에 어떤 영향을 미칠지 가늠하기 쉽지 않지만, 생성형 AI는 이미 여러 분야에서 현실로 나타나 적용되고 있다. 우리에게 성큼 다가온 생성형 AI의 시장현황, 다양한 이슈와 관심 사항 등을 살펴보기로 하자. <편집자 주>

 

image
[출처=medium]

 

[뉴스투데이=최봉 산업경제 전문기자] 1972년 노벨 화학상 수상 연설에서 크리스티안 안핀센(Christian Anfinsen)은 역사적인 예측을 했다.

 

즉, 단백질을 구성하는 분자의 1차원 문자열에만 기초하여 단백질의 3차원 모양을 결정하는 것이 원칙적으로 가능해야 한다는 것이다. 언젠가는 아미노산 순서만으로 모든 단백질의 3차원 구조를 예측할 수 있을 것이라는 희망어린 기대감을 표명했다.

 

‘단백질 접힘 문제(protein folding problem)’로 알려진 이 수수께끼에 대한 해결책을 찾는 것은 지난 반세기 동안 생물학 분야에서 큰 과제였다.

 

2007년에 한 평론가는 이를 “현대 과학의 가장 중요하지만 해결되지 않은 문제 중 하나”라고 묘사했다(forbes, 2020.10.3.)(이 시리즈 지난 편(2024.6.18)에서 알파폴드 2(AlphaFold 2)가 2020년 말 이 문제를 해결했다는 내용을 소개했다).

 

image
1972년 노벨 화학상을 수상한 크리스티안 안핀센(중앙) [출처=circulatingnow]

 


• 단백질 접히는 모양 이해하는 것, 생명 자체 어떻게 작동하는지 이해하는 데 필수적

 

생물학, 생명과학 등에서 단백질은 워낙 중요한 존재이기 때문에 조금더 관련 내용을 소개하겠다.

 

단백질은 대단히 다재다능하기 때문에 매우 중요하다. 단백질은 다른 유형의 생체분자(예: 지질(脂質) 또는 탄수화물)보다 훨씬 더 다양한 구조와 기능을 수행할 수 있다. 이 놀라운 다양성은 단백질이 만들어지는 방식 때문이다.

 

단백질의 모양은 그 기능과 밀접한 관련이 있다. 예를 들면, 항체 단백질은 자물쇠에 꼭 맞는 열쇠처럼 특정한 이물질을 정확하게 식별하고 표적으로 삼을 수 있는 모양으로 접힌다.

 

따라서 단백질이 접히는 모양을 이해하는 것은 유기체가 어떻게 기능하는지, 그리고 궁극적으로 생명 자체가 어떻게 작동하는지 이해하는 데 필수적이다(forbes, 2020.10.3.).

 

하지만 문제는 아미노산 배열에 따라 단백질이 접힐 수 있는 다양한 구성의 수가 천문학적이라는 것이다. ‘레빈탈의 역설(Levinthal’s paradox)‘에 따르면, 어떤 특정 단백질이라도 이론적으로 10^300(10의 300승)가지의 서로 다른 구성을 채택할 수 있다.

 

그러나 어떻게든 이러한 모든 가능한 구성 중에서 각 단백질은 자발적으로 하나의 특정 모양으로 접히고 그에 따라 생물학적 목적을 수행한다.

 

따라서 단백질이 어떻게 접히는지 아는 것은 엄청나게 어렵고 생물학적 과정을 이해하는 데 절대적으로 중요하다.

 

단백질 접힘 문제가 수십 년 동안 생물학 분야의 난제 중의 난제였던 것은 당연한 사실이고, 이 문제의 해결의 실마리를 찾아낸 딥마인드의 알파폴드에 경의를 표하지 않을 수 없다.

 

image
[출처=statnews, DeepMind]

 


• 알파폴드 시리즈, 3가지 버전 출시..CASP13,14에서 연거푸 우승

 

알파폴드는 2018년 ‘알파폴드 1’을 시작으로 2020년 ‘알파폴드 2’, 2024년 ‘알파폴드 3’까지 출시해 있다.

 

알파폴드 1은 2010년대에 여러 팀이 개발한 작업을 기반으로 구축되었다. 알파폴드 1은 첫 번째 버전이었지만 이미 상당 수준에 도달해 있었던 것으로 판단된다.

 

알파폴드 1을 사용한 연구팀은 2018년 12월에 열린 ‘CASP13(제13회 단백질 구조 예측 대회)’에서 종합 순위 1위를 차지했다.

 

이 AI 시스템은 특히 부분적으로 유사한 서열을 가진 단백질로부터 기존 템플릿 구조가 없는, 대회 주최 측에서 가장 어렵다고 평가한 표적에 대해 가장 정확한 구조를 예측하는 데 성공했다.

 

알파폴드 1은 이 클래스에서 43개의 단백질 표적 중 25개를 가장 잘 예측했으며, CASP의 GDT(global distance test) 점수 중앙값 58.9점을 획득해 딥러닝을 사용해 예측한 2위 팀의 52.5점과 52.4점을 앞질렀다. 전체적으로 알파폴드 1은 모든 목표에서 68.5점의 GDT 점수를 획득했다.

 

image
알파폴드 2가 예측한 단백질 구조(좌)와 실제 구조(우) 비교 [출처=arstechnica]

 

2020년 알파폴드 1의 업그레이드 버전인 알파폴드 2가 출시되었다. 지난 편에서 소개했듯이 이 시스템은 단백질 접힘 문제를 풀어냈으며, CASP14에서 평균 92.4GDT의 점수를 얻었다. 알파폴드 1에 비해서도 놀랄만한 성능 개선이 있었음을 알 수 있다.

 

알파폴드 시리즈에 대한 얘기는 다음 편에서 이어가겠다.

 

 


 

image

댓글 (0)

- 띄어 쓰기를 포함하여 250자 이내로 써주세요.

- 건전한 토론문화를 위해, 타인에게 불쾌감을 주는 욕설/비방/허위/명예훼손/도배 등의 댓글은 표시가 제한됩니다.

0 /250