카이스트(KAIST) 전기및전자공학부 한동수 교수팀이 머신러닝(ML) 기반의 유전체 정렬 소프트웨어(SW)를 개발했다. 연산량을 크게 줄이면서도 표준 유전체 정렬 SW와 동일한 정확도를 유지한 이 유전체 정렬 SW는 깃허브에 오픈소스로 공개됐다.
차세대 염기서열 분석은 유전체 정보를 해독하는 방법으로 유전체를 무수히 많은 조각으로 잘라낸 후 각 조각을 참조 유전체(reference genome)에 기반해 조립하는 과정을 거친다.
이렇게 조립된 유전체 정보는 여러 질병의 예측과 맞춤형 치료, 백신 개발 등 다양한 분야에서 사용된다.
유전체 정렬 SW는 차세대 염기서열 분석방법으로 생성한 유전체 조각 데이터를 온전한 유전체 정보로 조립하기 위해 사용되는 툴이다. 유전체 정렬 업에는 다수의 연산이 필요해 속도를 높이고 비용을 낮추는 방법에 대한 연구개발이 진행 중이다.
유전체 정렬 작업은 정렬해야 하는 유전체 조각의 양이 많고 참조 유전체의 길이도 길어 많은 연산량이 요구된다. 유전체 정렬 SW에서 정렬결과의 정확도에 따라 추후의 유전체 분석의 정확도가 영향을 받는다.
이러한 특성으로 유전체 정렬 SW는 높은 정확성을 유지하며 빠르게 연산하는 것이 중요하다. ML 기반의 색인기법(Learned-index)을 이 툴에 적용한 사례는 한동수 교수팀이 최초다.
일반적으로 유전체 분석에는 하버드브로드연구소(Broad Institute)에서 개발한 유전체분석툴셋(Genome Analysis Tool Kit, GATK)을 이용한 데이터 처리방법을 표준으로 사용한다.
이들 키트 중 BWA-MEM은 GATK에서 표준으로 채택한 유전체 정렬 SW로 2019년에 하버드대학이 인텔과의 공동연구로 BWA-MEM2가 개발됐다.
한동수 교수팀이 개발한 ML 기반의 유전체 정렬 SW는 연산량을 크게 줄이면서도 표준 유전체 정렬 SW인 BWA-MEM2과 동일한 결과를 만들어 정확도를 유지했다.
사용한 ML 기반의 인덱싱 기법은 제시된 데이터의 분포를 ML 모델이 학습해 데이터 분포에 최적화된 인덱싱을 찾는 방법론으로, 데이터에 적합하다고 생각되는 인덱싱 방법을 사람이 정하는 기존 방법과 대비된다.
BWA-MEM과 BWA-MEM2에서 사용하는 인덱싱 기법(FM-index)은 유전자 조각의 위치를 찾기 위해 유전자 조각 길이만큼의 연산이 필요하지만, 이번에 제안한 알고리즘은 ML 기반의 인덱싱 기법(Learned-index)을 활용해, 유전자 조각 길이와 상관없이 적은 연산량으로도 유전자 조각의 위치를 찾을 수 있다는 게 연구팀의 설명이다.
연구팀은 이렇게 제안한 인덱싱 기법이 기존 기법과 비교해 3.4배 정도 가속화됐고, 이로 인해 유전체 정렬 SW는 1.4 배 가속화됐음을 확인했다고 설명했다. 연구팀이 이번 연구에서 개발한 유전체 정렬 SW는 깃허브에 오픈소스로 공개됐다.
한동수 교수는 “이번 연구를 통해 기계학습 기술을 접목해 전장 유전체 빅데이터 분석을 기존 방식보다 빠르고 적은 비용으로 할 수 있다는 것을 보여줬다. 향후 이 기술을 활용해 전장 유전체 빅데이터 분석을 효율화, 고도화할 수 있을 것으로 기대한다ˮ고 말했다.
KAIST 전기및전자공학부 정영목 박사과정이 제1 저자로 참여하고, 과학기술정보통신부의 재원으로 한국연구재단의 지원을 받아 데이터 스테이션 구축·운영사업의 일환으로 진행된 이번 연구결과는 지난달 국제 학술지 ‘옥스포드바이오인포메틱스(Oxford Bioinformatics)’에 게재됐다
관련기사
- KT, 감염병 대응연구 앱 ‘샤인(SHINE)’ 코로나19로 연구범위 확대
- 바이오 벤처 싸이퍼롬, 195억 규모 시리즈B 투자유치
- ETRI, 메모리 중심 컴퓨팅으로 유전체 분석시간 단축
- KAIST·서울대병원, 디지털 헬스케어 기술 협력 ‘맞손’…MOU 체결
- 길리어드, AWS 클라우드 도입…신약 개발 가속화
- LGU+, 테라젠바이오와 디지털 헬스케어 서비스 발굴 ‘맞손’
- “인공지능(AI) 기술, 의료·헬스케어 산업의 미래 견인할 핵심요소”
- 日 소재기업 아데카, 한국 사업장서 고유전체 소재 개발
- 포스텍 이장식 교수팀, 병렬처리 가능한 인공신경망 어레이 개발
- 국내 연구진, 날숨 속 특정가스 검출…질병 모니터링 기술 개발