기타 등등

유전자 정보 데이터 분석하기

다된밥통 2018. 7. 19. 20:37

안녕하세요. 다된밥통입니다.

오늘은 국가수리과학연구소의 산업수학혁신센터가 주관한 학회에서 발표한 내용을 기반으로

유전자 정보 데이터를 이용한 정상인과 환자 판별에 대해 얘기해볼까 합니다.

인터뷰를 한 건 아니지만, 겨울스쿨에서 자기소개 시간에

대부분 수학과 선생님들이 오신것과 달리 물리학과 특히 복잡계를 공부하는 사람이 왔다는 것에 흥미를 느끼셨는지,

기자분이 제 자기소개를 듣고 감사하게도 기사를 실어주셨더라구요!

(감사합니다!)

이번 겨울스쿨에서는 크게 3가지 문제가 소개되었는데요.

저는 그중에서 유전자 데이터를 이용한 정상인, 환자 판별을 해보자는 문제를 할당받게 되었습니다.

특히, rsID라는 유전정보에 따른 정상/비정상 유무 데이터를 받았는데요.

rsID는 사람마다 다를 수 있는 유전자의 위치에 부여한 번호 정도로 이해하시면 좋을 것 같아요.

(더 자세한 내용은 저도 잘 모릅니다... 하하)

 

예시를 보면 좀더 이해하기 편하실텐데요.

rs4988235는 유당을 분해할 수 있는 능력과 관련된 유전정보이며,

rs1815739는 근육질의 성능과 관련된 유전정보를 담고 있다고 알려져 있다 하더라구요.

또 다른 예로는,

rs1042713은 천식을 유발하는 유전정보를 가지고 있다고 하네요.

즉, 어떤 질병 환자분들의 rsID 패턴을 우리가 알 수 있다면, 그 질병을 유발하는 유전정보들을 이용해 질병 분석을 해볼 수 있겠죠?

이러한 특징을 찾아보자가 본 문제의 핵심이었던 것 같아요.

데이터는 총 187명의 유방암 환자/정상인 분들의 rsID 정보로 이루어져있었구요.

우성/열성인자에 따라 그 값이 1/0 그리고 0.5로 정리되어 있었습니다.

 

총 690,652개의 rsID에 대해 조사된 데이터였구요.

오늘 저는 이 데이터 속에서 패턴을 바라보려 합니다.

주어진 시간이 짧았기 때문에 많은 조사를 해볼 수는 없었는데요.

제가 맡은 역할은 rsID에 대해 0,0.5,1이 차지하고 있는 비율을 분포로 시각화해보는 것이었습니다.

 

재미있는 포인트는,

0.5의 경우는 환자, 정상인분들 사이에서 비슷한 분포를 보이고 있다는 것이었는데요.

이는 유방암에서 0.5를 나타내는 rsID는 크게 관련이 없다는 것을 유추해볼 수 있습니다.

반면, 1 또는 0의 비율은 정상인과 환자분들 사이에 크게 다름을 볼 수 있었는데요.

 

이로 비추어보아, 1 또는 0의 비율을 측정하는 것만으로도 환자분들을 검출할 수 있음을 알 수 있었습니다.

이를 환자의 비율벡터와 정상인의 비율벡터를 이용하여 코사인 유사도를 측정해볼 수 있는데요.

벡터들의 유사도를 통해 어떤 rsID가 정상인과 환자분들을 가름지을 수 있는지 확인해보았습니다.

1과 0의 비율로 정상인과 환자분들 사이에서 다른 패턴을 보임을 확인했구요.

rsID의 유사도를 기준으로 200,000번째에서 400,000번째에 rank하고 있는 rsID에서 어떤 유의미한 차이가 있음을 확인했습니다.

사실, 제가 rsID에 전문적 지식을 가지고 있지도 않을 뿐더러, 유전정보에 대한 지식이 부족하기 때문에,

더이상의 정성분석을 해보는 것은 힘들었는데요.

 

하지만, 중요한 것은 rsID를 이용하여 정상인/환자 비율벡터를 이용했을 때, 그 패턴의 차이가 있다는 사실을 확인했다는 것입니다.

오늘은 유전자 정보 데이터를 이용한 유방암 환자 및 정상인 판별에 대한 이야기를 써보았는데요.

물론 저 뿐만 아니라 같은 팀원분들의 도움 덕에 재미있는 분석을 해볼 수 있었던 경험이었습니다.

저는 또 다른 재미있는 이야기로 찾아오겠습니다.

이상 다된밥통이었습니다.

감사합니다 :D.

 

'기타 등등' 카테고리의 다른 글

Tip 대방출  (0) 2019.11.21
객관식 문제의 보기 분석  (0) 2019.09.26
대학원 생활 & Calgary 생활  (0) 2019.09.06
행복 안심 길안내하기  (0) 2018.07.19
PPT 작성의 기초  (0) 2018.07.19