빅데이터 이해하기
초보자를 위한 빅데이터 이해하기
실시간 분석 IoT 빅데이터 발표자료
데이터 사이언티스트의 역할
성공적인 빅데이터 활용 3대요소
R, 그리고 빅데이터 | R 시각화 1, 2, 3
하둡 플랫폼의 활용 | 이교수의 멘붕하둡
블록체인 이해하기
블록체인 2019
비트코인, 블록, 체인, 분산장
블록체인 비즈니스 모델
문과생 블록체인 이해하기 도서
스톡옵션 관련 정리 1
창업자 필수 성장통 13가지
블록체인 DApp 서비스 UX 개선을
[강의]빅데이터의 소스 유형 정리

빅데이터 활용방향과 인사이트 도출
데이터 3대 분석기법간 관계

 
작성일 : 21-01-12 14:45
유전체 의학(Genomic Medicine) - (1) 배경 지식
 글쓴이 : 빅데이터
조회 : 42  
   https://blog.naver.com/curiouscalico/221812941730 [14]

인간 유전체의 구성

사람 몸에 있는 세포 수는 약 1013개이다. 각각의 세포는 동일한 유전정보를 가진다. 그 중 체세포(somatic cells)는 부모로부터 각각 유전체를 1개씩 받아 2배수(diploid)의 유전체를 가지고 있다. 한편, 생식세포(또는 성세포, germ cells)는 부모로부터 각각 1개씩 받아 2배수였던 유전체가 감수분열을 통해 나누어져 반수체(haploid)만을 가지고 있다.

염색체, chromosome(책):

총 46개(23쌍). 44개(22쌍)의 상염색체와 2개(1쌍, XX 혹은 XY)의 성염색체로 구성되어 있음.

상동염색체, allele:

DNA 나선의 한 가닥은 아버지로부터, 다른 한 가닥은 어머니로부터 받음.

유전자, gene(문장):

유전자는 세포의 기능을 담당하는 최소의 단위이자, 단백질을 전사하는 최소한의 단위. 사람의 유전자는 약 4만 개로 알려져 있으며, 이 중에서 단백질을 코딩하는 유전자는 약 2만 개 정도로 알려져 있음. 1개의 유전자는 평균 10만 개의 염기로 구성되며, 약 300개의 SNP가 하나의 유전자 안에 존재함. (100000 * (1/300)) 그 중에서 수개~수십 개의 SNP는 건강에 유의한 영향을 미치는 것으로 알려짐.

염기, base(글자):

약 30억 개. Adenosine, Guanine, Thymine, Cytosine의 네 종류가 있음.

변이, variant(다른 글자):

약 1천만 개. 유전 질환을 결정하는 "돌연변이" 뿐 아니라 개개인의 생물학적 다양성을 나타내는 특성 및 질병 소인을 결정하는 흔한 변이(common variant)인 "SNP"(단일염기다형성, 평균 300개의 염기에 하나 꼴로 일어나는 변이. 인구 사회에서 1% 이상에서 일어나는 가장 흔한 서열과 비교해서 DNA 서열의 하나의 부분에서의 변화. 대부분 intron에 존재하며 더 혹은 덜 활성화된 단백질을 만들도록 하는 것으로 알려짐.) 등이 해당됨.

인간 게놈, human genome(완전한 정보 백과사전):

한 사람에 대한 완전한 유전적 구성요소를 이루는 DNA로 이루어진 코드. 세포핵에 존재하는 23개의 염색체의 DNA(nuclear genome) 및 미토콘드리아 내부에 존재하는 DNA(mitochondrial genome)를 포괄함. 단백질을 코딩하는 영역(protein-coding DNA, 전체의 약 2% 미만; 인간은 약 200,000개의 엑손(exon)을 가지고 있는 것으로 알려져 있는데, 이는 약 3000만 개의 염기로, 약 30억 개의 DNA 염기서열로 구성된 전체 게놈의 약 1%정도에 해당한다.) 및 코딩하지 않는 영역(noncoding DNA, 전체의 약 98% 이상)을 포괄함.

유전자형, Genotype

Homozygous wild type(AA),

heterozygous mutant type(AG),

homozygous mutant type(GG)

태어날 때부터의 돌연변이:

생식세포 돌연변이(또는 성세포 돌연변이라고도 함), germline cell mutation (다음 세대의 자손에도 전달됨)

배아가 분화되는 과정 혹은 분화된 이후 무작위로 발생한 돌연변이:

체세포 돌연변이, somatic cell mutation (후대에는 전해지지 않음, 대부분의 암은 체세포돌연변이에 기인함)

연관성 연구, association study:

유전자형과 표현형(질병 포함)의 연관성을 연구함

유전 정보의 전달, the central dogma

센트럴 도그마, 또는 생물학의 "중심원리"는 유전 정보가 DNA에서 RNA를 거쳐 단백질로 전달되는 과정을 의미한다. 이 과정은 구체적으로 세포의 핵 속에 자리하고 있는 DNA는 RNA 중합효소에 의해 mRNA로 전사(transcription)되고, mRNA가 세포질에서 리보솜을 통해 단백질로 번역(translation)되는 단계를 거친다. 따라서, 생명체에서 최초의 유전정보는 DNA에서 기원하며 이 정보는 mRNA를 통해 생물학적 기능을 수행하는 단백질의 합성으로 이어지게 된다. 인간의 경우, RNA는 선택적 스플라이싱(alternative splicing)이나 RNA 편집(RNA editing) 과정을 거치며 다양한 종류의 단백질을 생성하도록 변형될 수 있다.

유전체 검사법

지노타이핑, genotyping:

여러 가지 방식이 있다. RFLP, restriction fragment length polymorphism과 같은 경우 고전적인 방법이다. SNP genotyping의 경우 기존에 알고 있는 마커들을 보는 방법이며, 비교적 적은 수(수십~수백 개)의 마커로 대량의 샘플을 보는 데 용이하다.

DNA chip, microarray:

형광물질을 붙인 유전자(시료)를 DNA칩 위에 액체 형태로 도포한 뒤 레이저 빔을 쏘아 발광 위치를 확인하여 시료의 염기 서열을 알 수 있다. SNP 지노타이핑에 비하면 보다 많은 마커(수백~백만 개)를 동시에 분석하는 데 용이하다. 이 또한 기존에 알고 있는 마커들을 보는 방법이다.

생어 염기서열 분석, Sanger sequencing:

1977년 Frederick Sanger와 동료들에 의해 고안된 가장 고전적인 염기 서열 확인 방식이며, 인간게놈프로젝트에 활용되었다. 현재도 확증검사validation test를 할 때 활용한다.

NGS, next generation sequencing:

Sanger Sequencing 이후 유전자를 병렬 방식으로 읽음으로써 시간과 비용을 단축하는 NGS 기술이 눈부시게 발전하였다. 기본적으로 Emlusion PCR이나 Bridge PCR 등의 방법으로 DNA 서열을 증폭시킨 뒤 형광 표식 등을 카메라로 찍어 이미지를 처리하는 과정을 거쳐 염기를 읽어낸다.

엑솜 시퀀싱, exome sequencing:

전체 게놈에서 단백질을 코딩하는 영역인 엑솜(exome)만을 따로 읽는 방법이다. 단백질 서열에 영향을 미치는 유전적 변이를 찾기 위해 사용하는 방법으로, 전장유전체를 읽는 것에 비해 비용이 저렴하다.

홀지놈 시퀀싱, whole genome sequencing:

전체 유전체의 염기 서열을 확인하는 방법으로, 예전에는 연구 목적으로 많이 시행되어 왔으나 근래에는 임상 현장에도 도입되는 중이다. 현재 NGS를 통한 여러 가지 방법이 개발되어 있다.

게시글을 twitter로 보내기 게시글을 facebook으로 보내기 게시글을 Me2Day로 보내기 게시글을 요즘으로 보내기
 
 

전체 8 건
번호 제목 작성자 작성 조회
8 "기형아 가능성이 높게 나왔네요" 빅데이터 01-14 23
7 유전체 의학(Genomic Medicine) - (2) 유전자를 통한 질병 예측 빅데이터 01-14 29
6 유전체 의학(Genomic Medicine) - (1) 배경 지식 빅데이터 01-12 43
5 GWAS 전체유전체 상관분석연구 genome-wide association study 빅데이터 01-11 39
4 2년내 유전체 데이터 유통 플랫폼 구축 가능…규제 등 준비 필요… 빅데이터 01-08 57
3 DTC(Direct To Customer) 정의 빅데이터 01-08 51
2 유전자 검사 정의 빅데이터 01-08 43
1 유전자 데이터 정의 빅데이터 01-08 42