게놈 전체 협회 연구에서 주요 구성 요소는 무엇입니까?


20

에서 게놈 전체 연구 협회 (GWAS)

  1. 주요 구성 요소는 무엇입니까?
  2. 왜 사용됩니까?
  3. 그들은 어떻게 계산됩니까?
  4. PCA를 사용하지 않고 게놈 전체의 연관성 연구를 수행 할 수 있습니까?

1
이러한 질문을하기 전에이 사이트에서 "PCA"를 검색하거나 "PCA"태그를 탐색 했습니까? 대부분의 질문에 이미 답변되어 있습니다.
whuber

1
@ whuber 저는 OP가 주어진 결과 (연속 표현형 또는 사례 / 대조 연구)와 DNA 마커 (SNP)를 모델링 할 때 인구 계층화를 설명하고 조정하는 방법으로 PCA를 사용하려고합니다. 여기에 stats.stackexchange.com/questions/1708/variation-in-pca-weights/… 참조를 했습니다 .
chl

1
GWAS는 주요 구성 요소없이 수행 할 수 있습니다. 인구 계층화가 없으면 수천 개의 검정 또는 수천 개의 카이 제곱 검정 만 있으면됩니다.
onestop

@onestop (+1) 두 번째 질문에 답한 것으로 생각합니다. 제 답변으로는 고려하지 않았습니다.
chl

@onestop, 성별 / 인종만으로 계층화한다면 어떨까요? 답을 자세히 설명해 주시겠습니까?
suprvisr

답변:


27

이러한 특정 맥락에서, PCA는 주로 조사중인 SNP (또는 SNP 사례에만 익숙하지만 다른 DNA 마커)에서 대립 유전자 분포의 개체군 별 변이를 설명하는 데 사용됩니다. 이러한 "인구 하부 구조"는 주로 유 전적으로 먼 조상 (예를 들어, 일본 및 흑인-아프리카 또는 유럽-미국)에서 작은 대립 유전자의 다양한 빈도의 결과로 발생한다. 일반적인 아이디어는 Patterson et al.의 Population Structure and Eigenanalysis 에 잘 설명되어 있습니다. ( PLoS Genetics 2006, 2 (12)) 또는 Lancet 의 유전자 역학에 관한 특별한 문제 (2005, 366; 대부분의 기사는 웹에서 찾을 수 있으며 Cordell & Clayton, Genetic Association Studies에서 시작 ).

주요 축의 구성은 관찰 된 유전자형 (AA, AB, BB; B는 모든 경우에 작은 대립 유전자라고 함)의 스케일링 된 매트릭스 (SNP에 의해 개별)에 적용되는 PCA에 대한 고전적인 접근법에서 비롯됩니다. 인구 편차를 설명하기위한 추가 정규화가 적용될 수 있습니다. 그것은 모두 작은 대립 유전자의 빈도 ({0,1,2}의 가치)가 수치로 간주 될 수 있다고 가정합니다. 즉, 우리는 부가 모델 (또는 대립 유전자 용량이라고도 함) 또는 그에 상응하는 동등한 모델 에서 작동합니다 . 연속적인 직교 PC가 최대 분산을 설명하므로, 이것은 작은 대립 유전자 빈도 수준에서 다른 개인 그룹을 강조 할 수있는 방법을 제공합니다. 이를 위해 사용 된 소프트웨어를 Eigenstrat라고 합니다. 또한egscore()GenABEL R 패키지의 기능 ( GenABEL.org 참조 ). 모집단 하위 구조를 탐지하는 다른 방법, 특히 모델 기반 클러스터 재구성을 제안했음을 주목할 가치가 있습니다 (끝 부분 참조). 자세한 정보는 Hapmap 프로젝트 를 탐색 하고 Bioconductor 프로젝트 에서 제공되는 사용 가능한 자습서를 참조하십시오 . (Vince J Carey 또는 David Clayton의 Google 멋진 자습서를 검색하십시오).

±6온라인 도움말의 인구 계층화 .

eigenanalysis가 개인의 수준에서 일부 구조를 밝혀 낼 수 있다는 점을 고려할 때, 우리는 주어진 표현형에서 관찰 된 변이 (또는 질병 또는 사례 관리와 같은 이진 기준에 따라 정의 될 수있는 분포)를 설명 할 때이 정보를 사용할 수 있습니다 상태). 구체적으로, 우리는 프라이즈 ( Price) 등의 게놈 차원의 연관 연구에서 계층화를위한 주요 구성 요소 분석 수정에 설명 된대로 해당 PC (즉, 개인의 요인 점수)로 분석을 조정할 수 있습니다 . ( Nature Genetics 2006, 38 (8)) 및 이후 연구 (유럽 내 유전자 거울 지리에서 유럽 의 유전자 변이 축을 보여주는 멋진 그림이 있음 ; Nature 2008; 아래에 그림 1A가 재현 됨). 또 다른 해결책은 계층화 분석 (GLM에 민족성을 포함하여)을 수행하는 것 입니다. 예를 들어 snpMatrix 패키지 에서 쉽게 사용할 수 있습니다 .

유럽의 유전자 거울 지리

참고 문헌

  1. Daniel Falush, Matthew Stephens, Jonathan K Pritchard (2003). 다중 위치 유전자형 데이터를 사용한 집단 구조 추론 : 연결된 유전자좌 및 상관 된 대립 유전자 빈도 . 유전학 , 164 (4) : 1567–1587.
  2. B Devlin과 K Roeder (1999). 협회 연구를위한 게놈 제어 . 생체 인식 , 55 (4) : 997–1004.
  3. JK Pritchard, M Stephens, P Donnelly (2000). 다중 위치 유전자형 데이터를 사용한 모집단 구조 추론 . 유전학 , 155 (2) : 945–959.
  4. Gang Zheng, Boris Freidlin, Zhaohai Li 및 Joseph L Gastwirth (2005). 다양한 유전자 모델에서 연관 연구를위한 게놈 제어 . 생체 인식 , 61 (1) : 186–92.
  5. Chao Tian, ​​Peter K. Gregersen 및 Michael F. Seldin1 (2008). 조상의 회계 : 인구 하부 구조 및 게놈 전체의 연관성 연구 . 인간 분자 유전학 , 17 (R2) : R143-R150.
  6. Kai Yu, 게놈 전체 협회 연구에서 인구 하부 구조 및 대조군 선택 .
  7. Alkes L. Price, Noah A. Zaitlen, David Reich 및 Nick Patterson (2010). 게놈 전체 협회 연구에서 인구 계층화에 대한 새로운 접근법 , Nature Reviews Genetics
  8. Chao Tian 등 (2009). 유럽인 집단 유전 적 하부 구조 : 다양한 유럽 민족 집단을 구별하기위한 조상 정보 마커의 추가 정의 , 분자 의학, 15 (11-12) : 371-383.

대단히 감사합니다. 1) PCA를 무시하고 GENDER / RACE / AGE만으로 GWAS 샘플을 계층화하고 PCA를 무시하면 어떻게됩니까? 그것은 나의 협회 분석과 결과를 어떻게 반영 할 것인가? 2) 실제로 PCA를 사용하려면 최소한 진실한 PCA를 갖기 위해 유전자형을 몇 개나 SNPS해야합니까? 200이면 충분합니까? 그것들은 모든 염색체에 골고루 분산되어야합니까? 3) PCA에 어떤 SNP가 사용됩니까? 이 사전 정의 된 세트입니까?
suprvisr

@suprvisr 나는 거기에 바로 대답하거나 응답을 업데이트 할 수 있지만 새로운 질문 ( "PCA로 조정의 장단점 대 계층화"이라는 아이디어와 함께)을 묻는 것이 더 낫다고 생각합니다. 필요한 연결을 명확하게 만들 수 있습니다.
chl

: @AndyFrost는 참조 된 인물이있을 수 있습니다 다음과 같은 제안 goo.gl/jNXx0x 당신이에있을 수 있습니다 참조 할 수있는 그림 goo.gl/TcK3g8을 .
gung-Monica Monica 복원

@chl 당신이 의미하는 바를 설명해 주시겠습니까? "이 경우 일반적으로 PCA를 반복적으로 적용하고 처음 20 개 교장 중 적어도 하나에서 점수가 ± 6 ± 6 SD 미만인 개인을 제거하는 것입니다. 축 ". 나는 내 게시물에 대한 답변을 찾고 있었다 : biostars.org/p/180336
MAPK
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.