에서 게놈 전체 연구 협회 (GWAS)
- 주요 구성 요소는 무엇입니까?
- 왜 사용됩니까?
- 그들은 어떻게 계산됩니까?
- PCA를 사용하지 않고 게놈 전체의 연관성 연구를 수행 할 수 있습니까?
에서 게놈 전체 연구 협회 (GWAS)
답변:
이러한 특정 맥락에서, PCA는 주로 조사중인 SNP (또는 SNP 사례에만 익숙하지만 다른 DNA 마커)에서 대립 유전자 분포의 개체군 별 변이를 설명하는 데 사용됩니다. 이러한 "인구 하부 구조"는 주로 유 전적으로 먼 조상 (예를 들어, 일본 및 흑인-아프리카 또는 유럽-미국)에서 작은 대립 유전자의 다양한 빈도의 결과로 발생한다. 일반적인 아이디어는 Patterson et al.의 Population Structure and Eigenanalysis 에 잘 설명되어 있습니다. ( PLoS Genetics 2006, 2 (12)) 또는 Lancet 의 유전자 역학에 관한 특별한 문제 (2005, 366; 대부분의 기사는 웹에서 찾을 수 있으며 Cordell & Clayton, Genetic Association Studies에서 시작 ).
주요 축의 구성은 관찰 된 유전자형 (AA, AB, BB; B는 모든 경우에 작은 대립 유전자라고 함)의 스케일링 된 매트릭스 (SNP에 의해 개별)에 적용되는 PCA에 대한 고전적인 접근법에서 비롯됩니다. 인구 편차를 설명하기위한 추가 정규화가 적용될 수 있습니다. 그것은 모두 작은 대립 유전자의 빈도 ({0,1,2}의 가치)가 수치로 간주 될 수 있다고 가정합니다. 즉, 우리는 부가 모델 (또는 대립 유전자 용량이라고도 함) 또는 그에 상응하는 동등한 모델 에서 작동합니다 . 연속적인 직교 PC가 최대 분산을 설명하므로, 이것은 작은 대립 유전자 빈도 수준에서 다른 개인 그룹을 강조 할 수있는 방법을 제공합니다. 이를 위해 사용 된 소프트웨어를 Eigenstrat라고 합니다. 또한egscore()
GenABEL R 패키지의 기능 ( GenABEL.org 참조 ). 모집단 하위 구조를 탐지하는 다른 방법, 특히 모델 기반 클러스터 재구성을 제안했음을 주목할 가치가 있습니다 (끝 부분 참조). 자세한 정보는 Hapmap 프로젝트 를 탐색 하고 Bioconductor 프로젝트 에서 제공되는 사용 가능한 자습서를 참조하십시오 . (Vince J Carey 또는 David Clayton의 Google 멋진 자습서를 검색하십시오).
온라인 도움말의 인구 계층화 .
eigenanalysis가 개인의 수준에서 일부 구조를 밝혀 낼 수 있다는 점을 고려할 때, 우리는 주어진 표현형에서 관찰 된 변이 (또는 질병 또는 사례 관리와 같은 이진 기준에 따라 정의 될 수있는 분포)를 설명 할 때이 정보를 사용할 수 있습니다 상태). 구체적으로, 우리는 프라이즈 ( Price) 등의 게놈 차원의 연관 연구에서 계층화를위한 주요 구성 요소 분석 수정에 설명 된대로 해당 PC (즉, 개인의 요인 점수)로 분석을 조정할 수 있습니다 . ( Nature Genetics 2006, 38 (8)) 및 이후 연구 (유럽 내 유전자 거울 지리에서 유럽 의 유전자 변이 축을 보여주는 멋진 그림이 있음 ; Nature 2008; 아래에 그림 1A가 재현 됨). 또 다른 해결책은 계층화 분석 (GLM에 민족성을 포함하여)을 수행하는 것 입니다. 예를 들어 snpMatrix 패키지 에서 쉽게 사용할 수 있습니다 .
참고 문헌