p- 값의 QQ 플롯을 해석하는 방법

plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ) 소프트웨어를 사용하여 질병에 대한 GWAS SNP 연관 연구를하고 있습니다 .

연관 결과를 통해 분석 된 모든 SNP에 대한 p- 값을 얻습니다. 이제 p- 값의 QQ- 플롯을 사용하여 매우 낮은 p- 값이 예상되는 p- 값 분포 (균일 한 분포)와 다른지 여부를 보여줍니다. p- 값이 예상 분포에서 벗어나면 통계적으로 유의미한 p- 값을 호출 할 수 있습니다.

QQ 플롯에서 볼 수 있듯이 상단 꼬리 끝에서 마지막 4 점은 해석하기가 다소 어렵습니다. 회색의 마지막 두 지점은 p- 값이 p- 값의 예상 분포에 있지만 다른 두 값은 그렇지 않다는 것을 나타냅니다.

이제 이것을 해석하는 방법은 마지막 두 포인트가 p- 값 은 더 낮지 만 QQ 플롯에 따라 "유의하지는 않지만" p- 값이 높은 다른 두 포인트 는 "유의 한"것입니다. 이것이 어떻게 사실 일 수 있습니까?

여기에 이미지 설명을 입력하십시오

qq-plot

— 엑스 펜더
소스

QW 플롯을 사용하여 GWAS를 해석 할 때의 한 가지 문제는 p- 값이 서로 독립적이지 않으며 실제로 가장 극단적 인 p- 값이 서로 연관되어있을 가능성이 높다는 것입니다. 상위 4 개의 히트가 동일한 염색체에있을 가능성이 있으며 LD가 이들 사이에 상관 관계를 유발할 정도로 서로 가깝습니다. 가장 낮은 p- 값을 가진 SNP에서 두 번째로 낮은 p- 값을 조건부로 제공하는 테스트를 실행하면 p- 값이 예외적 인 범위로 떨어질 것이라고 추측합니다. 다른 많은 명중도 마찬가지입니다.

— Sam Dickson

나는 이미 그렇게 했으므로 독립 SNP 만 얻도록 SNP 데이터 세트를 정리했습니다 (r-square 0.8을 컷오프로 사용). 이 QQ- 플롯은 독립적 인 SNP 또는 LD <0.8의 SNP 결과를 보여줍니다.

— eXpander

가장 낮은 SNP는 염색체 6, 두 번째에서 염색체 2, 세 번째에서 염색체 5, 네 번째에서 염색체 9에 해당하므로 LD가 문제인지 확실하지 않습니다.

— eXpander

그 음모를 어떻게했는지 물어봐도 될까요? 카이-제곱 값이나 p- 값으로 비슷한 것을 얻을 수 있지만 회색 그림자가 없으면 p- 값과 회색 그림자가있는 것이 필요합니다. 사용한 코드를 공유 할 수 있다면 좋을 것입니다. 감사.

— Aleix Arnau

여기 folk.uio.no/tores/Publications_files/… 는이 문제에 대한 고전적인 논문입니다.

— kjetil b halvorsen

답변:

p- 값 도표의 분석에 대한 좋은 참고 자료는 [1]입니다.

신호 / 효과가 테스트의 일부 하위 집합에만 존재한다는 사실로 인해 결과가 나타날 수 있습니다. 이들은 수용 대역 이상으로 구동됩니다. 대역 외부의 p- 값만 거부하는 것은 실제로 정당화 될 수 있지만, 더 중요한 것은 선택 절차 (FWER, FDR)를 선택할 때 제어하려는 오류 기준을 결정해야합니다. 그 선택에 대해서는 [2]를 참조하고, 적절한 다중 시험 절차를 선택하기위한 참고 문헌을 참조하십시오.

[1] Schweder, T. 및 E. Spjotvoll. “많은 시험을 동시에 평가하기위한 P- 값 도표.”Biometrika 69, no. 3 (1982 년 12 월) : 493–502. doi : 10.2307 / 2335984.

[2] 로젠 블랏, 조나단. "여러 테스트 오류율에 대한 실무자 안내서."ArXiv e-print. 텔 아비브 대학교, 2013 년 4 월 17 일. http://arxiv.org/abs/1304.4920 .

— 존 로스
소스

이것은 오래된 질문이지만 QQPlots를 처음 해석 할 때 도움이된다는 것을 알았습니다. 앞으로 더 많은 사람들이이 문제에 걸려 넘어 질 경우에 대비하여이 답변에 추가 할 것이라고 생각했습니다.

내가 이해하기가 약간 까다로운 것은 그 점이 정확히 무엇입니까? 코드로 가기가 쉬워졌습니다.

다음은 GWASTools::qqPlot3 줄로 QQPlot을 구현하는 일부 R 코드입니다 .

simpleQQPlot = function (observedPValues) {
  plot(-log10(1:length(observedPValues)/length(observedPValues)), 
       -log10(sort(observedPValues)))
  abline(0, 1, col = "red")
}

다음은 예입니다. 5 개의 p- 값이 있습니다. simpleQQPlot은 0과 1 사이의 균일 분포에서 5 개의 해당 p 값을 생성합니다. 이는 .2 .4 .6 .8과 1입니다. 따라서 simpleQQPlot은 가장 낮은 p- 값이 약 .2이고 가장 높은 값은 1. simpleQQPlot은 pvalue를 정렬하고 각각 생성 된 해당 값과 쌍을 이룹니다. 따라서 .2는 가장 낮은 pvalue, 1이 가장 높은 pvalue 등과 쌍을 이룹니다. 그런 다음이 쌍으로 된 값은 음의 로그를 취한 후 플로팅되며 X는 생성 된 p 값이고 Y는 쌍으로 된 관측 값입니다. 관측 값이 정규 분포에서 도출 된 경우 점이 대략 직선에 있어야합니다. 정렬 때문에 점은 항상 단조 증가합니다. 따라서 각 후속 점은 더 큰 X와 더 크거나 같은 Y를 갖습니다.

따라서 위의 원래 예에서 9,997 번째 정렬 된 p- 값은 약 5.2이지만 정규 분포를 따르는 경우 약 4.1 일 것으로 예상되었습니다. (참고 : 실제로 얼마나 많은 p- 값이 위에 그려져 있는지 잘 모르겠습니다. 방금 10k로 추측했습니다).

— 브렉
소스