기능 선택을위한 중간 광택의 사용


9

최근에 읽은 논문에서 데이터 분석 섹션에서 다음 비트를 발견했습니다.

그런 다음 데이터 테이블을 조직과 세포주로 나누고 두 개의 하위 테이블을 개별적으로 중앙에서 연마하고 (행과 열은 중앙값 0을 반복적으로 조정하여) 단일 테이블로 다시 결합했습니다. 우리는 최종적으로 시험 된 3 개 이상의 샘플에서이 샘플 세트의 중앙값으로부터 4 배 이상 발현이 변하는 유전자 서브 세트를 선택 하였다

나는 여기서 추론을 실제로 따르지 않는다고 말해야합니다. 다음 두 가지 질문에 답할 수 있는지 궁금합니다.

  1. 데이터 세트의 중앙값을 조정하는 것이 바람직하고 도움이되는 이유는 무엇입니까? 다른 유형의 샘플에 대해 별도로 수행해야하는 이유는 무엇입니까?

  2. 실험 데이터가 어떻게 수정되지 않습니까? 이것은 대량의 데이터 세트에서 많은 유전자 / 변수를 선택하는 알려진 방법입니까?

감사,


어떤 종류의 데이터를보고 있는지 자세히 설명 할 수 있습니까? 나는 당신이 인용 한 것-나에게-그 방법으로 판단하는 것이 매우 특별하다고 생각합니다.
suncoolsu

@suncoolsu : 개념에 익숙하다면 마이크로 어레이 데이터입니다. 그렇지 않다면 아마도 다음과 같이 요약 할 수 있습니다. 연구 된 샘플에서 어느 정도의 유전자가 발현되는지. 다음은 더 나은 설명입니다. en.wikipedia.org/wiki/Gene_expression_profiling
posdef

@suncoolsu 거의 확실하게 유전자 발현 분석 데이터.
kriegar

Ok-확실하지 않습니다. 차세대 시퀀싱도 인기를 얻고 있습니다.
suncoolsu

답변:


10

Tukey Median Polish, 알고리즘은 마이크로 어레이 의 RMA 정규화에 사용됩니다 . 아시다시피, 마이크로 어레이 데이터는 노이즈가 심하므로 모든 프로브와 마이크로 어레이에 대한 관찰을 고려하여 프로브 강도를 추정하는보다 강력한 방법이 필요합니다. 어레이 전체에서 프로브 강도를 정규화하는 데 사용되는 일반적인 모델입니다.

Yij=μi+αj+ϵi제이
나는=1,,나는제이=1,,제이

어디 와이나는제이 입니다 영형 에 대한 변환 된 PM 강도 나는h에 프로브 제이h 정렬. ϵ나는제이배경 잡음이며 정상적인 선형 회귀의 잡음에 해당하는 것으로 가정 할 수 있습니다. 그러나 다음에 대한 분산 가정ϵ 제한적일 수 있으므로 Tukey Median Polish를 사용하여 μ나는^α제이^. 이는 배열 효과에서 프로브로 인한 신호와 강도를 분리하려는 경우 배열 전체에서 표준화하는 강력한 방법입니다.α. 배열 효과를 정규화하여 신호를 얻을 수 있습니다α제이^모든 배열에 대해. 따라서 프로브 효과와 임의의 노이즈 만 남게됩니다.

내가 이전에 인용 한 링크는 Tukey median polish를 사용하여 프로브 효과로 순위를 매겨 차별적으로 발현 된 유전자 또는 "관심있는"유전자를 추정합니다. 그러나이 논문은 꽤 오래되었고, 아마도 사람들은 여전히 ​​마이크로 어레이 데이터를 분석하는 방법을 알아 내려고 시도했을 것입니다. Efron의 비모수 적 경험적 베이지안 방법 종이는 2001 년에 나왔지만 아마도 널리 사용되지는 않았을 것입니다.

그러나 이제 우리는 (통계적으로) 마이크로 어레이에 대해 많은 것을 이해하고 통계 분석에 대해 확신합니다.

Microarray 데이터는 상당히 시끄럽고 RMA (Median Polish를 사용)는 가장 널리 사용되는 정규화 방법 중 하나입니다. 단순성 때문일 수 있습니다. 다른 인기 있고 정교한 방법은 GCRMA, VSN입니다. 관심은 배열 효과가 아닌 프로브 효과이므로 정규화하는 것이 중요합니다 .

예상 한대로 유전자 전체에서 정보를 차용하는 일부 방법을 통해 분석에 도움이 될 수 있습니다. 이들은 베이지안 또는 실험적인 베이지안 방법을 포함 할 수있다. 당신이 읽고있는 논문이 오래되어서이 기술들이 그때까지 나오지 않았을 수도 있습니다.

두 번째 요점과 관련하여 실험 데이터를 수정하고있을 것입니다. 그러나 나는이 수정이 더 나은 원인을위한 것이라고 생각합니다. 이유는

a) 마이크로 어레이 데이터는 시끄 럽습니다. 관심이 프로브 효과 인 경우, RMA, GCRMA, VSN 등으로 데이터를 정규화해야하며 데이터의 특수 구조를 활용하는 것이 좋습니다. 그러나 나는 두 번째 부분을하지 않을 것입니다. 우리가 사전에 구조를 알지 못하면 많은 가정을 부과하지 않는 것이 좋습니다.

b) 대부분의 마이크로 어레이 실험은 본질적으로 탐구 적이다. 즉, 연구자들은 추가 분석 또는 실험을 위해 몇 가지 "흥미로운"유전자로 좁히려 고 노력하고있다. 이들 유전자가 강한 신호를 갖는 경우, 정규화와 같은 변형이 최종 결과에 (실질적으로) 영향을 미치지 않아야합니다.

따라서 수정이 정당화 될 수 있습니다. 그러나 정규화를 과도하게 수행하면 잘못된 결과가 발생할 수 있습니다.


+1 이것은 나의 시도보다 훨씬 나은 답변입니다. 감사.
kriegar

@posdef. 논문의 통계 분석에 관련된 통계학자가 있는지 궁금합니다.
suncoolsu

답장을 보내 주셔서 감사합니다. 나는 이것이 전처리 단계라는 사실이 논문에서 잘 설명되어 있지 않다고 생각한다. 말하자면,이 논문은 2000 년에 출판되었으므로 (필자는 자연스럽게), 글을 쓰지 않는 한 적어도 통계 학자들이 그들의 방법을 살펴 본다고 가정합니다. 그러나 물론 나는 단지 추측 할 수있다 .. :)
posdef

@posdef. Ok-cool은 많은 질문에 대답합니다. 2000 년은 사람들이 여전히 마이크로 어레이 데이터를 분석하는 방법을 알아내는 시간이었습니다. FDR은 당시에는 환상적이지 않았습니다 :-)
suncoolsu

4

당신의 페이지 4와 5에서 몇 가지 단서 찾을 수

모형의 잔차를 계산하는 방법입니다.

와이나는,제이=미디엄+나는+제이+이자형나는,제이
에 대한 값을 계산하여 미디엄, 나는제이 그래서 이자형나는,제이 각 행과 각 열의 중앙값은 0입니다.

보다 전통적인 접근 방식은 미디엄, 나는제이 각 행과 각 잔차 열의 평균 (또는 합계)이 0이되도록합니다.

중앙값을 사용하는 이점은 소수의 특이 치에 대한 견고성입니다. 단점은 특이 치가없는 경우 잠재적으로 유용한 정보를 버리는 것입니다.


답변과 참조 링크에 감사드립니다. 그러나이 모델이 현재 문제에 어떻게 적용되는지 볼 수 없습니다. 데이터가 비교 표현 값 (읽기 : 풍부)이라면, 어떻게 정의 할 수 있습니까?나는, 제이이자형나는,제이??
posdef

대신에 풍요 로움 모델을 나는,제이=나는제이+이자형나는,제이 또는 하나 영형(나는,제이)=영형()+영형(나는)+영형(제이)+이자형나는,제이잔차 테이블의 각 행과 각 열의 중앙값을 0으로 설정하면 본질적으로 동일한 작업을 수행 할 수 있습니다.
Henry

@ 헨리 "이상 값"이 없을 때 중간 정도의 광택으로 어떤 정보가 "튀어 나오나"(어쨌든 "이상 값"이란 뜻은 무엇입니까?) 결국, 대 중앙값, 행 및 열 중앙값 및 잔차를 사용 하여 데이터를 정확하게 재구성 할 수 있습니다 . 잔류 물을 버린다는 의미라면 어떤 의미에서 "평균 광택"(OLS와 동일)이 이와 관련하여 어떤 차이가 있습니까?
whuber

@whuber : 두 경우 모두 잔차가 유지됩니다. 평균 광택은 관측치가 중심으로부터 얼마나 멀리 떨어져 있는지 (어떤 의미에서, 잔차의 무게의 균형을 잡습니다) 중앙값 광택이 중심보다 위 또는 아래에 있는지 (어떤 의미에서, 잔차 수). 따라서 중앙값을 중앙값으로 사용할 때는 가중치 정보가 사용되지 않습니다. 이는 실질적인 무게 / 잔여 물 중 일부가 너무 모호하여 센터의 결과를 신뢰할 수 없지만 정보를 사용하지 않는 경우에 유용 할 수 있습니다.
Henry

@Henry 광택에서 원본 데이터를 모두 복구 할 수 있다면 "정보"는 어떻게 "사용되지"않습니까? 당신이 설명하는 것 같은 BTW, 중간 폴란드어이 작동하지 않습니다 그 잔차는 차이있는 의 데이터하지 계급의는.
whuber

3

유전자 미분 발현 분석이있는 논문을 읽고있는 것 같습니다. 마이크로 어레이 칩과 관련된 연구를 수행 한 결과, 중간 연마 사용에 대한 지식이 거의 없음을 공유 할 수 있습니다.

microarray 전처리의 요약 단계에서 중간 값 연마를 사용하는 것은 완벽한 일치 프로브 전용 칩 (최소한 RMA)으로 이상치의 데이터를 제거하는 표준 방법입니다.

마이크로 어레이 데이터의 중앙값 광택은 행과 열로 칩 효과와 프로브 효과가있는 곳입니다.

x 칩의 각 프로브 세트 (n 개의 동일한 프로브로 구성)에 대해 :

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

여기서 iv는 강도 값입니다

프로브 강도의 가변성 때문에, 마이크로 어레이 데이터의 거의 모든 분석은 요약 전에 어떤 종류의 배경 보정 및 정규화를 사용하여 전처리됩니다.

다음은 median polish 사용 방법과 다른 방법에 대한 bioC 메일 링 목록 스레드에 대한 링크입니다.

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

세포가 배양 될 때 그들의 발현 프로파일이 수집 된 조직 샘플로부터 급격히 변하기 때문에 조직 및 세포주로부터의 데이터는 일반적으로 개별적으로 분석된다. 더 많은 종이를 가지고 있지 않으면 샘플을 개별적으로 처리하는 것이 적절한 지 말하기 어렵습니다.

분석 파이프 라인의 정규화, 백그라운드 수정 및 요약 단계는 모두 실험 데이터의 수정이지만 처리되지 않은 상태에서는 칩 효과, 배치 효과, 처리 효과가 분석을위한 모든 신호를 가리게됩니다. 이러한 마이크로 어레이 실험은 후속 실험 (qPCR 등)의 후보 인 유전자 목록을 생성하여 결과를 확인합니다.

임시적인 한, 5 명의 사람들에게 유전자가 차별적으로 발현되는 것으로 여겨 질 때 어떤 폴드 차이가 필요한지 물어 보면 적어도 3 가지의 다른 답을 얻을 것입니다.


귀하의 답변에 대한 업데이트에 감사드립니다. 지금 아이디어를 얻기 시작했습니다. 내가 정확하게 이해한다면, 중앙 연마는 프로브와 칩에 관한 기술적 변동성을 평가하는 데 사용됩니까? ... 실험하기 전에 다른 조건에서 유전자에 대한 발현 값을 보유하는 1 개의 매트릭스까지 합산됩니까?
posdef 2016 년

내 이해에서 @posdef 예. 칩의 각 프로브 세트 (같은 시퀀스의 프로브)마다 프로브가 흩어져 있습니다. 칩의 의사 이미지에 대한 plmimagegallery.bmbolstad.com 단일 칩 내의 변동성 외에도 칩간에 변동성이 있습니다. 기술적 변동성 때문에, 알고리즘은 원시 강도 값에서 실행되어 프로브 세트에 대한 단일 "표현 값"을 얻습니다. 이러한 값의 매트릭스는 유전자가 다른 조건 하에서 차등 적으로 발현되는지를 결정하기 위해 적합하다.
kriegar
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.