유전자 복제 수준에 따른 농축 분석

11

생물학적 배경

시간이 지남에 따라 일부 식물 종은 전체 게놈을 복제하여 각 유전자의 추가 사본을 얻는 경향이 있습니다. 이러한 구성의 불안정성으로 인해, 이들 유전자 중 다수가 결실되고 게놈이 재 배열되고 안정화되어 다시 복제 될 준비가된다. 이러한 복제 이벤트는 종 분화 및 침입 이벤트와 관련이 있으며, 이론에 따르면 복제는 식물이 새로운 환경에 더 빨리 적응할 수 있도록 도와줍니다.

꽃 피는 식물의 속인 루피 누스는 안데스 산맥을 침략 한 가장 빠른 종 중 하나에서 안데스 산맥을 침범했으며, 더욱 밀접하게 관련된 속인 밥티 시아보다 게놈에 복제본이 더 많은 것으로 보입니다.

그리고 이제 수학 문제 :

Lupinus 구성원과 Baptisia 구성원의 게놈이 시퀀싱되어 각 종에서 약 25,000 개의 유전자에 대한 원시 데이터가 제공되었습니다. 알려진 기능을 가진 유전자의 데이터베이스에 대해 쿼리함으로써, 나는 유전자가 어떤 기능을 수행 할 수 있는지에 대한 "최고의 추측"을 가지고 있습니다. Baptisia와 Lupinus 사이에 중복 사건이 있었는지, 유전자 손실이 무작위로 발생했는지 또는 특정 기능을 수행하는 유전자가 유지되거나 삭제 될 가능성이 있는지 알고 싶습니다.

아래 표시된 것과 같은 테이블을 출력하는 스크립트가 있습니다. L *는 기능과 관련된 모든 루피 너스 유전자의 수입니다. L 1+는 적어도 하나의 사본이 존재하는 기능과 관련된 루피 너스 유전자의 수이다. L 1+는 시퀀싱 프로세스로 인해 L 2 +보다 훨씬 더 신뢰할 수 있지만 L 2 +, L 3 + 등을 생산할 수 있습니다.

Function            | L *  | L 1+ | B *  | B 1+ |
fructose metabolism | 1000 | 994  | 1290 | 876  |
salt stress         | 56   | 45   | 90   | 54   |
etc.

내가하고 싶은 것은 각 유전자 기능에 대해 루피 누스와 chance 티 시아에서 우연히 예상 할 수있는 것보다 중복 된 유전자가 많거나 적은지, 그리고 루피 너스가 관찰 된 것과 기대 한 비율의 비율에서 apt 티 시아와 다른지 여부를 테스트하는 것입니다.

내가 지금까지 가지고있는 가장 좋은 것

다른 종에 대한 이전의 연구는 각 행에 대해 우연성 테스트를 수행하기 위해 Fisher의 Exact Test 및 FDR 보정과 함께 Enrichment Analysis를 사용했습니다.

이것을 개선하는 것이 좋을 것입니다. 이것이 최선의 방법인지 확실하지 않습니다.

Glen_b는 GLM을 사용하여 데이터를 분석 할 것을 제안했습니다. 흥미로운 JMP8에서 GLM을 가지고 놀았지만 실제로 이해하지는 못합니다.

즉, 지금 R을 사용하려고합니다.

이것을 위해 무엇을 사용하고 있습니까?

이것은 원래 대학에서하는 짧은 연구 프로젝트의 일부로 여겨졌지만 이제는 엄청난 게놈 주석 프로젝트로 확장되었습니다. 왜? 생물 정보학이 멋지 기 때문입니다. A, T, C 및 G 문자열을 사용하여 수백만 년 전에 발생한 이벤트에 대한 정보를 유추하는 데 사용할 수 있다는 것은 놀라운 일입니다.

말할 것도없이, 나는 내 자신의 일로 친절하게 제공된 어떤 대답도 시도하지 않을 것이다. 제출 된 작업에서 여기에 제안 된 방법을 사용하는 경우 논문에 감사의 말을 포함시켜 드리겠습니다.

— TDN169
소스

1

다른 중요한 변수가있을 때 하나의 변수에 대해서만 테스트하는 방법에 대한 이전 질문 에서 언급 한 문제에 주목하십시오 (심슨의 역설에 대한 위키 백과 기사를 지적했습니다). Fisher의 정확한 테스트는 그 문제를 해결하지 못합니다.

— Glen_b-복지 모니카

생물 정보학 은 멋지다 !! 사이트에 오신 것을 환영합니다!

— 카일.

다시 돌아와서 더 광범위한 답변을 드리겠습니다. 그러나 R에서 볼 수있는 적절한 기능은 loglin, loglm (R과 함께 제공되지만 기본적으로 설치되지 않은 패키지 MASS 패키지)과 glm 자체입니다. 이러한 모델에 대한 이해는 분포가 정상적이지 않다는 점을 제외하고 다중 회귀 분석과 분산 분석을 이해하는 것과 많은 유사성을 갖습니다. 평균의 로그는 모델이 선형 인 것입니다.

— Glen_b -Reinstate Monica

1

Fisher의 테스트 (또는 이와 유사한 것)가 가장 자연스러운 접근법 일 수 있지만 동의하는 방법은 다음과 같습니다.

각각의 고유 한 유전자에 대해 L과 B의 중복 수의 차이를 결정합니다.
이 차이로 유전자를 주문하십시오. 이제 종들 사이에 가장 큰 차이를 보이는 유전자가 목록의 맨 위에있을 것입니다.
정렬 된 유전자 목록에 유전자 세트 강화 테스트를 적용하십시오. 예를 들어, 패키지 tmod 에서 수정 된 Fisher의 방법을 사용할 수 있습니다.이 패키지 에서는 유전자 세트를 정의해야합니다 (매우 간단해야 함). 참고 피셔의 방법은 피셔의 시험 관련이 없습니다.

수정 된 Fisher의 테스트 ( 이 문맥에서 처음 설명한 저자가 CERNO라고 함 )는 유용한 범주로 그룹화 할 수 있는 한 순서대로 정렬 된 유전자 목록을 입력으로 사용합니다.

이 방법의 장점은 p- 값과는 별도로 농축의 효과 크기를 쉽게 계산하고 시각화 할 수 있다는 것입니다 (예 : 정렬 된 유전자 목록에 대한 ROC 곡선). 이것은 당신이 관찰하는 것이 당신이 연구하는 생물학에 얼마나 중요한지를 훨씬 더 잘 이해하게 해줍니다.

— 일월
소스

0

당신이 말했듯이, 당신은 두 가지 뚜렷한 질문을하고 있습니다.

질문 1 "주어진 유전자 기능에 대한 비율 L * / L1 +가 B * / B1 +와 다르다"

이것은 이전에 찾은 행 전체의 데이터를 사용하여 Fisher의 정확한 테스트로 가장 잘 대답 할 수 있습니다.

질문 2 "비율 : 단일 카피가있는 유전자 / 유전자 카피가 하나 이상인 유전자는 유전자 기능에 따라 다른가?"

나는 이것이 Fisher의 정확한 테스트로 가장 잘 대답 될 수 있다고 생각합니다. 유전자 기능 2의 경우 L * / L1 +에 대한 유전자 기능 1의 경우 L * / L1 +의 비율을 테스트합니다. 그런 다음 유전자 기능 1의 유전자 기능 3 등입니다.

이 질문들 중 어느 것도 그들이 우연히 예상했던 것보다 빨리 유지 / 삭제되고 있는지 아닌지, 단지 서로 다른 속도로 삭제 / 유지되고 있는지에 관한 것이 아닙니다. 이들이 우연히 다른 속도로 삭제 / 유지되는지 확인하려면 우연히 영향을받는 많은 DNA 영역에 대한 단일 복사 / 복수의 비율을 알아야합니다. 이러한 영역을 찾을 수 있으면 기능이 "없음"인 "기능 그룹"으로 끝납니다. 그런 다음 질문 2에서 설명한 것과 같은 방법으로 다른 유전자 기능 그룹과 비교합니다.

— 필 A
소스