생물학적 배경
시간이 지남에 따라 일부 식물 종은 전체 게놈을 복제하여 각 유전자의 추가 사본을 얻는 경향이 있습니다. 이러한 구성의 불안정성으로 인해, 이들 유전자 중 다수가 결실되고 게놈이 재 배열되고 안정화되어 다시 복제 될 준비가된다. 이러한 복제 이벤트는 종 분화 및 침입 이벤트와 관련이 있으며, 이론에 따르면 복제는 식물이 새로운 환경에 더 빨리 적응할 수 있도록 도와줍니다.
꽃 피는 식물의 속인 루피 누스는 안데스 산맥을 침략 한 가장 빠른 종 중 하나에서 안데스 산맥을 침범했으며, 더욱 밀접하게 관련된 속인 밥티 시아보다 게놈에 복제본이 더 많은 것으로 보입니다.
그리고 이제 수학 문제 :
Lupinus 구성원과 Baptisia 구성원의 게놈이 시퀀싱되어 각 종에서 약 25,000 개의 유전자에 대한 원시 데이터가 제공되었습니다. 알려진 기능을 가진 유전자의 데이터베이스에 대해 쿼리함으로써, 나는 유전자가 어떤 기능을 수행 할 수 있는지에 대한 "최고의 추측"을 가지고 있습니다. Baptisia와 Lupinus 사이에 중복 사건이 있었는지, 유전자 손실이 무작위로 발생했는지 또는 특정 기능을 수행하는 유전자가 유지되거나 삭제 될 가능성이 있는지 알고 싶습니다.
아래 표시된 것과 같은 테이블을 출력하는 스크립트가 있습니다. L *는 기능과 관련된 모든 루피 너스 유전자의 수입니다. L 1+는 적어도 하나의 사본이 존재하는 기능과 관련된 루피 너스 유전자의 수이다. L 1+는 시퀀싱 프로세스로 인해 L 2 +보다 훨씬 더 신뢰할 수 있지만 L 2 +, L 3 + 등을 생산할 수 있습니다.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
내가하고 싶은 것은 각 유전자 기능에 대해 루피 누스와 chance 티 시아에서 우연히 예상 할 수있는 것보다 중복 된 유전자가 많거나 적은지, 그리고 루피 너스가 관찰 된 것과 기대 한 비율의 비율에서 apt 티 시아와 다른지 여부를 테스트하는 것입니다.
내가 지금까지 가지고있는 가장 좋은 것
다른 종에 대한 이전의 연구는 각 행에 대해 우연성 테스트를 수행하기 위해 Fisher의 Exact Test 및 FDR 보정과 함께 Enrichment Analysis를 사용했습니다.
이것을 개선하는 것이 좋을 것입니다. 이것이 최선의 방법인지 확실하지 않습니다.
Glen_b는 GLM을 사용하여 데이터를 분석 할 것을 제안했습니다. 흥미로운 JMP8에서 GLM을 가지고 놀았지만 실제로 이해하지는 못합니다.
즉, 지금 R을 사용하려고합니다.
이것을 위해 무엇을 사용하고 있습니까?
이것은 원래 대학에서하는 짧은 연구 프로젝트의 일부로 여겨졌지만 이제는 엄청난 게놈 주석 프로젝트로 확장되었습니다. 왜? 생물 정보학이 멋지 기 때문입니다. A, T, C 및 G 문자열을 사용하여 수백만 년 전에 발생한 이벤트에 대한 정보를 유추하는 데 사용할 수 있다는 것은 놀라운 일입니다.
말할 것도없이, 나는 내 자신의 일로 친절하게 제공된 어떤 대답도 시도하지 않을 것이다. 제출 된 작업에서 여기에 제안 된 방법을 사용하는 경우 논문에 감사의 말을 포함시켜 드리겠습니다.