인간 게놈을 저장하려면 얼마나 많은 저장 공간이 필요합니까?

84

단일 인간 게놈을 저장하는 데 필요한 바이트 (MB, GB, TB 등) 단위의 스토리지 양을 찾고 있습니다. 나는 Wikipedia에서 DNA, 염색체, 염기쌍, 유전자에 대한 몇 가지 기사를 읽었으며 대략적인 추측이 있었지만 공개하기 전에 다른 사람들이이 문제에 어떻게 접근하는지보고 싶습니다.

대안적인 질문은 인간 DNA에 얼마나 많은 원자가 있는지가 될 것이지만,이 사이트에서는 주제가 아닙니다.

나는 이것이 근사치라는 것을 이해하므로 모든 인간의 DNA를 저장할 수있는 최소한의 값을 찾고 있습니다.

— 밀란 바부 스코프
소스

원자의 수는 조성에 따라 다릅니다. A와 T는 G와 C보다 작은 분자입니다. 분자의 구조는 소고기이지만 원자 구성은 아니기 때문에이 계산은 매우 유용한 계산이 아닙니다. (가치가있는 것, 예를 들어 A 분자 일명 deoxyadenosine 은 C10H13N5O3이므로 31 개의 원자가 있습니다.)

— tripleee

참조 biostars.org/p/5514

— Ondra Žižka

사용자 slayton, Paul Amstrong 및 rauchen을 제외하고 주어진 다른 모든 답변은 본질적으로 잘못되었거나 완전하지 않습니다. 답변에서 사용자 (실패)가 압축 방법을 언급했거나 제대로 설명되지 않았습니다. 많은 답변에서 볼 수 있듯이 게놈의 4 배 축소를 명확히하기 위해 내 답변을 참조하십시오.

— ZF007

나는 주제 전원이 여기에 있기 때문에 오프 주제로해야한다,이 질문을 닫으 투표 해요 bioinformatics.stackexchange.com

— Chris_Rands

68

그러한 것들을 신뢰한다면, 다음은 Wikipedia가 주장하는 내용입니다 ( http://en.wikipedia.org/wiki/Human_genome#Information_content에서 ) :

반수체 인간 게놈의 29 억 염기쌍은 모든 염기쌍이 2 비트로 코딩 될 수 있기 때문에 최대 약 725 메가 바이트의 데이터에 해당합니다. 개별 게놈은 서로 1 % 미만 차이가 나기 때문에 약 4MB로 무손실 압축 할 수 있습니다.

— 올리버 찰스 워스
소스

8

생물학적 주석을 추가하기 위해 여기에서 "반수체"는 각 염색체의 사본 하나만 의미합니다. 인간 참조 어셈블리는 반수체 (및 여러 사람의 모자이크)입니다. 실제 개별 게놈은 2 배체 (X와 Y를 제외하고 각 염색체의 2 개 사본)이지만 다시 작은 부분 집합의 두 사본 사이에서만 변이됩니다.

— Alex Stoddard

9

하루 동안 그것에 대해 생각하고 이것을 깨달았습니다. 기본 사례 인간 DNA를 저장했다면 후속 인간의 DNA는 기본 사례와 기본 사례 간의 차이로만 저장하면됩니다. 동성 사례의 경우 DNA는 99.9 % 동일합니다. 성별에 따라 98.5 %입니다.

— Costa

3

또한 DNA 염기쌍 내에 암호화 된 모든 정보가 후성 유전 학적 정보 가있는 것은 아니라는 점을 기억할 가치가 있습니다 .

— Annarfych

이것은 의미가 있습니다. 기본 쌍은 기본적으로 4-nary입니다. 4-nary 숫자는 2 비트이므로 크기를 두 배로 늘립니다. 5.8 기가비트 또는 5.8 / 8 기가 바이트 인 0.725GB 또는 725MB입니다. '압축'은 전체 게놈을 저장하는 대신 매핑 된 게놈에 대한 차이를 저장할 수 있기 때문에 가능합니다.

— Dave Cousineau 17 년

@Annarfych 이는 후성 유전 학적 정보가 정의상 상속 될 수 없기 때문에 극도로 오해의 소지가 있습니다 (인기 언론에서 반대되는 잘못된 주장에도 불구하고). 유전 정보는 DNA에만 저장됩니다.

— Konrad Rudolph

25

모든 DNA를 하나의 흐름에 저장하는 것이 아니라 대부분 염색체에 의해 저장됩니다.

큰 염색체는 약 300MB, 작은 염색체는 약 50MB를 차지합니다.

편집하다:

기본 쌍당 2 비트로 저장되지 않는 첫 번째 이유는 데이터 작업에 장애물이 발생하기 때문이라고 생각합니다. 대부분의 사람들은 그것을 변환하는 방법을 모릅니다. 그리고 전환 프로그램이 주어 지더라도 대기업이나 연구소의 많은 사람들이 프로그램 설치 방법을 묻거나 알 필요가 없습니다.

1GB 스토리지는 비용이 들지 않으며 3GB를 다운로드해도 100Mbitsps로 4 분 밖에 걸리지 않으며 대부분의 회사는 더 빠른 속도를 제공합니다.

또 다른 요점은 데이터가 말한 것만 큼 간단하지 않다는 것입니다.

예를 들어 Craig_Venter 가 발명 한 시퀀싱 방법 은 큰 발전 이었지만 단점 이 있습니다. 동일한 기본 쌍의 긴 체인을 분리 할 수 없으므로 8 개의 A 또는 9 개의 A가 있는지 항상 100 % 명확하지는 않습니다. 나중에 처리해야 할 사항 ...

또 다른 예는 DNA 메틸화입니다. 이 정보를 2 비트 표현으로 저장할 수 없기 때문입니다.

— Rauschen
소스

2

나에게서 +1. 그러나 "큰"또는 "작은"염색체가 무엇을 의미하는지 전혀 모릅니다.

— Milan Babuškov 2012 년

1

이 수치는 Wikipedia가 말하는 것과 합산되지 않습니다 ( en.wikipedia.org/wiki/Human_genome#Information_content 의 표 참조 ). 당신이 틀렸다는 말은 아니지만 그 차이를 설명해 주시겠습니까?

— Oliver Charlesworth 2012 년

그는 각 위치의 2 비트 인코딩을 가정 할 수있는 MB 대신 Mbp (수백만 개의 염기쌍, 각 염기쌍은 게놈의 단일 위치)를 인용하는 것처럼 보입니다

— Alex Stoddard

일부 게놈의 DNA 메틸화는 유기체의 수명 동안 변합니다. 인간 게놈에 대한 DNA 메틸화 데이터를 포함하는 것은 개인에 대한 일반적인 설명이 아니라 특정 순간에 사람의 상세한 스냅 샷과 더 비슷할 것입니다. 그러나 OP는 그들이 원하는 것을 지정하지 않았습니다.

— cowlinator

12

기본적으로 각 기본 쌍은 2 비트를 사용합니다 (T, G, C 및 A에 대해 00, 01, 10, 11을 사용할 수 있음). 인간 게놈에는 약 29 억 개의 염기쌍이 있으므로 (2 * 29 억) 비트 ~ = 691 메가 바이트입니다.

저는 전문가는 아니지만 Wikipedia 의 Human Genome 페이지에 다음과 같이 나와 있습니다.

원시 MB :

남성 (XY) : 770MB
여성 (XX) : 756MB

그들의 차이가 어디에서 왔는지 확실하지 않지만 당신이 그것을 알아낼 수 있다고 확신합니다.

— 폴 암스트롱
소스

6

현실적으로 시퀀스 정보에 저장된 다른 염기가 있으므로 2 비트 이상이 필요합니다 ( N예 : 데이터를 매핑 할 수 없어서 알 수없는 경우). IUPAC 뉴클레오티드 코드에는 표준 4 개 이상의 코드가 포함되어 있으며 이는 저장 오버 헤드를 증가시킬 수 있습니다. ebi.ac.uk/2can/tutorials/aa.html

— 알렉스 레이놀즈

@AlexReynolds 깨진 링크 : /

— o0 '.

2

@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html 은 이러한 IUPAC 코드에 대한 더 나은 링크입니다. AIUI, 특정 게놈 "스캔"은 정확하지 않기 때문에 2 비트 이상을 필요로합니다. 따라서 RA 또는 G, N모든 염기, .간격 등으로 인해 게놈을 완벽하게 읽을 수 있다면 염기 당 2 비트가됩니다. .

— skierpage

1

X 염색체는 여성의 경우 단일입니다. 수컷은 여분의 Y 크롬을 가지고 있습니다. 우리 모두가 알고 있듯이 X crhom과는 구별됩니다.

— ZF007

또한 메가 바이트 ( 2 진수 2 ^ 20 또는 미터법 10 ^ 6 바이트) 를 정의하는 방법에 따라 다릅니다 . 바이너리를 사용하므로 숫자가 더 적습니다.

— il--ya

8

예, 전체 인간 DNA에 필요한 최소 RAM은 약 770MB입니다. 그러나 2 비트 표현은 비실용적입니다. 검색하거나 계산하기가 어렵습니다. 따라서 일부 수학자들은 염기의 염기 서열을 저장하는 더 효과적인 방법을 설계하고 ... 예를 들어 GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html)와 같은 검색 및 비교 알고리즘에서이를 사용합니다. 이 응용 프로그램은 지금 내 PC에서 실행되므로 여러분에게 말할 수 있습니다 ... 실제로 약 1563MB 에 저장된 DNA가 있습니다.

— Filip OvertoneSinger Rydlo
소스

4

사용자 slayton, rauchen, Paul Amstrong을 제외한 대부분의 답변 은 압축 기술이없는 순수한 스토리지 일대일에 대해 잘못되었습니다.

3Gb의 뉴클레오티드를 가진 인간 게놈은 ~ 750MB가 아닌 3Gb의 바이트에 해당합니다. NCBI에 따라 구축 된 "반수체"게놈은 현재 3436687kb 또는 3.436687Gb 크기입니다. 여기 에서 직접 확인 하십시오 .

반수체 = 염색체의 단일 사본. Diploid = 두 가지 버전의 반수체. 인간은 22 개의 고유 한 염색체 x 2 = 44를 가지고 있습니다. 23 번째 염색체 수컷은 X, Y이며 총 46 개를 만듭니다. 암컷 23 번 크롬. X, X이므로 총 46 개가됩니다.

남성의 경우 HDD의 데이터 저장에서 23 + 1 염색체이고 여성의 경우 23 염색체가 될 것입니다. 이는 답변에서 언급 된 작은 차이점을 설명합니다. X 크롬. 수컷에서 X chrom과 같습니다. 암컷에게서.

따라서 게놈 (23 + 1)을 메모리에로드하는 작업은 fasta-file에서 구성된 데이터베이스를 사용하여 BLAST를 통해 부분적으로 수행됩니다. 압축 된 버전이든 아니든 상관없이 뉴클레오티드는 거의 압축되지 않습니다. 초기에 사용 된 트릭 중 하나는 직렬 반복 (GACGACGAC을 더 짧은 코딩, 예 : "3GAC", 9 바이트에서 4 바이트로)을 대체하는 것이 었습니다. 그 이유는 하드 드라이브 공간 (7.200rpm 및 SCSI 커넥터가있는 500bm-2GB HDDD 플래터 영역)을 절약하기 위해서입니다. 시퀀스 검색의 경우 쿼리로도 수행되었습니다.

경우 "코딩 염기" 저장 문자 당 2 비트의 것 당신은 바이트 얻을 :

A = 00
C = 01
G = 10
T = 11

그래야만 1 바이트 코딩에 대해 1,2,3,4,5,6,7 및 8 위치에서 완전히 이익을 얻을 수 있습니다. 예를 들어 조합 00.01.10.11 (byte 00011011)은 "ACTG"에 해당합니다 (텍스트 파일에 인식 할 수없는 문자로 표시됨). 이것만으로 다른 답변에서 볼 수 있듯이 파일 크기가 4 배 감소합니다. 따라서 3.4Gb는 필요한 변환 프로그램 (23kb-4mb)을 포함하여 0.85917175Gb ... ~ 860MB로 축소됩니다.

그러나 ... 생물학에서는 무언가를 읽을 수 있기를 원하므로 압축 gzip으로 충분합니다. 압축을 풀면 여전히 읽을 수 있습니다. 이 바이트 채우기를 사용하면 데이터를 읽기가 더 어려워집니다. 이것이 바로 fasta-file이 실제로 일반 텍스트 파일 인 이유입니다.

— ZF007
소스

1

사진이나 오디오 녹음 또는 비디오로 저장할 수도 있으며 저장하는 데 테라 베이트가 필요합니다. 하지만이되지 필요 하고 최소한 이 질문을 받았다으로.

— il--ya

@ il--ya ... 당신이하려는 요점을 놓치고 있습니다 ... (250km의 TDK 테이프를 이동하는 것을 좋아합니다. 무게가 600kg이고 되 감는 데 3 시간이 걸립니다)?

— ZF007

1

요점은 기본 쌍 4 개 중 1 개가 2 비트 정보로 코딩된다는 것입니다. 이것은 그것을 코딩하는 데 필요한 데이터의 양입니다. 적은 양으로 코딩 할 수 없습니다. 그러나 다른 방식으로 코딩하도록 선택할 수 있습니다. 전체 바이트를 사용하거나 몇 kB를 차지하는 그림을 그리거나 오디오 녹음을 할 수 있습니다. 이 모든 것이 여전히 필요한 정보를 저장할 수는 있지만 필요 하거나 최소한의 코딩 이 필요 하지는 않습니다 . 원래 질문에서 묻지 않은 가독성 기준 (표준 텍스트 편집기 사용)을 임의로 부과했습니다.

— il--ya

불행히도 그것은 생물학에서 작동하는 방식이 아닙니다. 과학자들 간의 의사 소통 방법은 화면에서 쉽게 읽을 수있는 구두, 종이 또는 텍스트 파일 형식입니다. 기본 쌍이 하나 인 경우 0 또는 1로 바이트를 채우면 충분합니다. 그러나 4 개의 염기 (2 쌍)가 있습니다. 바이트에는 basepair에 대한 4 개의 위치와 basepair의 유형을 나타내는 4 개의 위치가 있습니다. 데이터 압축은 작동하지만 인간은 가독성이 필요합니다. RGB 코드의 단일 픽셀 (3 값 및 강도 값)은 32 바이트를 사용합니다. 문자는 8 비트입니다. 따라서 모나리자로 만들 필요가 없죠?

— ZF007

6

ZF007, 당신은 미니멀에 대한 내 요점을 놓쳤습니다. 질문은 " 인간 DNA를 저장하는 데 얼마나 많은 메모리가 필요 할까요?" 였습니다. 더 자세히 "... 나는 인간의 DNA를 저장할 수있는 최소한의 가치를 찾고 있습니다." 당신은 다른 질문 , 즉 "인간 DNA 를 생물 학자들이 게놈 데이터를 전달하기 위해 사용하는 읽을 수있는 형태 로 저장하는 데 얼마나 많은 메모리가 필요 합니까?" 에 대답하려고합니다. 좋은 압축 알고리즘으로 읽을 수있는 텍스트 데이터를 압축하면 해당 크기가 basepair 당 2 비트 미만으로 떨어집니다.

— il--ya

3

인간 게놈에는 29 억 개의 염기쌍이 포함되어 있습니다. 따라서 각 기본 쌍을 바이트로 표시하면 29 억 바이트 또는 2.9GB가 필요합니다. 각 기본 쌍은 2 비트 만 필요하므로 기본 쌍을 저장하는보다 창의적인 방법을 생각 해낼 수 있습니다. 따라서 바이트 당 4 개의 기본 쌍을 저장하여 총 1GB 미만을 줄일 수 있습니다.

— Slayton
소스

비트 ~ = 바이트. 29 억 비트는 약 350MB

— SDGuero 2014

4

@SDGuero, 기본 쌍은 기본 2가 아닌 기본 4이므로 기본 쌍을 나타내려면 최소 2 비트가 필요합니다.

— slayton 2014

BS on the bit lingo ... 각 뉴클레오티드 염기는 사용 된 문자 변환 테이블 (AscII, UTF-8 등)에 관계없이 1 문자이므로 1 바이트입니다. 2 바이트 아시아 코딩을 포함하지 않습니다.

— ZF007

1

@ zf007 기본 쌍은 a, c, g 및 t의 TOKENS로 표시됩니다. 토큰은 캐릭터와 동일하지 않습니다. (11)에는 A는 00로서 부호화 할 수없는 이유는, 01- (C), 10 g 및 t 없다

— MatBailie는

1

불일치가 있습니다. 원래 게시물에없는 사람이 읽을 수있는 파일이 필요하다고 주장하고 있습니다.

— MatBailie

3

DNA를 구성하는 4 개의 뉴클레오티드 염기는 A, C, G, T이므로 DNA의 각 염기에 대해 2 비트를 차지합니다. 약 29 억 개의베이스가 있으므로 약 700 메가 바이트입니다. 이상한 점은 일반 데이터 CD를 채울 것입니다! 우연의 일치?!?

— 매튜 맥 기네스
소스

3

그냥 했어요. 원시 시퀀스는 ~ 700MB입니다. 고정 된 저장 시퀀스 또는 고정 된 시퀀스 저장 알고리즘을 사용하는 경우-변경 사항이 1 %라는 사실은 perchromosome-sequenceoffset-statedelta 저장으로 ~ 120MB로 계산됩니다. 그게 스토리지입니다.

— 손님
소스

1

모든 답변은 nuDNA가 인간 게놈을 정의하는 유일한 DNA가 아니라는 사실을 배제하고 있습니다. mtDNA는 또한 유전되며 인간 게놈에 추가로 16,500 개의 염기쌍을 제공하여 남성의 경우 770MB, 여성의 경우 756MB라는 Wikipedia 추측에 더 부합합니다.

그렇다고 인간 게놈을 4GB USB 스틱에 쉽게 저장할 수 있다는 의미는 아닙니다. 비트는 그 자체로 정보를 나타내는 것이 아니라 정보를 나타내는 비트의 조합입니다. 따라서 nuDNA 및 mtDNA의 경우 비트는 특히 기능 측면에서 표현하는 데 많은 MB의 원시 데이터가 필요한 단백질과 효소를 나타 내기 위해 인코딩됩니다 (압축 된 것과 혼동하지 말 것).

생각할 거리 : 인간 게놈의 80 %는 "비 코딩"DNA라고합니다. 실제로 전체 인체와 뇌가 151 ~ 154MB의 원시 데이터로 표현 될 수 있다고 실제로 믿었습니까?

— ar18
소스

-3

염기쌍에는 2 가지 유형 만 있는데, 사이토 신은 구아닌에만 결합 할 수 있고 아데닌은 티민에만 결합 할 수 있으므로 각 염기쌍은 단일 비트로 간주 될 수 있습니다. 이것은 인간 DNA의 전체 가닥이 약 30 억 "비트"가 약 350 메가 바이트라는 것을 의미합니다.

— 리눅스 팬보이
소스

2

두 가지 유형의 쌍이 있으며 두 방향이 될 수 있으므로 각 쌍에 대해 2 비트가 필요합니다. 이것이 위의 대부분의 게시물이 350MB가 아닌 ~ 700MB를 쓰는 이유입니다.

— Trondster 2017-10-23

-3

하나의 염기 ( T, C, A, G) (기본 4 숫자 체계 : 0, 1, 2, 3)는 2 비트 (1이 아님) 로 인코딩 되므로 하나의 염기 쌍 은 4 비트로 인코딩됩니다 .

— 헨리 KO 노먼
소스

2

한 쌍의 염기가 서로 보완한다는 점을 제외하고는 정보를 추가하지 마십시오. 따라서 기본 쌍과 기본 쌍 모두 2 비트로 인코딩 할 수 있습니다.

— il--ya

"A"가 있다면 무엇으로 보완합니까? "AC" "AG" "AT"는 모두 유효합니다. 마찬가지로, "T"가 있으면 "TG" "TC" "TA"가 유효합니다. 그러면 어떻게하나요?

— Roger Johansson

1

@RogerJohansson 아니요, "AT"염기쌍 만 DNA에서 유효합니다. "TA", "CG"및 "GC"도 마찬가지입니다. 다른 기본 쌍 조합이 없습니다.

— Konrad Rudolph

@KonradRudolph 최소한 9 개의 퓨린이 있습니다 ( en.wikipedia.org/wiki/Purine ). 그들 모두는 A 또는 G를 대체하는 데 사용될 수 있습니다. 이것은 OP의 질문에 대한 해결책을 더 복잡하게 만들 것입니다. 나는 A, G, T와 C에 간단하고 스틱을 유지하는 데 동의합니다

— ZF007

1

@ ZF007 그들은 존재하지만 인간 게놈에서 안정적으로 발생하지 않으므로 게놈 저장과 관련이 없습니다. 이들의 생물학적 관련성은 돌연변이 (그리고 일시적으로 만 존재 함) 및 RNA 변형의 맥락에서만 중요합니다. 특히 (이 답변의 맥락에서) 게놈 데이터는 "염기 쌍"으로 저장되지 않고 단일 염기의 시퀀스로 저장되며 각 위치는 2 비트로 인코딩 될 수 있습니다. 이것은 이론적이지 않고 실제로 수행되는 방법 입니다 (대부분의 응용 프로그램에서 유전 데이터는 비트 압축이 아닌 (gzipped) ASCII로 저장된다는 점을 제외하고).

— Konrad Rudolph