인간 게놈을 저장하려면 얼마나 많은 저장 공간이 필요합니까?


84

단일 인간 게놈을 저장하는 데 필요한 바이트 (MB, GB, TB 등) 단위의 스토리지 양을 찾고 있습니다. 나는 Wikipedia에서 DNA, 염색체, 염기쌍, 유전자에 대한 몇 가지 기사를 읽었으며 대략적인 추측이 있었지만 공개하기 전에 다른 사람들이이 문제에 어떻게 접근하는지보고 싶습니다.

대안적인 질문은 인간 DNA에 얼마나 많은 원자가 있는지가 될 것이지만,이 사이트에서는 주제가 아닙니다.

나는 이것이 근사치라는 것을 이해하므로 모든 인간의 DNA를 저장할 수있는 최소한의 값을 찾고 있습니다.


원자의 수는 조성에 따라 다릅니다. A와 T는 G와 C보다 작은 분자입니다. 분자의 구조는 소고기이지만 원자 구성은 아니기 때문에이 계산은 매우 유용한 계산이 아닙니다. (가치가있는 것, 예를 들어 A 분자 일명 deoxyadenosine 은 C10H13N5O3이므로 31 개의 원자가 있습니다.)
tripleee


사용자 slayton, Paul Amstrong 및 rauchen을 제외하고 주어진 다른 모든 답변은 본질적으로 잘못되었거나 완전하지 않습니다. 답변에서 사용자 (실패)가 압축 방법을 언급했거나 제대로 설명되지 않았습니다. 많은 답변에서 볼 수 있듯이 게놈의 4 배 축소를 명확히하기 위해 내 답변을 참조하십시오.
ZF007

나는 주제 전원이 여기에 있기 때문에 오프 주제로해야한다,이 질문을 닫으 투표 해요 bioinformatics.stackexchange.com
Chris_Rands

답변:


68

그러한 것들을 신뢰한다면, 다음은 Wikipedia가 주장하는 내용입니다 ( http://en.wikipedia.org/wiki/Human_genome#Information_content에서 ) :

반수체 인간 게놈의 29 억 염기쌍은 모든 염기쌍이 2 비트로 코딩 될 수 있기 때문에 최대 약 725 메가 바이트의 데이터에 해당합니다. 개별 게놈은 서로 1 % 미만 차이가 나기 때문에 약 4MB로 무손실 압축 할 수 있습니다.


8
생물학적 주석을 추가하기 위해 여기에서 "반수체"는 각 염색체의 사본 하나만 의미합니다. 인간 참조 어셈블리는 반수체 (및 여러 사람의 모자이크)입니다. 실제 개별 게놈은 2 배체 (X와 Y를 제외하고 각 염색체의 2 개 사본)이지만 다시 작은 부분 집합의 두 사본 사이에서만 변이됩니다.
Alex Stoddard

9
하루 동안 그것에 대해 생각하고 이것을 깨달았습니다. 기본 사례 인간 DNA를 저장했다면 후속 인간의 DNA는 기본 사례와 기본 사례 간의 차이로만 저장하면됩니다. 동성 사례의 경우 DNA는 99.9 % 동일합니다. 성별에 따라 98.5 %입니다.
Costa

3
또한 DNA 염기쌍 내에 암호화 된 모든 정보가 후성 유전 학적 정보 가있는 것은 아니라는 점을 기억할 가치가 있습니다 .
Annarfych

이것은 의미가 있습니다. 기본 쌍은 기본적으로 4-nary입니다. 4-nary 숫자는 2 비트이므로 크기를 두 배로 늘립니다. 5.8 기가비트 또는 5.8 / 8 기가 바이트 인 0.725GB 또는 725MB입니다. '압축'은 전체 게놈을 저장하는 대신 매핑 된 게놈에 대한 차이를 저장할 수 있기 때문에 가능합니다.
Dave Cousineau 17 년

@Annarfych 이는 후성 유전 학적 정보가 정의상 상속 될 수 없기 때문에 극도로 오해의 소지가 있습니다 (인기 언론에서 반대되는 잘못된 주장에도 불구하고). 유전 정보는 DNA에만 저장됩니다.
Konrad Rudolph

25

모든 DNA를 하나의 흐름에 저장하는 것이 아니라 대부분 염색체에 의해 저장됩니다.

큰 염색체는 약 300MB, 작은 염색체는 약 50MB를 차지합니다.


편집하다:

기본 쌍당 2 비트로 저장되지 않는 첫 번째 이유는 데이터 작업에 장애물이 발생하기 때문이라고 생각합니다. 대부분의 사람들은 그것을 변환하는 방법을 모릅니다. 그리고 전환 프로그램이 주어 지더라도 대기업이나 연구소의 많은 사람들이 프로그램 설치 방법을 묻거나 알 필요가 없습니다.

1GB 스토리지는 비용이 들지 않으며 3GB를 다운로드해도 100Mbitsps로 4 분 밖에 걸리지 않으며 대부분의 회사는 더 빠른 속도를 제공합니다.

또 다른 요점은 데이터가 말한 것만 큼 간단하지 않다는 것입니다.

예를 들어 Craig_Venter 가 발명 한 시퀀싱 방법 은 큰 발전 이었지만 단점 이 있습니다. 동일한 기본 쌍의 긴 체인을 분리 할 수 ​​없으므로 8 개의 A 또는 9 개의 A가 있는지 항상 100 % 명확하지는 않습니다. 나중에 처리해야 할 사항 ...

또 다른 예는 DNA 메틸화입니다. 이 정보를 2 비트 표현으로 저장할 수 없기 때문입니다.


2
나에게서 +1. 그러나 "큰"또는 "작은"염색체가 무엇을 의미하는지 전혀 모릅니다.
Milan Babuškov 2012 년

1
이 수치는 Wikipedia가 말하는 것과 합산되지 않습니다 ( en.wikipedia.org/wiki/Human_genome#Information_content 의 표 참조 ). 당신이 틀렸다는 말은 아니지만 그 차이를 설명해 주시겠습니까?
Oliver Charlesworth 2012 년

그는 각 위치의 2 비트 인코딩을 가정 할 수있는 MB 대신 Mbp (수백만 개의 염기쌍, 각 염기쌍은 게놈의 단일 위치)를 인용하는 것처럼 보입니다
Alex Stoddard

일부 게놈의 DNA 메틸화는 유기체의 수명 동안 변합니다. 인간 게놈에 대한 DNA 메틸화 데이터를 포함하는 것은 개인에 대한 일반적인 설명이 아니라 특정 순간에 사람의 상세한 스냅 샷과 더 비슷할 것입니다. 그러나 OP는 그들이 원하는 것을 지정하지 않았습니다.
cowlinator

12

기본적으로 각 기본 쌍은 2 비트를 사용합니다 (T, G, C 및 A에 대해 00, 01, 10, 11을 사용할 수 있음). 인간 게놈에는 약 29 억 개의 염기쌍이 있으므로 (2 * 29 억) 비트 ~ = 691 메가 바이트입니다.

저는 전문가는 아니지만 Wikipedia 의 Human Genome 페이지에 다음과 같이 나와 있습니다.

원시 MB :

  • 남성 (XY) : 770MB
  • 여성 (XX) : 756MB

그들의 차이가 어디에서 왔는지 확실하지 않지만 당신이 그것을 알아낼 수 있다고 확신합니다.


6
현실적으로 시퀀스 정보에 저장된 다른 염기가 있으므로 2 비트 이상이 필요합니다 ( N예 : 데이터를 매핑 할 수 없어서 알 수없는 경우). IUPAC 뉴클레오티드 코드에는 표준 4 개 이상의 코드가 포함되어 있으며 이는 저장 오버 헤드를 증가시킬 수 있습니다. ebi.ac.uk/2can/tutorials/aa.html
알렉스 레이놀즈

@AlexReynolds 깨진 링크 : /
o0 '.

2
@AlexReynolds @ o0 ' bioinformatics.org/sms2/iupac.html 은 이러한 IUPAC 코드에 대한 더 나은 링크입니다. AIUI, 특정 게놈 "스캔"은 정확하지 않기 때문에 2 비트 이상을 필요로합니다. 따라서 RA 또는 G, N모든 염기, .간격 등으로 인해 게놈을 완벽하게 읽을 수 있다면 염기 당 2 비트가됩니다. .
skierpage

1
X 염색체는 여성의 경우 단일입니다. 수컷은 여분의 Y 크롬을 가지고 있습니다. 우리 모두가 알고 있듯이 X crhom과는 구별됩니다.
ZF007

또한 메가 바이트 ( 2 진수 2 ^ 20 또는 미터법 10 ^ 6 바이트) 를 정의하는 방법에 따라 다릅니다 . 바이너리를 사용하므로 숫자가 더 적습니다.
il--ya

8

예, 전체 인간 DNA에 필요한 최소 RAM은 약 770MB입니다. 그러나 2 비트 표현은 비실용적입니다. 검색하거나 계산하기가 어렵습니다. 따라서 일부 수학자들은 염기의 염기 서열을 저장하는 더 효과적인 방법을 설계하고 ... 예를 들어 GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html)와 같은 검색 및 비교 알고리즘에서이를 사용합니다. 이 응용 프로그램은 지금 내 PC에서 실행되므로 여러분에게 말할 수 있습니다 ... 실제로 약 1563MB 에 저장된 DNA가 있습니다.


4

사용자 slayton, rauchen, Paul Amstrong을 제외한 대부분의 답변 은 압축 기술이없는 순수한 스토리지 일대일에 대해 잘못되었습니다.

3Gb의 뉴클레오티드를 가진 인간 게놈은 ~ 750MB가 아닌 3Gb의 바이트에 해당합니다. NCBI에 따라 구축 된 "반수체"게놈은 현재 3436687kb 또는 3.436687Gb 크기입니다. 여기 에서 직접 확인 하십시오 .

반수체 = 염색체의 단일 사본. Diploid = 두 가지 버전의 반수체. 인간은 22 개의 고유 한 염색체 x 2 = 44를 가지고 있습니다. 23 번째 염색체 수컷은 X, Y이며 총 46 개를 만듭니다. 암컷 23 번 크롬. X, X이므로 총 46 개가됩니다.

남성의 경우 HDD의 데이터 저장에서 23 + 1 염색체이고 여성의 경우 23 염색체가 될 것입니다. 이는 답변에서 언급 된 작은 차이점을 설명합니다. X 크롬. 수컷에서 X chrom과 같습니다. 암컷에게서.

따라서 게놈 (23 + 1)을 메모리에로드하는 작업은 fasta-file에서 구성된 데이터베이스를 사용하여 BLAST를 통해 부분적으로 수행됩니다. 압축 된 버전이든 아니든 상관없이 뉴클레오티드는 거의 압축되지 않습니다. 초기에 사용 된 트릭 중 하나는 직렬 반복 (GACGACGAC을 더 짧은 코딩, 예 : "3GAC", 9 바이트에서 4 바이트로)을 대체하는 것이 었습니다. 그 이유는 하드 드라이브 공간 (7.200rpm 및 SCSI 커넥터가있는 500bm-2GB HDDD 플래터 영역)을 절약하기 위해서입니다. 시퀀스 검색의 경우 쿼리로도 수행되었습니다.

경우 "코딩 염기" 저장 문자 당 2 비트의 것 당신은 바이트 얻을 :

A = 00
C = 01
G = 10
T = 11

그래야만 1 바이트 코딩에 대해 1,2,3,4,5,6,7 및 8 위치에서 완전히 이익을 얻을 수 있습니다. 예를 들어 조합 00.01.10.11 (byte 00011011)은 "ACTG"에 해당합니다 (텍스트 파일에 인식 할 수없는 문자로 표시됨). 이것만으로 다른 답변에서 볼 수 있듯이 파일 크기가 4 배 감소합니다. 따라서 3.4Gb는 필요한 변환 프로그램 (23kb-4mb)을 포함하여 0.85917175Gb ... ~ 860MB로 축소됩니다.

그러나 ... 생물학에서는 무언가를 읽을 수 있기를 원하므로 압축 gzip으로 충분합니다. 압축을 풀면 여전히 읽을 수 있습니다. 이 바이트 채우기를 사용하면 데이터를 읽기가 더 어려워집니다. 이것이 바로 fasta-file이 실제로 일반 텍스트 파일 인 이유입니다.


1
사진이나 오디오 녹음 또는 비디오로 저장할 수도 있으며 저장하는 데 테라 베이트가 필요합니다. 하지만이되지 필요 하고 최소한 이 질문을 받았다으로.
il--ya

@ il--ya ... 당신이하려는 요점을 놓치고 있습니다 ... (250km의 TDK 테이프를 이동하는 것을 좋아합니다. 무게가 600kg이고 되 감는 데 3 시간이 걸립니다)?
ZF007

1
요점은 기본 쌍 4 개 중 1 개가 2 비트 정보로 코딩된다는 것입니다. 이것은 그것을 코딩하는 데 필요한 데이터의 양입니다. 적은 양으로 코딩 할 수 없습니다. 그러나 다른 방식으로 코딩하도록 선택할 수 있습니다. 전체 바이트를 사용하거나 몇 kB를 차지하는 그림을 그리거나 오디오 녹음을 할 수 있습니다. 이 모든 것이 여전히 필요한 정보를 저장할 수는 있지만 필요 하거나 최소한의 코딩 이 필요 하지는 않습니다 . 원래 질문에서 묻지 않은 가독성 기준 (표준 텍스트 편집기 사용)을 임의로 부과했습니다.
il--ya

불행히도 그것은 생물학에서 작동하는 방식이 아닙니다. 과학자들 간의 의사 소통 방법은 화면에서 쉽게 읽을 수있는 구두, 종이 또는 텍스트 파일 형식입니다. 기본 쌍이 하나 인 경우 0 또는 1로 바이트를 채우면 충분합니다. 그러나 4 개의 염기 (2 쌍)가 있습니다. 바이트에는 basepair에 대한 4 개의 위치와 basepair의 유형을 나타내는 4 개의 위치가 있습니다. 데이터 압축은 작동하지만 인간은 가독성이 필요합니다. RGB 코드의 단일 픽셀 (3 값 및 강도 값)은 32 바이트를 사용합니다. 문자는 8 비트입니다. 따라서 모나리자로 만들 필요가 없죠?
ZF007

6
ZF007, 당신은 미니멀에 대한 내 요점을 놓쳤습니다. 질문은 " 인간 DNA를 저장하는 얼마나 많은 메모리가 필요 할까요?" 였습니다. 더 자세히 "... 나는 인간의 DNA를 저장할 수있는 최소한의 가치를 찾고 있습니다." 당신은 다른 질문 , 즉 "인간 DNA 를 생물 학자들이 게놈 데이터를 전달하기 위해 사용하는 읽을 수있는 형태 로 저장하는 데 얼마나 많은 메모리가 필요 합니까?" 에 대답하려고합니다. 좋은 압축 알고리즘으로 읽을 수있는 텍스트 데이터를 압축하면 해당 크기가 basepair 당 2 비트 미만으로 떨어집니다.
il--ya

3

인간 게놈에는 29 억 개의 염기쌍이 포함되어 있습니다. 따라서 각 기본 쌍을 바이트로 표시하면 29 억 바이트 또는 2.9GB가 필요합니다. 각 기본 쌍은 2 비트 만 필요하므로 기본 쌍을 저장하는보다 창의적인 방법을 생각 해낼 수 있습니다. 따라서 바이트 당 4 개의 기본 쌍을 저장하여 총 1GB 미만을 줄일 수 있습니다.


비트 ~ = 바이트. 29 억 비트는 약 350MB
SDGuero 2014

4
@SDGuero, 기본 쌍은 기본 2가 아닌 기본 4이므로 기본 쌍을 나타내려면 최소 2 비트가 필요합니다.
slayton 2014

BS on the bit lingo ... 각 뉴클레오티드 염기는 사용 된 문자 변환 테이블 (AscII, UTF-8 등)에 관계없이 1 문자이므로 1 바이트입니다. 2 바이트 아시아 코딩을 포함하지 않습니다.
ZF007

1
@ zf007 기본 쌍은 a, c, g 및 t의 TOKENS로 표시됩니다. 토큰은 캐릭터와 동일하지 않습니다. (11)에는 A는 00로서 부호화 할 수없는 이유는, 01- (C), 10 g 및 t 없다
MatBailie는

1
불일치가 있습니다. 원래 게시물에없는 사람이 읽을 수있는 파일이 필요하다고 주장하고 있습니다.
MatBailie

3

DNA를 구성하는 4 개의 뉴클레오티드 염기는 A, C, G, T이므로 DNA의 각 염기에 대해 2 비트를 차지합니다. 약 29 억 개의베이스가 있으므로 약 700 메가 바이트입니다. 이상한 점은 일반 데이터 CD를 채울 것입니다! 우연의 일치?!?


3

그냥 했어요. 원시 시퀀스는 ~ 700MB입니다. 고정 된 저장 시퀀스 또는 고정 된 시퀀스 저장 알고리즘을 사용하는 경우-변경 사항이 1 %라는 사실은 perchromosome-sequenceoffset-statedelta 저장으로 ~ 120MB로 계산됩니다. 그게 스토리지입니다.


1

모든 답변은 nuDNA가 인간 게놈을 정의하는 유일한 DNA가 아니라는 사실을 배제하고 있습니다. mtDNA는 또한 유전되며 인간 게놈에 추가로 16,500 개의 염기쌍을 제공하여 남성의 경우 770MB, 여성의 경우 756MB라는 Wikipedia 추측에 더 부합합니다.

그렇다고 인간 게놈을 4GB USB 스틱에 쉽게 저장할 수 있다는 의미는 아닙니다. 비트는 그 자체로 정보를 나타내는 것이 아니라 정보를 나타내는 비트의 조합입니다. 따라서 nuDNA 및 mtDNA의 경우 비트는 특히 기능 측면에서 표현하는 데 많은 MB의 원시 데이터가 필요한 단백질과 효소를 나타 내기 위해 인코딩됩니다 (압축 된 것과 혼동하지 말 것).

생각할 거리 : 인간 게놈의 80 %는 "비 코딩"DNA라고합니다. 실제로 전체 인체와 뇌가 151 ~ 154MB의 원시 데이터로 표현 될 수 있다고 실제로 믿었습니까?


-3

염기쌍에는 2 가지 유형 만 있는데, 사이토 신은 구아닌에만 결합 할 수 있고 아데닌은 티민에만 결합 할 수 있으므로 각 염기쌍은 단일 비트로 간주 될 수 있습니다. 이것은 인간 DNA의 전체 가닥이 약 30 억 "비트"가 약 350 메가 바이트라는 것을 의미합니다.


2
두 가지 유형의 쌍이 있으며 두 방향이 될 수 있으므로 각 쌍에 대해 2 비트가 필요합니다. 이것이 위의 대부분의 게시물이 350MB가 아닌 ~ 700MB를 쓰는 이유입니다.
Trondster 2017-10-23

-3

하나의 염기 ( T, C, A, G) (기본 4 숫자 체계 : 0, 1, 2, 3)는 2 비트 (1이 아님) 로 인코딩 되므로 하나의 염기 쌍4 비트로 인코딩됩니다 .


2
한 쌍의 염기가 서로 보완한다는 점을 제외하고는 정보를 추가하지 마십시오. 따라서 기본 쌍과 기본 쌍 모두 2 비트로 인코딩 할 수 있습니다.
il--ya

"A"가 있다면 무엇으로 보완합니까? "AC" "AG" "AT"는 모두 유효합니다. 마찬가지로, "T"가 있으면 "TG" "TC" "TA"가 유효합니다. 그러면 어떻게하나요?
Roger Johansson

1
@RogerJohansson 아니요, "AT"염기쌍 만 DNA에서 유효합니다. "TA", "CG"및 "GC"도 마찬가지입니다. 다른 기본 쌍 조합이 없습니다.
Konrad Rudolph

@KonradRudolph 최소한 9 개의 퓨린이 있습니다 ( en.wikipedia.org/wiki/Purine ). 그들 모두는 A 또는 G를 대체하는 데 사용될 수 있습니다. 이것은 OP의 질문에 대한 해결책을 더 복잡하게 만들 것입니다. 나는 A, G, T와 C에 간단하고 스틱을 유지하는 데 동의합니다
ZF007

1
@ ZF007 그들은 존재하지만 인간 게놈에서 안정적으로 발생하지 않으므로 게놈 저장과 관련이 없습니다. 이들의 생물학적 관련성은 돌연변이 (그리고 일시적으로 만 존재 함) 및 RNA 변형의 맥락에서만 중요합니다. 특히 (이 답변의 맥락에서) 게놈 데이터는 "염기 쌍"으로 저장되지 않고 단일 염기의 시퀀스로 저장되며 각 위치는 2 비트로 인코딩 될 수 있습니다. 이것은 이론적이지 않고 실제로 수행되는 방법 입니다 (대부분의 응용 프로그램에서 유전 데이터는 비트 압축이 아닌 (gzipped) ASCII로 저장된다는 점을 제외하고).
Konrad Rudolph
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.