사용자 slayton, rauchen, Paul Amstrong을 제외한 대부분의 답변 은 압축 기술이없는 순수한 스토리지 일대일에 대해 잘못되었습니다.
3Gb의 뉴클레오티드를 가진 인간 게놈은 ~ 750MB가 아닌 3Gb의 바이트에 해당합니다. NCBI에 따라 구축 된 "반수체"게놈은 현재 3436687kb 또는 3.436687Gb 크기입니다. 여기 에서 직접 확인 하십시오 .
반수체 = 염색체의 단일 사본. Diploid = 두 가지 버전의 반수체. 인간은 22 개의 고유 한 염색체 x 2 = 44를 가지고 있습니다. 23 번째 염색체 수컷은 X, Y이며 총 46 개를 만듭니다. 암컷 23 번 크롬. X, X이므로 총 46 개가됩니다.
남성의 경우 HDD의 데이터 저장에서 23 + 1 염색체이고 여성의 경우 23 염색체가 될 것입니다. 이는 답변에서 언급 된 작은 차이점을 설명합니다. X 크롬. 수컷에서 X chrom과 같습니다. 암컷에게서.
따라서 게놈 (23 + 1)을 메모리에로드하는 작업은 fasta-file에서 구성된 데이터베이스를 사용하여 BLAST를 통해 부분적으로 수행됩니다. 압축 된 버전이든 아니든 상관없이 뉴클레오티드는 거의 압축되지 않습니다. 초기에 사용 된 트릭 중 하나는 직렬 반복 (GACGACGAC을 더 짧은 코딩, 예 : "3GAC", 9 바이트에서 4 바이트로)을 대체하는 것이 었습니다. 그 이유는 하드 드라이브 공간 (7.200rpm 및 SCSI 커넥터가있는 500bm-2GB HDDD 플래터 영역)을 절약하기 위해서입니다. 시퀀스 검색의 경우 쿼리로도 수행되었습니다.
경우 "코딩 염기" 저장 문자 당 2 비트의 것 당신은 바이트 얻을 :
A = 00
C = 01
G = 10
T = 11
그래야만 1 바이트 코딩에 대해 1,2,3,4,5,6,7 및 8 위치에서 완전히 이익을 얻을 수 있습니다. 예를 들어 조합 00.01.10.11 (byte 00011011
)은 "ACTG"에 해당합니다 (텍스트 파일에 인식 할 수없는 문자로 표시됨). 이것만으로 다른 답변에서 볼 수 있듯이 파일 크기가 4 배 감소합니다. 따라서 3.4Gb는 필요한 변환 프로그램 (23kb-4mb)을 포함하여 0.85917175Gb ... ~ 860MB로 축소됩니다.
그러나 ... 생물학에서는 무언가를 읽을 수 있기를 원하므로 압축 gzip으로 충분합니다. 압축을 풀면 여전히 읽을 수 있습니다. 이 바이트 채우기를 사용하면 데이터를 읽기가 더 어려워집니다. 이것이 바로 fasta-file이 실제로 일반 텍스트 파일 인 이유입니다.