파일 유형을 결정하기 위해 컨텐츠 스니핑이 얼마나 정확합니까?


-1

확장명이없는 파일의 마임 유형 (PDF, doc, docx 등의 문서 파일 형식)을 식별해야하며 알려진 파일 서명이 얼마나 정확한지 궁금합니다.

내가 할 일은 파일 형식과 서명의 맵을 만드는 것입니다. 그런 다음 각 파일에서 16 진수 값을 읽습니다. 이를 위해 .NET을 사용하고 응용 프로그램에 스니핑을 포함시킵니다. 문제는 .NET 세계 에서이 작업을 수행하는 좋은 라이브러리를 찾을 수 없으므로 직접 작성하려고 시도한다는 것입니다. 나에 따르면 파일 형식의 작은 하위 집합에만 관심이 있다는 사실 때문에 꽤 사소한 것이어야합니다.

답변:


1

일부 파일 형식은 쉽고 다른 파일 형식은 불가능하지 않습니다. 각 파일 형식이 다릅니다. 파일에 어떤 유형인지 식별하는 지점이 하나도 없습니다. 예를 들어 JPEG 이미지에는 특정 서명, 바닥 글이있는 인식 가능한 헤더가 있으며 쉽게 식별 할 수 있습니다. 그러나 일반 텍스트 파일에는 메타 데이터가 전혀 첨부되어 있지 않습니다. 원시 데이터에서 해당 파일을 보면 이전 파일과 다음 파일 사이에 텍스트 정보가 으깬다는 것을 알 수 있습니다. 그래도 파일이 있으면 전체 파일을 스캔하여 ASCII 또는 유니 코드 파일인지 확인할 수 있습니다.

상당한 양의 파일 유형에 대해 이와 같은 식별 방법을 찾으려면 상당한 노력이 필요합니다. 귀하에게 중요한 대부분의 유형을 식별 할 수있는 이미 사용 가능한 도구를 찾아야합니다. 다음은 이와 같은 작업을 수행하고 파일 형식에 대한 5,944 개의 정의 가있는 Windows 프로그램 입니다.

당신이하려는 일에 대한 자세한 정보를 제공 할 수 있습니까? 매직 넘버는 무엇입니까?


나는 그런 DOCX 등 PDF, 문서, 등 다양한 문서 파일 형식에만 관심이 있어요
비제이 Blazkowicz

TrIDNet 소프트웨어의 작동 방식을 확인하십시오 (실제로 .NET으로 작성 됨). 명령 행 버전을 사용하면 한 번에 많은 파일을 작업하거나 올바른 확장자를 변경하거나 추가하는 등 수행하려는 작업에 더 많은 유연성을 제공 할 수 있습니다. mark0.net/soft-trid-e.html
Datarecovery.com MK
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.