데이터 분석 프로젝트를 수행 할 때 종종 데이터를 쉼표 또는 탭으로 구분 된 (CSV, TSV) 데이터 파일에 저장합니다. 데이터는 종종 전용 데이터베이스 관리 시스템에 속합니다. 내 응용 프로그램의 많은 경우이 작업을 과도하게 수행 할 수 있습니다.
Excel (또는 다른 스프레드 시트 프로그램)에서 CSV 및 TSV 파일을 편집 할 수 있습니다. 이점이 있습니다.
- 스프레드 시트로 데이터를 쉽게 입력 할 수 있습니다
몇 가지 문제가 있습니다.
- CSV 및 TSV 파일로 작업하면 다양한 기능이 손실되고 활성 시트 만 저장되는 방법 등에 대한 광범위한 경고 메시지가 나타납니다. 따라서 파일을 열고 약간의 변경을 원한다면 성가신 일입니다.
- 많은 "현명한"변환을 수행합니다. 예를 들어 12/3를 입력하면 날짜를 입력한다고 생각합니다. 업데이트 : 날짜 예제는 많은 예제 중 하나 일뿐입니다. 대부분의 문제는 부적절한 전환과 관련이있는 것 같습니다. 특히 숫자 나 날짜처럼 보이는 텍스트 필드는 문제를 일으 킵니다.
또는 표준 텍스트 편집기에서 텍스트 파일로 직접 작업 할 수 있습니다. 이것은 내가 입력 한 것이 기록되는 것을 보장합니다. 그러나 데이터를 입력하는 것은 매우 어색한 방법입니다 (열은 정렬되지 않습니다. 단순히 여러 셀에 데이터를 입력하는 것은 어렵습니다).
질문
- CSV 또는 TSV 데이터 파일 작업을위한 좋은 전략은 무엇입니까? 즉, 어떤 전략을 사용하여 데이터를 쉽게 입력하고 조작하면서 입력 한 내용이 실제로 올바르게 해석되도록 할 수 있습니까?