Hadley에서 예상 할 수 있듯이 그의 기사에는 깔끔한 데이터에 대한 올바른 정의가 포함되어 있으며 필자는 그의 기사의 거의 모든 내용에 동의하며 "데이터 전문가"에게만 해당되는 것은 아니라고 생각합니다. 그러나 더 근본적인 문제를 피할 경우 그가하는 일부 요점은 비교적 쉽게 고칠 수 있습니다 (예 : 그가 작성한 패키지로). 이러한 문제의 대부분은 Excel이 널리 사용 된 결과입니다. Excel은 유용한 도구이며 장점이 있지만 일부 기능은 데이터 분석가에게 문제를 일으 킵니다.
내 경험에 비추어 볼 때 몇 가지 사항은 다음과 같습니다.
- 다채로운 스프레드 시트를 좋아하고 서식 옵션을 많이 사용하는 사람들이 있습니다. 데이터를 정리하고 프리젠 테이션을위한 테이블을 준비하는 데 도움이된다면이 모든 것이 좋습니다. 그러나 셀 색상이 실제로 데이터를 인코딩하는 경우 위험합니다. 이 데이터를 잃기 쉽고 통계 데이터로 이러한 데이터를 가져 오기가 매우 어렵습니다 (예 : Stack Overflow 에서이 질문 참조 ).
- 때로는 사람들에게 데이터를 준비하는 방법을 알려주고 나면 멋진 형식의 데이터를 얻지 만 주석에 전용 열이나 별도의 파일을 사용하도록 요청하더라도 값 열에 주석을 넣기로 결정합니다. 데이터를 가져올 때이 열을 특별한 방식으로 처리해야 할뿐만 아니라 주된 문제는 모든 테이블을 스크롤하여 이러한 주석 (보통하지 않는)을 확인해야한다는 것입니다. Excel의 주석 기능을 사용하면 상황이 더욱 악화됩니다.
- 여러 표가있는 스프레드 시트, 여러 헤더 행 또는 연결된 셀을 사용하면 통계 소프트웨어로 가져올 수 있도록 수동 작업을 수행 할 수 있습니다. 훌륭한 데이터 분석가는 보통 이런 종류의 수동 작업을 즐기지 않습니다.
- 절대로 Excel에서 열을 숨기지 마십시오. 필요하지 않으면 삭제하십시오. 필요한 경우 보여주십시오.
- xls 및 해당 하위 항목은 다른 사용자와 데이터를 교환하거나 보관하기에 적합한 파일 형식이 아닙니다. 파일을 열면 수식이 업데이트되고 다른 Excel 버전에서는 파일을 다르게 처리 할 수 있습니다. 대신 거의 모든 데이터 관련 소프트웨어가 Excel을 가져 와서 곧 변경되지 않을 것으로 예상되므로 간단한 CSV 파일을 사용하는 것이 좋습니다. 그러나 Excel은 CSV로 저장할 때 보이는 숫자로 반올림하므로 정밀도는 무시됩니다.
- 다른 사람을 위해 인생을 편하게하려면 Hadley의 기사에 나와있는 원칙을 따르십시오. 각 변수에 대한 값 열과 계층을 정의하는 요인 열이 있습니다.
내 마음에 들지 않은 몇 가지 추가 사항이있을 수 있습니다.