나는 종종 당신이 탐구 적 분석을 통해 토끼 구멍을 밟은 것처럼 느끼는 경향은 당신이 묻는 실질적인 질문이 보이지 않기 때문이라고 생각합니다. 나는 때때로 스스로 해본 다음 나의 목표가 무엇인지 상기시켜야한다. 예를 들어, 특정 모델을 만들거나 기존 모델의 적합성을 평가하려고합니까? 데이터 문제의 증거 (예 : 법의학 데이터 분석)를 찾고 있습니까? 아니면 공식적인 모델을 개발하기 전에 비공식적으로 특정 질문을 조사하는 (예 : 두 변수 사이의 관계가 있는가) 분석 초기 단계입니까? 요약하면, 도표와 표를 작성하는 데 관심이 있지만 직접적인 목표가 무엇인지 또는 그 도표 / 표가 왜 관련이 있는지 명확하게 설명 할 수 없다면,
프로그램을 작성하든 기사를 작성하든, 작성하는 것처럼 탐색 적 데이터 분석에 접근하려고합니다. 두 경우 모두 먼저 개요를 작성하지 않고 시작하지 않습니다. 물론 그 개요는 변경 될 수 있고 자주 발생하지만, 작성하지 않고 쓰기를 시작하는 것은 비효율적이며 종종 최종 제품의 품질이 좋지 않습니다.
WRT 조직의 각 분석가는 자신에게 적합한 워크 플로를 찾아야합니다. 따라서 다른 사람의 워크 플로를 엄격하게 따르는 것보다 IMO가 더 중요합니다. 프로그래밍 방식으로 작업 (즉, 결과 집합을 생성 / 재생하기 위해 실행할 수있는 코드 작성)하고 작업을 git으로 검사하는 경우 이미 많은 측면에서 앞서 있습니다. 코드를 구성하는 데 시간을 할애해야 할 것 같으므로 개요를 따르는 것이 좋습니다. 예를 들어, 분석 파일을 비교적 짧고 대상으로 지정하여 각각 하나의 특정 질문 (예 : 특정 회귀 모델에 대한 진단 그림)에 답할 수 있습니다. 프로젝트의 규모와 복잡성에 따라 이들을 하나 또는 두 개의 수준으로 하위 디렉토리로 구성하십시오. 이런 방식으로 프로젝트는 자체 문서화됩니다. 디렉토리, 서브 디렉토리 및 파일의 목록보기 (각 파일의 맨 위에있는 주석과 함께)는 이론적으로 개요를 재현해야합니다.
물론 대규모 프로젝트에는 데이터 정리 및 관리를 수행하는 코드, 특정 유형의 모델을 추정하기 위해 작성한 코드 또는 작성한 다른 유틸리티가있을 수 있으며 이는 실질적인 범위에 맞지 않습니다. 데이터 분석에 대한 개요를 제공하므로 프로젝트 폴더의 다른 부분에 정리해야합니다.
업데이트 :이 게시물을 게시 한 후 "데드 엔드"에 대한 귀하의 질문을 직접 처리하지 않았다는 것을 깨달았습니다. 전체 분석 세트가 가치가 없다고 결정한 경우 git에서 작업하는 경우 "이 분석 라인을 포기하지 않았으므로이 분석 라인을 포기했습니다"라는 커밋 메시지를 사용하여 해당 파일을 항상 삭제할 수 있습니다 생산적인." 작성한 내용을 찌그러 뜨리고 휴지통에 버리는 것과는 달리 원하는 경우 언제든지 나중에 한 작업으로 돌아갈 수 있습니다.
그러나 생각을 한 개요에서 진행하면 소위 막 다른 골목이 줄어 듭니다. 대신 가치 있고 관련성있는 질문을 조사하는 데 시간을 허비하더라도 (이것이 널 (null)의 발견으로 이어 지거나 예상대로 나타나지 않는 경우에도) 수행 한 결과와 결과 ( 나중에 이것을 반복하는 실수를하지 않도록 최소). "부록"의 일종으로 개요의 맨 아래로 이동하십시오.