나는 이미 주어진 모든 답변에 밑줄을 긋지 만 고양이를 고양이라고 부르 자. 많은 작업 공간에서 경영진이 "이국적인"softwaretools (이국적인 것)에 대한 투자가 필요하다는 것을 설득하는 것은 거의 불가능하다. 그것을 유지합니다. 필자는 소프트웨어와 데이터베이스에 대한 철저한 배경 지식을 가진 통계 전문가를 고용함으로써 큰 혜택을 얻을 수 있다고 대부분의 고객들에게 말했지만 "할 수 없음"이 일반적인 대응입니다.
그런 일이 일어나지 않는 한 Excel로 할 수있는 몇 가지 간단한 작업이 있습니다. 그리고 첫 번째는 의심의 여지없이 버전 관리입니다. Excel 버전 관리에 대한 자세한 내용은 여기를 참조하십시오 .
Excel 사용에 관한 몇 가지 사항
EXCEL을 사용하는 사람들은 EXCEL의 수식 기능을 매우 좋아합니다. 그러나 이것은 EXCEL 시트 내에서 가장 중요한 오류 소스이며 EXCEL 파일을 읽으려고 할 때 발생하는 문제입니다. 수식이 포함 된 시트 작업을 거부합니다.
또한 함께 일하는 모든 사람들이 EXCEL 시트를 일반 형식으로 제공하도록 강요합니다.
- 첫 번째 행은 다른 변수의 이름을 포함합니다
- 스프레드 시트가 A1 셀에서 시작됩니다.
- 모든 데이터는 중단없이 포맷없이 열에 저장됩니다.
- 가능하면 데이터도 .csv 형식으로 저장됩니다. 데이터를 추출하고 다시 포맷하여 .csv 파일에 넣는 VBA 스크립트를 작성하는 것은 어렵지 않습니다. 또한 매일 데이터를 .csv 덤프 할 수 있으므로 버전을보다 효율적으로 제어 할 수 있습니다.
데이터가 항상 가지고있는 일반적인 구조가 있다면 기본 VB 매크로가있는 템플릿을 개발하여 데이터를 추가하고 분석 할 데이터 세트를 생성하는 것이 좋습니다. 이것은 일반적으로 모든 직원이 자신의 "천재"데이터 스토리지 시스템을 만들지 않도록하며이를 통해 코드를 작성할 수 있습니다.
즉, 모든 사람이 SQL (및 데이터 입력을위한 프런트 엔드)을 사용하도록 설득 할 수 있다면 R을 직접 연결할 수 있습니다. 성능이 크게 향상됩니다.
데이터 구조 및 관리
일반적으로 데이터베이스 (또는 주장하는 경우 EXCEL 시트)에 저장된 데이터는 절대 최소값이어야합니다. 즉, 다른 변수에서 계산할 수있는 모든 변수가 데이터베이스에 포함되어서는 안됩니다. 계산이 지루하고 시간이 오래 걸리는 경우 파생 변수 나 변환 된 변수를 저장하는 것이 유익 할 수 있습니다. 그러나 필요한 경우 원본 데이터베이스에 연결된 별도의 데이터베이스에 저장해야합니다.
한 경우 (따라서 한 행)로 간주되는 것에 대해서도 생각해야합니다. 예를 들어 사람들은 각 시점마다 새로운 변수를 만들어 시계열을 만드는 경향이 있습니다. 이것은 EXCEL에서 의미가 있지만, 이러한 데이터를 읽으려면 데이터 매트릭스를 약간 뒤집어 야합니다. 그룹 비교와 동일 : 각 그룹에 대한 응답 변수가 아닌 하나의 그룹 표시기와 하나의 응답 변수가 있어야합니다. 이러한 방식으로 데이터 구조도 표준화 할 수 있습니다.
내가 자주 겪는 마지막 것은 다른 메트릭스를 사용하는 것입니다. 길이는 미터 또는 센티미터, 섭씨, 켈빈 또는 화씨 온도로 표시됩니다. ... 변수를 측정하는 단위가 프런트 엔드 또는 템플릿에 표시되어야합니다.
그리고 이러한 모든 일이 있더라도 실제로 분석을 시작하기 전에 데이터 제어 단계를 원합니다. 다시 말하지만, 이것은 새 항목에서 매일 (예 : 밤새) 실행되고 문제를 즉시 (범위를 벗어난 유형, 잘못된 유형, 누락 된 필드 등) 플래그로 지정하여 가능한 한 빨리 수정할 수있는 스크립트 일 수 있습니다. 2 개월 전에 작성된 항목으로 돌아가서 무엇이 잘못되었는지와 이유를 찾으려면 올바른 "Sherlock-skills"를 사용하여 수정하십시오.
내 2 센트