열이나 데이터 형식에 관계없이 데이터 파일을 수집하는 프로젝트를 수행하는 사람을 알고 있습니다. 이 작업은 임의의 수의 열과 다양한 데이터 유형 및 숫자 데이터에 대한 요약 통계를 출력하는 파일을 가져 오는 것입니다.
그러나 특정 숫자 기반 데이터에 대해 데이터 유형을 동적으로 할당하는 방법을 잘 모릅니다. 예를 들면 다음과 같습니다.
CITY
Albuquerque
Boston
Chicago
이것은 분명히 숫자 데이터가 아니며 텍스트로 저장됩니다. 하나,
ZIP
80221
60653
25525
카테고리로 명확하게 표시되지 않았습니다. 그의 소프트웨어는 우편 번호를 수치 및 출력 요약 통계로 할당 할 것인데, 이러한 종류의 데이터에는 적합하지 않습니다.
우리가 가진 몇 가지 아이디어는 다음과 같습니다.
- 열이 모두 정수인 경우 범주로 분류하십시오. 이것은 분명히 작동하지 않지만 아이디어였습니다.
- 열의 고유 값 이 n 보다 작고 숫자 인 경우 범주 레이블을 지정하십시오. 이것은 더 가까울 수 있지만 여전히 수치 데이터가 떨어지는 문제가있을 수 있습니다.
- 실제로 범주 형이어야하는 공통 숫자 데이터 목록을 유지하고 열 머리글을이 목록과 비교하여 일치시킵니다. 예를 들어 "ZIP"가있는 항목은 범주 형입니다.
내 직감은 숫자 데이터를 범주 또는 숫자로 정확하게 할당 할 수있는 방법이 없지만 제안을 기대하고 있다고 말합니다. 당신이 가진 모든 통찰력은 대단히 감사합니다.