값이 0, 1, 2, ..., 23 일 수있는 "시간"이 범주 형 변수입니까? 예를 들어 5가 3 또는 7에 비해 4 또는 6에 더 가깝기 때문에 아니오라고 말하고 싶습니다.
반면에 23과 0 사이의 불연속성이 있습니다.
일반적으로 범주 형으로 간주됩니까? '시간'은 예측하려는 변수가 아닌 독립 변수 중 하나입니다.
값이 0, 1, 2, ..., 23 일 수있는 "시간"이 범주 형 변수입니까? 예를 들어 5가 3 또는 7에 비해 4 또는 6에 더 가깝기 때문에 아니오라고 말하고 싶습니다.
반면에 23과 0 사이의 불연속성이 있습니다.
일반적으로 범주 형으로 간주됩니까? '시간'은 예측하려는 변수가 아닌 독립 변수 중 하나입니다.
답변:
모델링하려는 항목에 따라 시간 (및 계절과 같은 다른 많은 속성)은 실제로 순서 순환 변수입니다. 계절의 경우는 다소 범주적인 것으로 간주 할 수 있으며 시간의 경우에는 연속적으로 모델링 할 수 있습니다.
그러나 순환을 돌보지 않는 형태로 모델에 시간을 사용하는 것은 유익하지 않습니다. 대신 어떤 종류의 변형을 생각해보십시오. 시간을 사용하면 다음과 같은 삼각법을 사용할 수 있습니다.
xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)
따라서 대신 사용하는 것이 xhr
및 yhr
모델링. 선형 회귀 분석에서 순환 예측 변수 사용 예를 보려면이 게시물을 참조하십시오 .
xhr = sin(4*pi*hr/24)
, yhr = cos(4*pi*hr/24)
충분한 관측으로 하루의 시간을 범주 적으로 취급 할 수있는 지점까지, 등을 추가 할 수 있습니다.)
시간 순서는 값의 자연스러운 순서가 있기 때문에 범주 형 변수로 가장 잘 표현되지 않습니다. 예를 들어 헤어 컬러는 범주 적입니다. 카테고리의 순서는 의미가 없으므로 {red, brown, blonde}는 {blonde, brown, red}만큼 유효합니다. 반면, 하루 중 시간은 오전 9 시가 오전 6 시보 다 오전 10시 또는 오전 8시에 가깝습니다. 이산 서수 변수로 생각하는 것이 가장 좋습니다. 오전 12시 이후 오후 11시와 오전 1시 이전에 순환 특성이 추가되었습니다.
이론적으로 변수의 형식에 따라 달라집니다. 즉 "연속적"(단일 계수로 모델링) 또는 범주 형 ( "시간"당 계수) 일 수 있습니다. 예를 들어 조각 별 함수를 혼합하여 사용할 수도 있습니다.
실제로 0과 23은 기본적으로 같은 "시간"이므로 하루의 그룹화 기간을 더 크고 균질하며 신뢰할 수있는 그룹화로 고려합니다. 예를 들어, 오전 8시 ~ 오후 4시, 오전 4시 ~ 오후 12시, 오전 8시 ~ 오전 8시 단위로 증가합니다.