시간은 범주 형 변수입니까?


24

값이 0, 1, 2, ..., 23 일 수있는 "시간"이 범주 형 변수입니까? 예를 들어 5가 3 또는 7에 비해 4 또는 6에 더 가깝기 때문에 아니오라고 말하고 싶습니다.

반면에 23과 0 사이의 불연속성이 있습니다.

일반적으로 범주 형으로 간주됩니까? '시간'은 예측하려는 변수가 아닌 독립 변수 중 하나입니다.


7
무엇을 이루려고 노력하고 있습니까? 모형을 피팅하는 경우 시간이 공변량입니까 아니면 반응입니까?
gung-모니 티 복원

2
여분의 자유도가 충분한 경우 (즉, 범주 형으로 취급) 각 시간에 더미 변수를 사용하거나 그렇지 않은 경우 처음 몇 개의 푸리에 항을 사용할 수 있습니다. 일반적으로 응답과의 잠재적 관계를 가장 잘 나타내는 방법을 생각하십시오. 상점이 열릴 때 단일 더미 변수 플래그가 제공 될 수 있습니다.
Scortchi-Monica Monica 복원

시간과 같은 것은 무엇이 가장 적합한 지에 따라 "범주"또는 "숫자"로 취급 될 수 있습니다. 일반적으로 옳고 그름의 대답은 없습니다-가장 잘 작동하는 것에 달려 있습니다. 다른 일을 시도하고 귀하의 상황에서 가장 잘 작동하는 것을 보는 것이 좋습니다.
roundsquare

답변:


29

모델링하려는 항목에 따라 시간 (및 계절과 같은 다른 많은 속성)은 실제로 순서 순환 변수입니다. 계절의 경우는 다소 범주적인 것으로 간주 할 수 있으며 시간의 경우에는 연속적으로 모델링 할 수 있습니다.

그러나 순환을 돌보지 않는 형태로 모델에 시간을 사용하는 것은 유익하지 않습니다. 대신 어떤 종류의 변형을 생각해보십시오. 시간을 사용하면 다음과 같은 삼각법을 사용할 수 있습니다.

xhr = sin(2*pi*hr/24)
yhr = cos(2*pi*hr/24)

따라서 대신 사용하는 것이 xhryhr모델링. 선형 회귀 분석에서 순환 예측 변수 사용 예를 보려면이 게시물을 참조하십시오 .


2
(+1) 계절과 시간의 차이에 대해 자세히 설명해 주시겠습니까?
Scortchi-Monica Monica 복원

흠, 계절은 하루 중 몇 시간을 말할 때 아침, 정오, 저녁과 비슷한 의미를 가지고 있다고 생각합니다. 모호한 정보 만 사용할 수 있고 해상도가 열악한 경우 (계절의 4 개 값과 같이) 범주 형으로 간주하고 인코딩에 더미 변수를 사용하는 것이 합리적이라고 생각합니다. :-)
Drey

1
중요한 점은 trig를 사용하는 계절이 4 개뿐이기 때문입니다. 범주 형 표현에 비해 접근 방식은 1 자유도 만 절약하고 하루 중 시간은 21 자유도를 절약합니다. (그리고 당신이 그들을 절약 할 필요가 없다면 xhr = sin(4*pi*hr/24), yhr = cos(4*pi*hr/24)충분한 관측으로 하루의 시간을 범주 적으로 취급 할 수있는 지점까지, 등을 추가 할 수 있습니다.)
Scortchi-Reinstate Monica

또는 순환 스플라인을 살펴보십시오 .
kjetil b halvorsen

1

시간 순서는 값의 자연스러운 순서가 있기 때문에 범주 형 변수로 가장 잘 표현되지 않습니다. 예를 들어 헤어 컬러는 범주 적입니다. 카테고리의 순서는 의미가 없으므로 {red, brown, blonde}는 {blonde, brown, red}만큼 유효합니다. 반면, 하루 중 시간은 오전 9 시가 오전 6 시보 다 오전 10시 또는 오전 8시에 가깝습니다. 이산 서수 변수로 생각하는 것이 가장 좋습니다. 오전 12시 이후 오후 11시와 오전 1시 이전에 순환 특성이 추가되었습니다.


특정 범주 형 변수의 값에 대한 자연스러운 순서가 없습니까?
dsaxton

예, 그러나이 경우에는 서수로 더 잘 설명됩니다. 서수 변수는 자연 순서를 갖는 범주 형 변수입니다.
원자력 왕

1
그렇다면 회귀 모델에서 이산 적, 순 서적 순환 변수를 예측 변수로 어떻게 표현할 수 있습니까?
Scortchi-Monica Monica 복원

0

이론적으로 변수의 형식에 따라 달라집니다. 즉 "연속적"(단일 계수로 모델링) 또는 범주 형 ( "시간"당 계수) 일 수 있습니다. 예를 들어 조각 별 함수를 혼합하여 사용할 수도 있습니다.

실제로 0과 23은 기본적으로 같은 "시간"이므로 하루의 그룹화 기간을 더 크고 균질하며 신뢰할 수있는 그룹화로 고려합니다. 예를 들어, 오전 8시 ~ 오후 4시, 오전 4시 ~ 오후 12시, 오전 8시 ~ 오전 8시 단위로 증가합니다.


4
0과 23은 별개의 시간입니다. 0과 24는 같은 시간입니다.
Paul Reiners

BTW, Gung의 의견에 따르면 하루 중 시간은 모델링 된 종속 변수가 아닌 독립 변수라고 가정합니다. 제 요점은 0과 23이 실제로 다르지 않다는 것입니다. 23:59와 0:01에서 발생하는 모델링 된 이벤트간에 통계적 차이가 있다고 말할 수 있습니까?
Frank H.

1
정보를 버리는 데 어떤 문제가 있는지 잘 모르겠습니다. 연속 예측 변수를 분해하면 어떤 이점이 있습니까?를 참조하십시오 . .
Scortchi-Monica Monica 복원

@Scortchi-게시물과 같이 비닝이 정보를 "버릴 것"과 같은 지속적인 관계를 가정하고 있습니다. 그러나 그렇지 않은 경우 비닝이 더 적절한 변환입니다. 그리고 이것은 OP가 언급하지 않은 데이터가 충분하다고 가정합니다.
Frank H.

예측 변수와 반응 사이의 관계에 대한 제약 조건을 부과하는 것은 그 자체로 나쁘지 않습니다.이 게시물에서 처음으로 발견 한 것처럼 사용할 수있는 관측치 수는 중요한 고려 사항입니다. 하루 중 시간 표시-8시에서 15 시까 지 평평하고 16시에 점프 또는 하강 등-일반적으로 적합한 접근 방식에 대한 이상한 제안으로 보입니다.
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.