더미 변수 하나를 버려야하는 이유는 무엇입니까?


16

회귀 모델을 만들려면 범주 형 변수를 더미 변수로 변환하여 처리해야한다는 것을 배웠습니다. 예를 들어, 데이터 세트에 위치와 같은 변수가있는 경우 :

Location 
----------
Californian
NY
Florida

다음과 같이 변환해야합니다.

1  0  0
0  1  0
0  0  1

그러나 얼마나 많은 더미 변수가 있더라도 더미 변수 하나를 버려야한다고 제안했습니다.

더미 변수 하나를 버려야하는 이유는 무엇입니까?


3
세 번째 더미는 첫 번째 두 개의 선형 조합으로 설명 될 수 있기 때문에 FL = 1-(CA + NY).
chainD

@chainD 그러나 3 개 이상의 더미 변수에 대한 설명은 무엇입니까?
Mithun Sarker Shuvro

2
총계가 무엇이든, 보유한 총 범주 수보다 1이 적습니다. 예를 확장하면 모든 50 개 상태가 데이터 세트에 표시되었다고 가정합니다. 주어진 개인의 경우, 모두 0이되는 처음 49 개 인형을 보면, 마지막 더미는 보지 않아도 1이라는 것을 알 수 있습니다 (데이터 세트의 모든 사람이 50 개 주 중 하나라고 가정). 다시 말해, 마지막 더미의 정보는 처음 49 개의 결과에 이미 포함되어 있습니다.
chainD

@chainD 감사합니다
Mithun Sarker Shuvro

1
봄이 아니라 여름이 아니라 가을이 아니라면 겨울입니다!
Stev 2019

답변:


10

범주 형 피쳐 (여기서는 위치)의 한 레벨이 회귀를위한 더미 인코딩 중에 참조 그룹이되고 중복되기 때문에 간단히 말하면됩니다. I 형은 인용하고 여기서 "K 종류 또는 레벨들의 범주 형 변수는 일반적으로 K-1 가변 수의 시퀀스로서 회귀 들어간다.이 양의 레벨 수단에 선형 가설."

이것은 이미이 아주 좋은 stats.stackexchange answer 에서 논의되었습니다 .

Yanra의 Coursera에 고급 과정이 있다고 들었는데, 의심 할 여지가없는 경우이 주제에 대해 자세히 설명합니다 . 여기를 참조 하십시오 . 언제든지 코스 내용을 무료로 감사 할 수 있습니다. ;-)

또 다른 멋진 포스트는 통계적 관점의 예를 많이하고있는 철저한 설명을 원하는 경우하지에 한정되는 경우에만 코딩 더미, 볼 UCLA에서 (R)에

를 사용하는 경우 첫 번째 수준을 제거하여 k 개의 범주 수준에서 k-1 인형을 가져올 지 여부를 pandas.get_dummies나타내는 매개 변수가 drop_first있습니다. default = False참조가 삭제되지 않고 k 개의 카테고리 레벨에서 k 개의 인형이 생성됨을 유의하십시오 .


4
이는 모형에 절편이있는 경우에만 해당됩니다 (즉, 상수 항). 그렇지 않으면, 하나의 핫 인코딩을 사용하고 하나의 더미 변수를 버리지 않으면 서 암시 적으로 인터셉트를 추가하게됩니다.
Elias Strehle

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.