답변:
현재 네 가지 범주가 눈색 (코드) : 갈색 (1), 파란색 (2), 녹색 (3), 개암 (4)-이색 성, 보라색, 빨간색, 회색 등을 무시한다고 가정합니다.
우리가 코드에서 알 수 있듯이 3 = 3 × 1 및 4 = 2 × 2 이지만 녹색 갈색 또는 헤이젤 = 2 × 파란색을 의미하지는 않습니다 .
(어떤 이유로 우리 외에는 할 수는 우리의 분석에 슬립 같은 의미를 원하는), 우리는 코딩의 어떤 종류를 사용해야합니다. 더미 코딩은 하나의 예이며, 우리가 눈 색깔에 대해 말하고 싶은 통계적 이야기에서 그러한 관계를 제거합니다. 효과 코딩 및 Heckman 코딩이 다른 예이다.
업데이트 : 네 가지 범주에 대한 두 변수의 예는 일반적으로 범주 (예 : 4)를 k - 1 더미 변수 (범주별로 분류)로 바꾸는 "더미 코드"라는 용어의 이해와 일치하지 않습니다 .
id category dummy1 dummy2 dummy3
1 1 1 0 0
2 1 1 0 0
3 2 0 1 0
4 2 0 1 0
5 3 0 0 1
6 3 0 0 1
7 4 0 0 0
8 4 0 0 0
여기에 카테고리 4는 다음과 같이 모델에 상수가 있다고 가정 할 때 참조 카테고리입니다.
따라서 이것은 내가 처음 언급 한 카테고리 코드간에 무의미한 양적 관계 를 만드는 문제와 관련 이 있지만 제안한대로 user12331- 코딩 을 사용하지 않는 이유 는 무엇입니까? user12331- 코딩 후보 A :
id category code1 code2
1 1 0 ?
2 1 0 ?
3 2 1 ?
4 2 1 ?
5 3 ? 0
6 3 ? 0
7 4 ? 1
8 4 ? 1
당신은 아주 잘 지적하고 있습니다 하나는 2 개 진 변수를 사용하여 4 개 값을 나타낼 수있다 (즉, 두 비트). 불행히도, 이것에 대한 한 가지 접근법 (범주 1과 2의 코드 1, 카테고리 3과 4의 코드 2)은 물음표로 표시된 모호성을 남깁니다. 어떤 값이 있습니까?!
두 번째 방법은 user12331- 코딩 후보 B라고합니다.
id category code1 code2
1 1 0 0
2 1 0 0
3 2 0 1
4 2 0 1
5 3 1 0
6 3 1 0
7 4 1 1
8 4 1 1
그곳에! 모호하지 않습니까? 권리! 불행하게도,이 모든 코딩은 이진수 표기법 으로 1-4 (또는 0–3)의 숫자 수량을 나타내므로 , 원치 않는 양적 관계를 범주에 부여하는 문제는 그대로 남아 있습니다.
따라서 다른 코딩 방식이 필요하다.
다양한 코딩 체계가 어느 정도 문제 나 스타일이라는 점에주의해야한다 (즉, 특정 원하는 것은 무엇인가) 할 뜻 ) 하지 않는 한이 또한 모델의 범주와의 상호 작용 조건을 포함합니다. 그런 다음 더미 코딩은 인공 이분산성을 유도하고 표준 오류를 바이어스하므로 그러한 경우 효과 코딩을 고수하고 싶을 것입니다.