명목 / 범주 데이터에 대한“더미 변수”대“표시기 변수”


15

"더미 변수"및 "표시기 변수" 는 0/1 코딩 범주의 멤버 자격을 설명하기 위해 자주 사용되는 용어 레이블입니다. 일반적으로 0 : 범주의 구성원이 아님, 1 : 범주의 구성원.

2014 년 11 월 26 일에 Scholar.google.com (빠른 따옴표 포함)을 빠르게 검색하면 약 318,000 개의 기사에 "더미 변수"가 사용되고 약 112,000 개의 기사에 "인디케이터 변수"가 사용됩니다. "더미 변수"라는 용어는 또한 인덱스 된 기사에서 "더미 변수"의 더 큰 사용에 기여할 수있는 " 바운드 변수 " 의 비 통계 수학에서 의미를 갖는다 .

주제와 관련된 질문 :

  1. 이 용어는 통계적으로 항상 동의어입니까?
  2. 이 용어들 중 어느 하나가 다른 형태의 범주 형 코딩 (예를 들어, 효과 코딩 , Helmert 코딩 등 )에 수용 될 수 있는가?
  3. 한 용어를 다른 용어보다 선호하는 통계적 또는 징계 이유는 무엇입니까?

4
이진 조건에 대해 "인디케이터 변수"를 사용하는 경향이 있습니다. 예를 들어 섹스는 male1또는 로 코딩 될 수 있습니다 0. 범주가 2 개 이상인 범주 형 변수가 있고 각 수준의 멤버쉽에 대한 지표 변수로 확장 된 경우 "더미 변수"를 사용하여 해당 지표 변수 세트를 설명합니다.
Gregor-복원 Monica Monica

2
성별 이 1 또는 0으로 인코딩 될 수 있다는 것을 의미한다고 생각합니다. 성은 훨씬 더 복잡한 구성입니다. (그 문제 때문에 섹스도 더 복잡 할 수있다);)
Alexis

2
포인트로 편집, 잘 촬영 sex.
그레고르-Monica reinstate

2
나는 그러한 지표 변수를 부르는 경향이 있습니다 male. 여기서 1은 참 (이 경우 남성)을 의미하고 0은 거짓 (이 경우 여성)을 의미합니다. 변수 이름을 사용하면 sex해당 데이터 세트로 돌아올 때마다 해당 변수를 어떻게 코딩했는지 찾아야합니다.
Maarten Buis

4
나는 "가변 변수"에 대한 다양한 이야기가 기술이 아닌 관객들에 의해 거칠고 불행하게 잘못 해석되어 경멸이나 비난을 암시하는 것을 들었습니다. 그들은 나를이 용어에 반대 할 정도로 창피하고 설득력이있었습니다. "인디케이터"는 명확하고 솔직합니다.
Nick Cox

답변:


12

"더미 변수"는 범주 형 예측 변수를 나타내는 숫자 변수를 나타내는 더 일반적인 방법입니다. 그러므로이 용어는 Helmert & effect coding †에 사용 된 용어에도 적용됩니다 . 그것은 주로 "스탠드 인"을 의미하기 위해 "더미"의 일반적인 사용으로 인해 발생합니다. "표시기 변수는"I는 표시 함수에 관한 만을 갖거나 몇몇 속성을 갖는 나타내는데 하나 또는 제로 일 수있다 그러한 -SO; 따라서이 용어는 참조 수준 코딩에 사용 된 용어에만 적용됩니다 . 물론 어떤 사람들은 "더미 코딩"을 사용하여 "참조 수준 코딩"을 의미합니다. 그것들은 아마도 "더미 변수"에 대해 더 제한적인 정의를 가지고 있거나, 또는 어떤 속도로든 가질 수 있습니다.

† 그리고 그 인형을 "멍청이" 라고 부르지 않는다면 , 그것들을 무엇이라고 부르나요?

예를 들어, 더미 i 번째 사람 u i 가 남성 인 경우 (세트 M 의 구성원)에 대한 지표 변수입니다 : x i = 1 M ( u i ) = { 1 w h e n u iM 0 w h e n u iM엑스나는나는나는미디엄

엑스나는=1미디엄(나는)={1h이자형 나는미디엄0h이자형 나는미디엄

여기서 1미디엄()미디엄

※ 또는 @gung이 지적했듯이 레벨은 코딩을 의미합니다.


2
허 .. 동기를 부여하는 몇 가지 리소스에 대한 링크를 제공 할 수 있습니까? 내 경험상 "더미 변수"는 0/1 코딩에 많이 사용됩니다. 나는 당신이 제안한대로 더미가 사용되는 것을 보지 못했고 다른 사람들이 그것을 반대의 의미로 사용한다는 것을 알고 있습니다. 예를 들어 Alkharusi, H. (2012) "회귀 분석의 범주 변수 : 더미 및 효과 코딩의 비교" International Journal of Education 4 (2) : 202-210.
Alexis

2
"더미 변수"는 0/1 코딩에 사용되지 않고 더 일반적인 의미로 사용될 수 있다고 말하지 않았습니다.
Scortchi-Monica Monica 복원

1
실제로 당신이 인용 한 바로 그 논문은 효과 코딩을 사용하여 "더미 변수는 1, 0, -1 값을 취합니다"라고 말합니다. (물론 그들이 말하려고한다면 "더미 코딩"이라고 불렀어야한다고 생각합니다.)
Scortchi-복원 국 Monica

1
당신의 비틀 거린 위첨자로부터의 질문에 관해서는 "XXX 코딩을 사용하는 범주 형 변수"라고 부르는 경향이 있습니다.
Alexis

2
핵심은 arxiv.org/abs/math/9205211 에서 Knuth에 의해 가장 잘 이루어집니다 . 간단히 말해서, 표시기 기능을 발명하거나 호출 할 필요는 없지만 소프트웨어가 우리를 위해하는 일을 공식적으로 논의하십시오.
Nick Cox

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.