이진 변수를 표준화해야합니까?


25

기능 세트가있는 데이터 세트가 있습니다. 이들 중 일부는 이진 활성 또는 해고, 0 = 비활성 또는 휴면)이고 나머지는 실제 값입니다 (예 : 4564.342) .(1=0=4564.342

이 데이터를 기계 학습 알고리즘에 공급하고 싶기 때문에 모든 실제 가치 기능을 점수로 매 깁니다. 나는 범위 사이에 그들을 얻을 3- 2 약. 이제 이진 값은 또한 Z 그러므로 제로가되고, -scored - 0.222 과 사람이 될 0.5555을 .z32z0.2220.5555

이진 변수를 표준화하는 것이 의미가 있습니까?

답변:


14

이진 변수 표준화는 의미가 없습니다. 값은 임의적입니다. 그들은 그 자체로 아무것도 의미하지 않습니다. 수치 안정성 문제와 관련하여 0 및 1과 같은 일부 값을 선택하는 이론적 근거가있을 수 있지만 그게 전부입니다.


그들이 0-100 사이라면 어떨까요? 내가 말했듯이, 그들은 "인식 된 얼굴"및 "인식되지 않은 얼굴"과 같은 것을 의미하며, 0-100은 신뢰 수준을 의미합니다. z 점수를 매기는 것이 합리적입니까?
siamii

0-100의 예는 서수 등급처럼 들립니다. 그 상황에 가장 잘 대처하는 방법에 관한 약간의 세부 사항이 있으며 CV에서 꽤 많이 논의되었습니다. 서수 태그를 검색 하여 자세히 알아보십시오.
gung-모니 티 복원

문제는 변수 중 일부만 0-100이라는 것입니다. 다른 예는
-400-+

그 문제는 무엇입니까? 이것은 수치 안정성 문제입니까?
gung-Monica Monica 복원

아마도 z- 점수가 아니라고 제안합니까?
siamii

14

값이 0, 1 인 이진 변수는 (일반적으로) (값-평균) / SD로 스케일링 될 수 있으며 이는 아마도 z 점수입니다.

그에 대한 가장 분명한 제약은 모든 0 또는 모든 0을 얻는다면 맹목적으로 SD를 연결하면 z- 점수가 미정이라는 것을 의미합니다. value-mean이 동일하게 0 인 경우 0을 할당하는 경우도 있습니다. 그러나 변수가 실제로 상수라면 많은 통계적인 것들이 의미가 없습니다. 그러나, 일반적으로 SD가 작 으면 점수가 불안정하거나 잘 결정되지 않을 위험이 더 큽니다.

귀하의 질문에 대한 더 나은 답변을 제공하는 데있어 문제는 정확히 어떤 "기계 학습 알고리즘"을 고려하고 있는지입니다. 마치 여러 변수에 대한 데이터를 결합하는 알고리즘 인 것처럼 들리므로 일반적으로 비슷한 규모로 변수를 제공하는 것이 좋습니다.

(나중에) 원래의 포스터가 코멘트를 하나씩 추가함에 따라 그들의 질문은 모핑되고 있습니다. 나는 여전히 SD가 양수인 한 (값-평균) / SD가 이진 변수에 대해 의미가 없다고 생각합니다 (즉, 무의미하지 않음). 그러나 로지스틱 회귀 분석은 나중에 응용 프로그램으로 명명되었으며이를 위해 이진 변수를 0, 1로 공급하는 것 외에는 이론상 또는 실질적인 이득 (실제로는 약간의 손실이 없음)이 없습니다. 그; 그렇지 않은 경우 해당 소프트웨어를 포기하여 가능한 프로그램을 선택하십시오. 제목 질문의 관점에서 : 그렇습니다; 안돼.


3
짧은 대답은 아무런 의미가 없으며 0, 1에서 z- 점수로 변경하면이 상황에서 도움이되는 이유가 없습니다. 자신을 설득하기 위해 두 가지 방법을 모두 시도하고 중요한 변화가 없음을 확인하십시오.
Nick Cox

3
반대로, 나는 대부분의 사람들이 여기서 0, 1을 사용할 것이라고 생각합니다.
Nick Cox

1
로지스틱 회귀 분석을 수행하면 소프트웨어는 거의 확실하게 표준화를 수행하여 더 나은 수치 속성을 얻습니다. 따라서 이진 표시기를 의미있는 방식으로 표현하는 것이 좋습니다. 그것을 표준화하는 것은 좋지 않거나 유용하지 않습니다.
whuber

1
이진 예측 변수를 "표준화"해야하는 모든 기계 학습 방법이 의심됩니다.
Frank Harrell

2
그것이 당신의 구현이기 때문에, 아무도 당신에게 객관적인 대답을 줄 근거가 없습니다! 사전 표준화가 적절한 지 결정하기 위해 소프트웨어가 데이터를 처리하는 방식을 조사해야합니다.
whuber

3

약간 다른 방식으로 표준화하는 것이 유용한 좋은 예가 Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ )의 4.2 절에 나와 있습니다. 이것은 대부분 계수 해석에 관심이 있고 예측 변수가 많지 않은 경우입니다.

거기에서, 이진 변수 (0과 1의 비율이 같은)를 표준화합니다.

xμx2σx,
σ±0.5x=0x=1σx

내가 본 이진 변수가 거의 같지 않기 때문에 "동일한 비율의 0과 1로"를 설명하십시오.
닉 콕스

비율이 실제로 차이를 만들지 않을 것이라고 생각합니다. 예제를 깨끗하게하기 위해 사용합니다.
Gosset 's Student

1

이진 확률 변수 또는 비율을 무엇으로 표준화 하시겠습니까?

Y:SRY{0,1}

X[0,1]xR+


0

로지스틱 회귀 분석에서 N ~ (0,5) 또는 Cauchy ~ (0,5)와 같이 비 유익한 사전 정보를 모든 변수에 제공하려는 경우 이진 변수는 연속 변수와 결합하기 위해 표준화 될 수 있습니다. 표준화는 다음과 같이 권고됩니다.

1 = 1의 비율

0 = 1-1의 비율

-----

편집 : 실제로 나는 전혀 옳지 않았다. 표준화는 아니지만 중심이 0이고 중심이 더 낮은 상태에서 1 씩 다르다. 회사 A의 인구는 30 %, 기타는 70 %라고 말하자. 중심의 "회사 A"변수를 정의하여 -0.3 및 0.7 값을 사용할 수 있습니다.


이것을 표준화로 이해할 수는 없습니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.