답변:
이진 변수 표준화는 의미가 없습니다. 값은 임의적입니다. 그들은 그 자체로 아무것도 의미하지 않습니다. 수치 안정성 문제와 관련하여 0 및 1과 같은 일부 값을 선택하는 이론적 근거가있을 수 있지만 그게 전부입니다.
값이 0, 1 인 이진 변수는 (일반적으로) (값-평균) / SD로 스케일링 될 수 있으며 이는 아마도 z 점수입니다.
그에 대한 가장 분명한 제약은 모든 0 또는 모든 0을 얻는다면 맹목적으로 SD를 연결하면 z- 점수가 미정이라는 것을 의미합니다. value-mean이 동일하게 0 인 경우 0을 할당하는 경우도 있습니다. 그러나 변수가 실제로 상수라면 많은 통계적인 것들이 의미가 없습니다. 그러나, 일반적으로 SD가 작 으면 점수가 불안정하거나 잘 결정되지 않을 위험이 더 큽니다.
귀하의 질문에 대한 더 나은 답변을 제공하는 데있어 문제는 정확히 어떤 "기계 학습 알고리즘"을 고려하고 있는지입니다. 마치 여러 변수에 대한 데이터를 결합하는 알고리즘 인 것처럼 들리므로 일반적으로 비슷한 규모로 변수를 제공하는 것이 좋습니다.
(나중에) 원래의 포스터가 코멘트를 하나씩 추가함에 따라 그들의 질문은 모핑되고 있습니다. 나는 여전히 SD가 양수인 한 (값-평균) / SD가 이진 변수에 대해 의미가 없다고 생각합니다 (즉, 무의미하지 않음). 그러나 로지스틱 회귀 분석은 나중에 응용 프로그램으로 명명되었으며이를 위해 이진 변수를 0, 1로 공급하는 것 외에는 이론상 또는 실질적인 이득 (실제로는 약간의 손실이 없음)이 없습니다. 그; 그렇지 않은 경우 해당 소프트웨어를 포기하여 가능한 프로그램을 선택하십시오. 제목 질문의 관점에서 : 그렇습니다; 안돼.
약간 다른 방식으로 표준화하는 것이 유용한 좋은 예가 Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ )의 4.2 절에 나와 있습니다. 이것은 대부분 계수 해석에 관심이 있고 예측 변수가 많지 않은 경우입니다.
거기에서, 이진 변수 (0과 1의 비율이 같은)를 표준화합니다.
로지스틱 회귀 분석에서 N ~ (0,5) 또는 Cauchy ~ (0,5)와 같이 비 유익한 사전 정보를 모든 변수에 제공하려는 경우 이진 변수는 연속 변수와 결합하기 위해 표준화 될 수 있습니다. 표준화는 다음과 같이 권고됩니다.
1 = 1의 비율
0 = 1-1의 비율
편집 : 실제로 나는 전혀 옳지 않았다. 표준화는 아니지만 중심이 0이고 중심이 더 낮은 상태에서 1 씩 다르다. 회사 A의 인구는 30 %, 기타는 70 %라고 말하자. 중심의 "회사 A"변수를 정의하여 -0.3 및 0.7 값을 사용할 수 있습니다.