변수는 종종 모델을 만들기 전에 조정 (예 : 표준화)됩니다. 언제 이것이 좋은 생각이고 언제 나쁜 것입니까?


56

어떤 상황에서 모형 적합 전에 변수를 스케일하거나 표준화하지 않겠습니까? 그리고 변수 스케일링의 장단점은 무엇입니까?


여기에 매우 비슷한 질문이 있습니다 : stats.stackexchange.com/q/7112/3748 더 이상 찾고 계십니까?
Michael Bishop

예-선형 모델이 아닌 일반적인 모델에 대해 알고 싶습니다
Andrew

1
가능한 많은 모델과 가능한 모델 사용이 있습니다. 질문을 좀 더 구체적으로하고 더 나은 다른 질문과의 중복을 줄일 수 있다면.
Michael Bishop

위의 링크 외에도이 질문 : 언제 언제 데이터를 표준화 해야하는지 관심을 가질 것입니다.
gung-Monica Monica 복원

답변:


37

표준화는 모델에 대한 다양한 변수의 가중치에 관한 것입니다. 수치 적 안정성을 위해 표준화 만한다면, 수치 적 특성이 매우 유사하지만 해석에보다 적합한 물리적 의미가 다른 변환이있을 수 있습니다. 센터링의 경우도 마찬가지이며, 이는 표준화의 일부입니다.

표준화하려는 상황 :

  • 변수는 다른 물리량입니다
  • 숫자 값은 크기가 매우 다릅니다
  • 그리고 높은 (숫자) 변이를 갖는 변수가 더 중요하게 간주되어야한다는 "외부"지식이 없습니다.

표준화하고 싶지 않은 상황 :

  • 변수가 동일한 물리량이고 거의 같은 크기 인 경우
    • 다른 화학 종의 상대 농도
    • 다른 파장에서의 흡광도
    • 다른 파장에서 방출 강도 (그렇지 않으면 동일한 측정 조건)
  • 샘플 (기준 채널)간에 변경되지 않는 변수를 표준화하고 싶지는 않습니다. 측정 노이즈를 폭파하면됩니다 (대신 모델에서 제외 할 수 있습니다).
  • 물리적으로 관련된 변수가있는 경우 측정 노이즈는 모든 변수에서 거의 동일 할 수 있지만 신호 강도는 훨씬 더 다양합니다. 즉, 값이 낮은 변수는 상대 노이즈가 더 높습니다. 표준화하면 노이즈가 발생합니다. 즉, 상대 노이즈 또는 절대 노이즈를 표준화할지 여부를 결정해야 할 수도 있습니다.
  • 예를 들어 전송 강도 대신 전송 강도의 백분율 (투과도 T)을 사용하여 측정 된 값을 관련시키는 데 사용할 수있는 물리적으로 의미있는 값이있을 수 있습니다.

새 변수가 여전히 물리적 인 의미를 갖지만 숫자 값의 변동이 그다지 다르지 않도록 "사이에"무언가를 수행하고 변수를 변환하거나 단위를 선택할 수 있습니다.

  • 마우스로 작업하는 경우 기본 단위 kg 및 m 대신에 체중 g와 길이 (cm) (둘 다에 대한 예상 변동 범위 약 5)를 사용하십시오 (예상 변동 범위 0.005 kg 및 0.05 m-1 차 다른 크기).
  • A=log10T

센터링과 유사 :

  • 의미있는 기준치 (예 : 컨트롤, 블라인드 등)가있을 수 있습니다 (물리적 / 화학적 / 생물학적 / ...)
  • 평균이 실제로 의미가 있습니까? (평균적인 인간은 하나의 난소와 고환이 있습니다)

+1 일 때와 너무 표준화되지 않은 경우에 대한 유용한 목록으로 인해 승인되었습니다.
Andrew

6
"평균적인 인간은 하나의 난소와 하나의 고환을 가지고있다"(+)
gung-모니 티 복원

1
@cbeleites 답변에 사용한 컨텍스트에서 기준 채널을 설명하는 리소스에 대한 링크를 제공 할 가능성이 있습니까? 이전에 해당 용어를들은 적이 없으며 여기에서 해당 용어를 이해하는 데 도움이되지 않는 검색 결과가 나타납니다. 감사!
mahonya

1
1

9

표준화하기 전에 항상 자문 해 보는 것은 "출력을 어떻게 해석 할 것인가?"입니다. 변환없이 데이터를 분석 할 수있는 방법이 있다면 해석 관점에서 볼 때 바람직 할 수 있습니다.


7

일반적으로 반드시 필요한 경우가 아니면 스케일링 또는 표준화를 권장하지 않습니다. 이러한 공정의 장점 또는 매력은 설명 변수가 반응 변수와 물리적 치수와 크기가 완전히 다를 때 표준 편차로 나눈 배율 조정이 수치 안정성 측면에서 도움이 될 수 있으며 여러 변수에 걸쳐 효과를 비교할 수 있다는 것입니다 설명 변수. 가장 일반적인 표준화에서 변수 효과는 설명 변수가 1 표준 편차만큼 증가 할 때 반응 변수의 변화량입니다. 또한 설명 변수의 통계 값은 변경되지 않은 상태이지만 변수 효과의 의미 (설명 변수가 1 단위 씩 증가 할 때 응답 변수의 변화량)가 손실됨을 나타냅니다. 하나, 모형에서 교호 작용을 고려할 때 교호 작용 효과의 표준 오차를 계산할 때 확률 적 척도 조정과 관련된 합병증으로 인해 통계 테스트에도 스케일링이 매우 문제가 될 수 있습니다 (Preacher, 2003). 이러한 이유로, 특히 교호 작용이 관련된 경우 표준 편차 (또는 표준화 / 정규화)에 의한 스케일링은 일반적으로 권장되지 않습니다.

Preacher, KJ, Curran, PJ 및 Bauer, DJ, 2006. 다중 선형 회귀, 다중 레벨 모델링 및 잠재 곡선 분석에서 상호 작용 효과를 조사하기위한 계산 도구. 교육 및 행동 통계 저널, 31 (4), 437-448.


4
나는 예측 변수를 표준화하는 것이 "일반적으로 권장되지 않으며, 특히 상호 작용이 관련된 경우"라고 주장합니다. Gelman과 Hill 또는 Raudenbush & Bryk는 텍스트에서이 문제를 언급하지 않았습니다. 그러나 나는 기회가있을 때 당신이 언급 한 참고 문헌을 살펴볼 것입니다.
Michael Bishop

보정 유니버스 std를 배율 변수로 사용하면 배율이 확률 적이 지 않습니다.
adam

상호 작용 조건의 경우 스케일링이 유해한지 확인할 수 있습니까? 위의 논의에서 해결되지 않은 것 같습니다.
Talik3233
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.