정규화와 스케일링

45

데이터 '정규화'와 '스케일링'데이터의 차이점은 무엇입니까? 지금까지 두 용어가 모두 같은 과정을 의미한다고 생각했지만 지금은 내가 모르거나 이해해야 할 것이 더 많다는 것을 알고 있습니다. 또한 정규화와 스케일링간에 차이가있는 경우 언제 정규화를 사용해야하지만 스케일링은 사용하지 않아야합니까?

몇 가지 예를 자세히 설명하십시오.

— d. 푸또
소스

6

정규화는 일반적으로 관측치 를 (여기서 는 측정 가능하고 일반적으로 연속적인 함수 임)로 변환하여 정규 분포로 보입니다 . 데이터 정규화를위한 변환의 몇 가지 예는 전력 변환 입니다. 스케일링은 단순히 , . 이는 관측 값에 상수 를 곱하여 스케일을 변경합니다 (예 : 나노 미터에서 킬로미터로) .

x

${\bf x}$

f (x)

$f({\bf x})$

f

$f$

f (x) = c x

$f({\bf x})=c{\bf x}$

c \in R

$c\in {\mathbb R}$

c

$c$

1

관련있는 / 또한 관심있는 것 : 정규화와 표준화 사이의 차이점 .

— gung-모니 티 복원

표준화는 또한 표준화와 동일한 스케일링 방법입니다.

통계에 대한 평판이 충분하지 않습니다. 귀하의 질문 제목은 정규화와 표준화 사이에 있어야한다고 생각합니다.이 두 가지가 서로 다른 크기 조정 방법이기 때문입니다. 정규화는 값을 0과 1의 범위로 재조정하는 반면 표준화는 분포가 평균이 0이고 표준 편차가 1이되도록 분포를 이동시킵니다.

— Hamid Heydarian

23

나는 "공식적인"정의를 알고 있지 않으며, 정의가 있더라도 실제로 일관성이없는 것을 볼 수 있기 때문에 믿지 말아야합니다.

통계에서 스케일링은 일반적으로 형식의 선형 변환을 의미합니다 . $f(x) = ax+b$

정규화는 변환을 적용하여 변환 된 데이터가 대략 정규 분포되어 있음을 의미 할 수도 있지만 단순히 다른 변수를 공통 척도로 배치하는 것을 의미 할 수도 있습니다. 평균을 빼고 표준 편차로 나누는 것을 의미하는 표준화는 나중에 사용하는 예입니다. 보시다시피 스케일링의 예이기도합니다. 첫 번째 예는 로그 정규 분포 데이터에 대한 로그를 가져 오는 것입니다.

그러나 당신이 가져 가야 할 것은 그것을 읽을 때 저자가 한 일에 대한 더 자세한 설명을 찾아야한다는 것입니다. 때로는 문맥에서 얻을 수 있습니다.

— 에릭
소스

14

스케일링은 숫자가 옳은 느낌 (예 : 0에서 1 또는 1에서 100 사이)에 대한 개인적인 선택입니다. 예를 들어 밀리미터 단위의 데이터를 미터로 변환하는 것이 더 편리하거나 미터법으로 변환하는 것이 좋습니다.

정규화는 평균값을 제거하고 표본 표준 편차로 나누는 것과 같이 외부 '표준'(로컬 표준)으로 스케일링하는 것과 같이 분류 된 데이터를 누적 법선 또는 누적 포아송과 비교할 수 있습니다. 도대체 무엇이.

따라서 강사 또는 관리자가 '정규화 된'데이터를 원하면 " 내 방식대로 다시 스케일링"을 의미합니다. ;-)

— 필립 오클리
소스

9

나는 이것이 정확히 의미하는지 모르겠지만 많은 사람들이 표준화를 의미하는 데이터 표준화를 참조합니다. 표준화는 데이터를 변환하여 평균 0과 표준 편차 1을 갖도록합니다.

x <- (x - mean(x)) / sd(x)

또한 데이터를 0-1 범위로 변환 할 때 데이터 스케일링 정규화라는 용어를 사용하는 사람들도 있습니다.

x <- (x - min(x)) / (max(x) - min(x))

혼란 스러울 수 있습니다!

두 기술 모두 장단점이 있습니다. 특이 치가 너무 많은 데이터 세트를 스케일링 할 때 특이 치가 아닌 데이터는 매우 작은 간격으로 끝날 수 있습니다. 따라서 데이터 집합에 특이 치가 너무 많으면 표준화를 고려할 수 있습니다. 그럼에도 불구하고 그렇게하면 부정적인 데이터 (때로는 원하지 않는 경우)와 무제한 데이터 (어쩌면 원하지 않을 수도 있음)로 끝납니다.

— 레 나타
소스

3

센터링이란 변수에서 랜덤 변수의 평균을 대체하는 것을 의미합니다. 즉 x -xi

스케일링은 변수를 표준 편차로 나누는 것을 의미합니다. 즉 xi / s

이 둘의 조합을 정규화 또는 표준화라고합니다. 즉 x-xi / s

— 프랑크푸르트 오군 푸니 미니
소스

질문은 중복입니다.

— Michael Chernick