데이터 '정규화'와 '스케일링'데이터의 차이점은 무엇입니까? 지금까지 두 용어가 모두 같은 과정을 의미한다고 생각했지만 지금은 내가 모르거나 이해해야 할 것이 더 많다는 것을 알고 있습니다. 또한 정규화와 스케일링간에 차이가있는 경우 언제 정규화를 사용해야하지만 스케일링은 사용하지 않아야합니까?
몇 가지 예를 자세히 설명하십시오.
데이터 '정규화'와 '스케일링'데이터의 차이점은 무엇입니까? 지금까지 두 용어가 모두 같은 과정을 의미한다고 생각했지만 지금은 내가 모르거나 이해해야 할 것이 더 많다는 것을 알고 있습니다. 또한 정규화와 스케일링간에 차이가있는 경우 언제 정규화를 사용해야하지만 스케일링은 사용하지 않아야합니까?
몇 가지 예를 자세히 설명하십시오.
답변:
나는 "공식적인"정의를 알고 있지 않으며, 정의가 있더라도 실제로 일관성이없는 것을 볼 수 있기 때문에 믿지 말아야합니다.
통계에서 스케일링은 일반적으로 형식의 선형 변환을 의미합니다 .
정규화는 변환을 적용하여 변환 된 데이터가 대략 정규 분포되어 있음을 의미 할 수도 있지만 단순히 다른 변수를 공통 척도로 배치하는 것을 의미 할 수도 있습니다. 평균을 빼고 표준 편차로 나누는 것을 의미하는 표준화는 나중에 사용하는 예입니다. 보시다시피 스케일링의 예이기도합니다. 첫 번째 예는 로그 정규 분포 데이터에 대한 로그를 가져 오는 것입니다.
그러나 당신이 가져 가야 할 것은 그것을 읽을 때 저자가 한 일에 대한 더 자세한 설명을 찾아야한다는 것입니다. 때로는 문맥에서 얻을 수 있습니다.
스케일링은 숫자가 옳은 느낌 (예 : 0에서 1 또는 1에서 100 사이)에 대한 개인적인 선택입니다. 예를 들어 밀리미터 단위의 데이터를 미터로 변환하는 것이 더 편리하거나 미터법으로 변환하는 것이 좋습니다.
정규화는 평균값을 제거하고 표본 표준 편차로 나누는 것과 같이 외부 '표준'(로컬 표준)으로 스케일링하는 것과 같이 분류 된 데이터를 누적 법선 또는 누적 포아송과 비교할 수 있습니다. 도대체 무엇이.
따라서 강사 또는 관리자가 '정규화 된'데이터를 원하면 " 내 방식대로 다시 스케일링"을 의미합니다. ;-)
나는 이것이 정확히 의미하는지 모르겠지만 많은 사람들이 표준화를 의미하는 데이터 표준화를 참조합니다. 표준화는 데이터를 변환하여 평균 0과 표준 편차 1을 갖도록합니다.
x <- (x - mean(x)) / sd(x)
또한 데이터를 0-1 범위로 변환 할 때 데이터 스케일링 정규화라는 용어를 사용하는 사람들도 있습니다.
x <- (x - min(x)) / (max(x) - min(x))
혼란 스러울 수 있습니다!
두 기술 모두 장단점이 있습니다. 특이 치가 너무 많은 데이터 세트를 스케일링 할 때 특이 치가 아닌 데이터는 매우 작은 간격으로 끝날 수 있습니다. 따라서 데이터 집합에 특이 치가 너무 많으면 표준화를 고려할 수 있습니다. 그럼에도 불구하고 그렇게하면 부정적인 데이터 (때로는 원하지 않는 경우)와 무제한 데이터 (어쩌면 원하지 않을 수도 있음)로 끝납니다.
센터링이란 변수에서 랜덤 변수의 평균을 대체하는 것을 의미합니다. 즉 x -xi
스케일링은 변수를 표준 편차로 나누는 것을 의미합니다. 즉 xi / s
이 둘의 조합을 정규화 또는 표준화라고합니다. 즉 x-xi / s