정규화와 표준화의 차이점은 무엇입니까?


118

직장 상사가 정규화에 대해 들어 본 적이 없으므로 직장에서 이것을 논의했습니다. 선형 대수에서 정규화는 벡터를 길이로 나누는 것으로 나타납니다. 통계에서 표준화는 평균을 빼고 SD로 나눈 것을 말합니다. 그러나 그들은 다른 가능성과도 상호 교환 가능한 것처럼 보입니다.

어떤 종류의 범용 점수를 만들 때 , 다른 수단과 다른 SD를 가진 가지 다른 메트릭을 구성하면 정규화, 표준화 또는 다른 것입니까? 한 사람은 각 메트릭을 가져 와서 SD로 개별적으로 나누는 것이 문제라고 말했습니다. 그런 다음 둘을 합산하십시오. 그러면 두 지표를 모두 판단하는 데 사용할 수있는 범용 점수가 산출됩니다.2

예를 들어, 지하철을 타고 일하는 사람들의 수 (NYC)와 일을 위해 운전 한 사람들의 수 (NYC)가 있다고 가정합니다.

자동차 y

Trainx
Cary

교통 변동을 신속하게보고하기 위해 범용 점수를 생성하려는 경우 기차를 타는 사람들이 더 많기 때문에 평균 ( y ) 만 추가 할 수 없습니다 . 뉴욕에는 8 백만 명의 사람들이 있으며 관광객들도 있습니다. 그것은 수백만의 사람들이 매일 기차에서 수십만 명의 사람들을 자동차로 타는 것입니다. 따라서 비교하기 위해 비슷한 규모로 변환해야합니다.mean(x)mean(y)

만약 mean(x)=8,000,000

mean(y)=800,000

& y 를 정규화 한 다음 합계 하시겠습니까? x & y 를 표준화 한 다음 합계 하시겠습니까? 아니면 각각을 SD로 나누고 합산 하시겠습니까? 변동 할 때 총 트래픽 변동을 나타내는 숫자에 도달하기 위해.xyxy

참조 할 기사 나 장은 대단히 감사하겠습니다. 감사!

또한 내가하려는 일의 또 다른 예가 있습니다.

당신이 대학 학장이고 입학 요건을 논의하고 있다고 상상해보십시오. 최소한 특정 GPA와 특정 시험 점수를 가진 학생들을 원할 수 있습니다. 둘이 같은 규모에 있다면 두 개를 합쳐서 "7.0 이상을 가진 사람은 누구나 입학 할 수 있습니다"라고 말하면 좋을 것입니다. 그렇게하면 예비 학생이 4.0 GPA를 가지고 있다면 3.0 시험 점수만큼 낮아도 입학 할 수 있습니다. 반대로, 누군가 3.0 GPA를 가졌다면 4.0 시험 점수를받을 수 있습니다.

그러나 그렇지 않습니다. ACT는 36 포인트 규모이며 대부분의 GPA는 4.0입니다 (일부는 4.3, 예, 성가시다). ACT와 GPA를 추가하여 일종의 보편적 점수를 얻을 수 없기 때문에 어떻게 점수를 추가하여 보편적 점수를 만들 수 있습니까? 그리고 학장으로서, 특정 임계 값보다 높은 점수를 가진 사람을 자동으로 수락 할 수 있습니다. 또는 점수가 최고 95 % 이내 인 모든 사람을 자동으로 수락 할 수도 있습니다.

이것이 정규화입니까? 표준화? 아니면 그냥 SD로 나눈 다음 합산합니까?


4
질문의 마지막 부분 은 여러 속성으로 평가 를 작성하려고하는 것처럼 들립니다 . 이에 대한 자세한 내용은 stats.stackexchange.com/q/9137stats.stackexchange.com/q/9358 에서 질문 및 답변을 참조하십시오 . 특히 정규화 나 표준화는 학장의 문제와 직접적인 관련이 없습니다.
whuber

답변:


65

정규화는 값을 [0,1] 범위로 조정합니다. 이는 모든 매개 변수가 동일한 양의 스케일을 가져야하는 경우에 유용 할 수 있습니다. 그러나 데이터 세트의 특이 치는 손실됩니다.

Xchanged=XXminXmaxXmin

μσ

Xchanged=Xμσ

대부분의 응용 프로그램에는 표준화가 권장됩니다.


7
데이터 정규화시 "데이터 세트의 특이 치가 손실되는 이유"를 설명해 주시겠습니까?
학습자

3
이 경우 크기 조정의 이상 치는 결과에 영향을 미치므로 손실되지 않습니다.
Feras

@learner [1 2 3 4 5 1000 2 4 5 2000 ...]이 있다고 상상해보십시오. 우리가 2000을 가지고 있기 때문에 데이터 포인트는 작은 될 것 천의 정규화 된 값
차가운 얼음

3
@COLDICE 나는 그것이 사용하는 정규화 알고리즘에 달려 있다고 생각합니다. 예를 들어 데이터 세트의 모든 숫자를 최대 값 (예 : 2000)으로 나눈 경우 범위는 0과 1 사이이며 특이 치에는 영향을 미치지 않습니다.
Alisson

3
나는 이것이 특이 치에 전혀 영향을 미치지 않는다고 생각합니다. 그렇지 않으면 이상 탐지 소프트웨어에서는 수행되지 않을 것입니다.
Alisson

44

비즈니스 세계에서 "정규화"는 일반적으로 값의 범위가 "0.0 ~ 1.0으로 정규화 됨"을 의미합니다. "표준화"는 일반적으로 값의 평균이 표준 편차의 수를 측정하기 위해 값의 범위가 "표준화 됨"을 의미합니다. 그러나 모든 사람들이 그것에 동의하지는 않습니다. 정의 를 사용하기 전에 설명하는 것이 가장 좋습니다 .

어쨌든, 당신의 변환은 유용한 무언가를 제공해야합니다.

열차 / 차의 예에서 평균과 표준 편차가 몇 개인 지 알면 어떤 값을 얻습니까? "표준화 된"측정 값을 xy 플롯으로 서로 플롯하면 상관 관계가 표시 될 수 있습니다 (오른쪽의 첫 번째 그래프 참조).

http://en.wikipedia.org/wiki/Correlation_and_dependence

그렇다면 그게 당신에게 의미가 있습니까?

두 번째 예에서 GPA를 한 스케일에서 다른 스케일로 "동일"시키려면이 스케일의 공통점은 무엇입니까? 즉, 어떻게 최소값을 동일하게, 최대 값을 동일하게 변환 할 수 있습니까?

다음은 "정규화"의 예입니다.

정규화 링크

GPA 및 ACT 점수를 교환 가능한 형태로 얻은 후에는 ACT 점수와 GPA 점수를 다르게 평가하는 것이 합리적입니까? 그렇다면 어떤 가중치가 당신에게 의미가 있습니까?

편집 1 (2011 년 5 월 3 일) =========================================== =

먼저 위의 whuber가 제안한 링크를 확인 하겠습니다 . 결론은 두 변수 문제 모두에서 한 변수와 다른 변수의 "동등성"을 생각해 내야한다는 것입니다. 그리고 한 변수를 다른 변수와 구별하는 방법. 다시 말해, 이것을 간단한 선형 관계로 단순화 할 수 있더라도 한 변수를 다른 변수와 구별하려면 "가중치"가 필요합니다.

다음은 두 가지 변수 문제의 예입니다.

다중 속성 유틸리티

마지막 페이지에서 표준화 된 열차 교통량 U1(x)과 표준화 된 자동차 교통량 U2(y)이 " 추가적으로 독립적" 이라고 말할 수 있으면 다음과 같은 간단한 방정식으로 벗어날 수 있습니다.

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

여기서 k1 = 0.5는 표준화 된 자동차 / 기차 교통량에 무관심 함을 의미합니다. k1이 높을수록 열차 교통량 U1(x)이 더 중요합니다.

그러나이 두 변수가 "추가적으로 독립적"이 아닌 경우 더 복잡한 방정식을 사용해야합니다. 한 가지 가능성은 1 페이지에 나와 있습니다.

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

두 경우 모두 합당한 유틸리티 U(x, y)를 만들어야합니다.

동일한 일반 가중치 / 비교 개념이 GPA / ACT 문제에 적용됩니다. "표준화"가 아니라 "표준화"된 경우에도 마찬가지입니다.

마지막 문제입니다. 나는 당신이 이것을 좋아하지 않을 것을 알고 있지만 "추가적으로 독립적"이라는 용어의 정의는 다음 링크의 4 페이지에 있습니다. 덜 괴짜 정의를 찾았지만 찾을 수 없었습니다. 더 나은 것을 찾기 위해 주위를 둘러 볼 수 있습니다.

부가 적으로 독립적

링크 인용 :

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

이 응답의 상단에 제안 된대로 xy 플롯에 표준화 된 열차 교통량과 표준화 된 자동차 교통량을 플로팅하면 상관 관계가 표시 될 수 있습니다. 그렇다면 위의 비선형 유틸리티 방정식 또는 이와 유사한 것이 붙어 있습니다.


승인. 네가 옳아. 내 정의를 설명하는 것이 가장 좋습니다. 그리고 다시 생각할 때, 그것은 내가 필요한 정의가 아닙니다. 필요한 것은 1 개의 유니버설 스코어를 생성하는 적절한 방법입니다. 그게 입학 점수인지 교통 점수인지. 다른 변수의 함수 인 범용 측정 항목을 만들려면 어떻게해야합니까? 다른 측정 항목은 모두 비슷한 척도로 변환 되었습니까? 그리고 무게에 대해 걱정하지 마십시오. 나는 직선 합산조차도 메트릭스 1/1에 가중치를 부여한다는 것을 이해합니다. 그러나 그것은 지금 저에게 관심이 덜합니다.
Chris

@Chris, 위의 편집으로 내 답변을 추가했습니다.
bill_080

2
(+1) 편집이 양호합니다. @Chris : 여기 에있는 간단한 PowerPoint 슬라이드에 대한 메모에 관심이있을 수 있습니다 . 이것은 기술이 아닌 사람들에게 제공 한 주제에 대한 프레젠테이션입니다. "범용 측정 항목을 만드는 방법"에 대한 설명과 지침이 있기 때문에 언급했습니다.
whuber

유틸리티 링크 다중 특성이 죽었 문서는 여기에서 찾을 수 있습니다 web.archive.org/web/20090530032248/http://www.doc.ic.ac.uk/~frk/...
mgilbert

6

대답은 간단하지만 마음에 들지 않을 것입니다. 두 점수에서 1 표준 편차를 동일하게 평가하는 경우 표준화를 사용하는 방법입니다 (참고 : 실제로 는 모집단의 SD 추정값 으로 나누어 져 있기 때문에 학습 하고 있습니다 ).

그렇지 않다면 표준화가 좋은 첫 단계가 될 것입니다. 그 후에는 잘 선택된 요인을 곱하여 점수 중 하나에 더 많은 가중치를 부여 할 수 있습니다.


그래서 적어도 표준화 (학생 학습)로 설명 한 것으로 시작한 다음 데이터 / 시나리오에 가장 잘 맞도록 가중치를 조정하고 있습니까? 말이 되네요 나는 왜 SD로 나눌 것인지 이해하지 못한다. 그리고 연구에서 나는 표준화 된 평균 차이라고 불리는 것을 발견했습니다. 그리고 나는 단지 혼란 스럽습니다. 간단해야 할 것 같습니다. 당신은 그것들을 모두 Scale-A에 놓거나 하나는 다른 것과 같은 척도로 놓은 다음 합산합니다. 하지만. 대신 나는 혼란스러워하고 모든 Wiki는 잠시 나갔다.
Chris

0

GPA / ACT 또는 기차 / 차량 문제를 해결하려면 기하 평균을 사용하지 않겠습니까?

n√ (a1 × a2 × ... × an)

a*분포의 값은 어디에 있고 분포 n의 인덱스입니다.

이 기하 평균은 각 값이 스케일을 나누고 평균 값에 동일하게 기여하는지 확인합니다. 기하 평균 에서 더보기


3
OP가 설명하는 상황에 기하학적 평균이 적합하다는 것을 알 수 없습니다.
gung

1
나는 gung에 동의한다. 기하 평균은이 문제의 해결책이 아닙니다.
Ferdi

기하 평균은 더 적은 수의 기여도 감소를 방지합니다. 따라서 비 균등 스케일을 결합해야하는 경우 표준화 또는 표준화의 대안이 될 수 있습니다.
rnso

0

필자의 분야 인 데이터 과학에서 정규화는 데이터 다운 스트림을 쉽게 비교할 수있는 데이터 변환입니다. 정규화에는 여러 유형이 있습니다. 스케일링 중 하나입니다. 데이터를 기록하거나 원하는 다른 작업을 수행 할 수도 있습니다. 모든 정규화가 데이터를 다른 것으로 변환하기 때문에 사용하는 정규화 유형은 원하는 결과에 따라 다릅니다.

다음은 정규화 예제로 간주되는 것 중 일부입니다. 스케일링 정규화 Quantile 정규화

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.