우리는 정상적인 형태를 좋아합니다
대부분의 경우 우리는 그것들이 정상적인 것처럼 행동하도록 노력합니다. 분류기는 관점이 아니라 기능 추출 관점입니다!
어떤 변환 ?
변환을 선택하는 주요 기준은 다음과 같습니다. 데이터와 함께 작동하는 것은 무엇입니까? 위의 예에서 알 수 있듯이 두 가지 질문을 고려해야합니다.
예를 들어, 가치가 매우 작거나 커질 때 행동을 제한하는 관점에서 물리적 (생물학적, 경제적, 무엇이든) 의미가있는 것은 무엇입니까? 이 질문은 종종 대수를 사용합니다.
치수와 단위를 간단하고 편리하게 유지할 수 있습니까? 가능하면 생각하기 쉬운 측정 스케일을 선호합니다.
체적의 제곱근과 면적의 제곱근은 길이의 치수를 가지므로 복잡한 문제와는 거리가 멀기 때문에 이러한 변형으로 단순화 할 수 있습니다. 왕복은 일반적으로 앞에서 언급했듯이 간단한 단위를 갖습니다. 그러나 종종 다소 복잡한 단위가 만들어 져야하는 희생입니다.
언제 무엇을 사용해야 합니까?
입문 데이터 분석에서 가장 유용한 변환은 역수, 로그, 입방체 근, 제곱근 및 제곱입니다. 다음은 강조하지 않아도 변환 결과가 (유한 한) 실수를 산출하는 범위에 대해서만 변환이 사용된다고 가정합니다.
- 역수 : 음의 역수 x--1 / x를 갖는 역수 x-1 / x는 분포 형태에 급격한 영향을주는 매우 강력한 변환입니다. 0 값에는 적용 할 수 없습니다. 음수 값에도 적용 할 수 있지만 모든 값이 양수가 아닌 한 유용하지 않습니다. 비율의 역수는 종종 비율 자체처럼 쉽게 해석 될 수 있습니다. 예 :
- 인구 밀도 (단위 면적당 인원)는 1 인당 면적이됩니다
- 의사당 사람은 사람당 의사가됩니다
- 침식 속도는 단위 깊이를 침식하는 시간이된다
(실제로, 우리는 관리하기 쉽지만 그 자체가 왜도 또는 선형성에 영향을 미치지 않는 숫자를 얻기 위해 왕복을 취한 결과에 1000 또는 10000과 같은 상수를 곱하거나 나누고 싶을 수 있습니다.)
역수는 같은 부호의 값들 사이에서 순서를 거꾸로한다 : 최대 값은 가장 작아진다.
L 개의 n 개의 Y= l n a + b xx = 0와이= a e x p ( 0 ) = a a와 b> 0 인 경우, y는 더 빠르고 더 빠른 속도로 증가합니다 (예 : 복리이자 또는 확인되지 않은 인구 증가). a> 0과 b <0이면 y 느리고 느린 속도로 감소합니다 (예 : 방사성 붕괴).
- 전원 기능 :
와이= X비L O g와이= L O g+ B L O g엑스
x=0b>0
y=axb=0
- 비율 y = p / q를 고려하십시오. 여기서 p와 q는 모두 양수입니다.
예를 들면 다음과 같습니다.
- 남성 / 여성
- 부양 가족
- 다운 스트림 길이 / 다운 밸리 길이
그런 다음 y는 0과 무한대 사이, 마지막 경우에는 1과 무한대 사이입니다. p = q이면 y = 1입니다. 명확한 하한과 명확한 상한이 없기 때문에 이러한 정의로 인해 데이터가 치우쳐지는 경우가 종종 있습니다. 그러나 로그는
log y = log p / q = log p-log q는 -infinity와 무한대 사이에 있으며 p = q는 log y = 0을 의미합니다. 따라서 이러한 비율의 로그는보다 대칭 적으로 분포 될 가능성이 높습니다.
- x2
y=a+bx+cx2
2 차법은 일반적으로
데이터 영역 내에서 관계를 모방 할 수 있기 때문에 단독으로 사용됩니다 . 이 영역 밖에서
는 x의 극단 값에 대해 임의로 큰 값을 취하기 때문에 매우 열악하게 작동 할 수 있으며, 절편 a가 0으로 제한되지 않으면 비현실적으로 원점에 가깝게 작동 할 수 있습니다.