데이터 변환 : 모든 변수 또는 비정규 변수?


14

Andy Field의 SPSS를 사용한 통계 발견에서 그는 모든 변수를 변환해야한다고 말합니다.

그러나 간행물 : "지리적 가중 회귀 I : 모델 설계 및 평가를 사용하여 토지 이용과 수질 사이의 공간적으로 다양한 관계를 조사하는 것"은 비정규 변수 만 변형되었다고 구체적으로 언급합니다.

이 분석은 구체적입니까? 예를 들어, 평균을 비교할 때 로그를 원시 데이터와 비교하면 명백한 차이가 발생하지만 회귀와 같은 것을 사용하여 변수 간의 관계를 조사 할 때 덜 중요해집니다.

편집 : 다음은 "데이터 변환"섹션의 전체 텍스트 페이지입니다.

다음은이 논문에 대한 링크입니다. http://www.sciencedirect.com/science/article/pii/S0048969708009121


16
게시 한 새 이미지를 바탕으로 저자는 "변수"와 "관측"을 혼동하는 것으로 보입니다. p의 상단에 그는 변수를 변환 할 때 모든 값 (관측 값)을 같은 방식으로 변환해야한다고 강조합니다. 그렇지 않으면 어떤 것도 비교할 수 없게됩니다. (이를 "변수 사이의 관계를 바꾸지 말 것"이라고 주장하기 위해서는 정확한 관대함이 필요하다.) p. 154는 문장으로도 (각주로도) 문장이 너무 잘못되어서 모든 문제를 열거 할 가치가 없습니다.
우버

답변:


17

몇 가지 조언을 인용하십시오. 모두 의심 할 여지없이 도움이 되겠지만 그 중 많은 장점을 찾기는 어렵습니다.

각각의 경우에 나는 당신이 요약으로 인용 한 것에 전적으로 의존합니다. 저자의 방어에서 나는 그들이 주변 또는 다른 자료에 적절한 자격을 추가한다고 믿기를 원합니다. (일반적인 이름, 날짜, 제목, (게시자, 장소) 또는 (저널 제목, 볼륨, 페이지) 형식의 전체 참고 문헌은 질문을 향상시킵니다.)

이 조언은 도움이되었지만, 지나치게 단순화 된 것입니다. Field의 조언은 일반적으로 의도 된 것 같습니다. 예를 들어 Levene의 검정에 대한 언급은 분산 분석에 대한 일시적인 초점을 의미합니다.

(1,0)

더 일반적으로, 많은 분야에서 일반적인 상황에서, 일부 예측 변수가 변형되고 나머지는 그대로 남겨 두는 것이 일반적입니다.

논문이나 논문에서 서로 다른 예측 변수 (특별한 경우, 정체성 변환 또는 그대로 두는 것을 포함)에 다르게 적용되는 변환 조합이 독자의 관심사 인 경우가 종종 있습니다. 믹스는 잘 선택된 선택의 집합입니까, 아니면 임의적이고 변덕입니까?

또한 일련의 연구에서 접근의 일관성 (항상 반응에 로그를 적용하거나 수행하지 않음)은 결과를 비교하는 데 크게 도움이되며 접근 방식이 다르면 더 어려워집니다.

그러나 이것은 여러 가지 변형이 필요한 이유가 결코 없다고 말하는 것은 아닙니다.

나는 당신이 인용 한 대부분의 섹션이 노란색으로 강조 표시 한 주요 조언과 많은 관련이 있음을 알지 못한다. 이것은 그 자체로 우려되는 문제입니다. 절대 규칙을 발표 한 다음 실제로 설명하지 않는 것은 이상한 일입니다. 반대로, "기억하라"라는 명령은 필드의 근거가이 책의 앞부분에서 제공되었다고 제안합니다.

익명의 종이

여기서의 맥락은 회귀 모델입니다. 종종 OLS에 대한 이야기는 모델보다는 추정 방법을 이상하게 강조하지만 의도 한 것을 이해할 수 있습니다. GWR I은 지리적으로 가중 된 회귀로 해석됩니다.

여기서 논증은 비정규 예측 변수를 변환하고 다른 예측 변수는 그대로 두어야한다는 것입니다. 다시 말하지만, 정규 분포로 분배 할 수없는 지표 변수를 사용하여 수행 할 수있는 작업과 수행 할 수있는 작업에 대한 의문이 제기됩니다 (위의 경우 비정규 성이 문제가되지 않음을 지적하여 위와 같이 답변 할 수 있음). 그러나이 명령은 문제인 예측 변수가 비정규 적이라는 것을 암시하는 데 역전되어있다. 별로; 예측 변수의 한계 분포에 대해 가정하는 것은 회귀 모델링의 일부가 아닙니다.

실제로 예측 변수를 거의 정규적으로 만들면 함수형 를 만드는 변환을 적용하는 경우가 많습니다.엑스β 데이터에 가장 적합 오류에 대한 강조에도 불구하고 변환의 주요 이유가 될 것입니다. 많은 텍스트의 구조. 다시 말해, 예측 변수를 정규성에 가깝게 가져 오도록 변환하면 변환 된 공간에서 선형성에 가까워지면 잘못된 이유로 올바른 작업을 수행 할 수 있습니다.

이 포럼에는 여러분이 인용 한 것에 대해 토론하는 데 중점을 둔이 포럼에 대한 훌륭한 조언이 많이 있습니다.

추신 : "예를 들어, 수단을 비교할 때 로그를 원시 데이터와 비교하면 분명히 큰 차이가 발생합니다."로 시작하는 문장을 추가합니다. 나는 당신이 생각하는 것을 분명하지 않지만 한 그룹의 값을 다른 그룹의 로그 값과 비교하는 것은 의미가 없습니다. 나는 당신의 진술의 나머지 부분을 전혀 이해하지 못합니다.


닉, 나는 빠르고 간결하게 요점을 밝히고 싶었다. Google 세계에서는 필요한 경우 원본 문서에 쉽게 액세스 할 수있는 충분한 정보를 제공했습니다. 답을 주셔서 감사합니다, 비록 당신이 나에게 찾고있는 정보를 정확하게 제공했습니다 : Field의 제안과 같이 모든 변수를 변환해야한다는 것은 그의 데이터 변환 섹션에서 데이터 변환에 대한 잘못된 접근법입니다.
I Heart이 (가)

14
+1. 나는 당신이 그렇게 엉뚱한 자료를 다루는 데 얼마나 재치있게 놀랐는지 경탄합니다. SPSS 서적의 여기 저기 스키밍 페이지는 우리가이 사이트에서 얻는 매우 혼란스러운 질문에 대한 통찰력을 제공합니다. 오류, 잘못된 정보 및 완벽한 조립식으로 가득합니다.
whuber

@I Heart Beats 답변이 도움이 되었음에도 불구하고 적절한 참조 요청이 있습니다. 관심있는 사람들이 항상 Google을 할 수 있기 때문에 불완전한 참조는 항상 방어 적이라고 말할 수 있습니다. 반대로, 좋은 장학금과 과학은 훌륭한 서지 연습에 의해 도움을받으며, 자세한 내용을 제공하고 (많은) 독자가 불필요한 일을하지 않도록합니다.
Nick Cox

@Nick 내 질문에 대한 수정 사항을 봅니다. 나는 기사가 오픈 소스라고 생각하고 문맥에 대한 전체 텍스트 페이지를 추가했습니다.
나는 심장이

8
참조를 향상시켜 주셔서 감사합니다. Field에서 더 인용했습니다. "데이터를 변환해도 변수 간의 관계가 변경되지 않는다"는 주장을 포함하여 추가 섹션이 표시됩니다. 그것이 "관계"라는 특유의 의미에 중점을 두거나, 그것이 도움이되지 않는, 실제로는 매우 잘못된 것입니다. 나는 어떤 의미에서 @whuber 가 우리 앞에있는 증거에 관한 문제의 책에 대해 동의 한 것을 후회 한다 . (업데이트 : whuber는 본질적으로 같은 요점을 동시에 만들고있었습니다 : 질문에 대한 그의 의견을보십시오.)
Nick Cox

10

우선, 회귀 모델에서 사용하기 위해 의도 된 데이터에 적용된 변환이 변수 PDF를보다 일반적으로 분산 시키기 위해 수행되지 않는 한 , 고전 회귀 분석의 한 가정 때문에 모델 잔차를 더 대칭 적 으로 만드는 한 두 인용 부호는 오도됩니다. 오류는 가우시안입니다. 이는 단순히 PDF를 대칭하는 것보다 더 엄격하고 엄격함을 의미합니다.

또한 두 사람 모두 (적어도 제공된 정보를 기반으로) 처방전의 동기 부여에 신경 쓰지 않는다는 점에서 약합니다. 그것이 일어날 때, 나는 둘 다에 동의하지 않습니다.

강조한 구절에서 SPSS 서적은 변환의 혼합 (예 : 한 변수에 대한 자연 로그, 다른 변수에 대한 제곱근)은 허용되지 않는다고 주장합니다. 왜 이것이 불법입니까? 변형의 혼합물은 내가 알고있는 회귀 가정을 위반하지 않습니다. 회귀 가정에 대한 회귀 텍스트를 확인하여 이것이 사실인지 확인하십시오. 변환 혼합물은 해석 측면에서 실질적인 설명 적 문제를 나타낼 수 있지만, 혼합물이 불법인지 여부는 문제가되지 않습니다. SPSS 사람이 잘못되었습니다.

두 번째 텍스트가있는 한, 변환은 분석가의 선택의 문제입니다. 하나가 수행하든 모든 입력 또는 일부 변수를 변환하고 다른 변수는 변환하지 않습니다. 이 중 어느 것도 가정을 위반하지 않습니다.

두 번째 인용문이 레일에서 사라 졌다고 생각하는 곳은 "... 잠재적 다중 공선 성을 피하기 위해 ... 한 토지 사용 지표 만 사용 된 것입니다 ..."라는 주장에 있습니다. 일부 분석가는 여러 변수를 요인 분석하고 각 요인에서 가장 높은 로딩 변수를 선택하는 차원 축소 기술로 할 것입니다. 이 휴리스틱은 수년 동안 사용되어 왔으며 내가 사용하거나 권장하는 것이 아닙니다. 다시 말하지만, 이것은 분석가 선호와 훈련의 문제입니다. 그러나이 시점은 특정 질문에 대답하기위한 것이 아닙니다.

하루가 끝날 무렵, 두 인용문은 제공된 정보에 근거한 근거가없는 저자의 의견에 대한 주장으로 나온다.


8
우리는 대체로 비슷한 점을 지적하지만, 좋은 텍스트는 가우시안 오차가 회귀 모델링에서 가장 중요하지 않으며 많은 목적에 필요하지 않다고 설명합니다.
Nick Cox

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.