주요 관심 대상이 아닌 모든 변수를 로그 변환하지 않는 이유는 무엇입니까?

10

책과 토론에는 종종 예측 변수에 문제가있을 때 (몇 가지가 있음) 로그 변환이 가능하다는 내용이 있습니다. 저는 이것이 분포에 의존하고 예측 변수의 정규성은 회귀의 가정이 아니라는 것을 이해합니다. 그러나 로그 변환은 데이터의 균일 성을 높이고 특이 치의 영향을 덜받습니다.

나는 주요 interesr가 아닌 모든 연속 변수, 즉 내가 조정하는 변수를 로그 변환하는 것에 대해 생각했습니다.

그게 잘못이야? 좋은? 쓸모없는?

regression data-transformation

— 아담 로빈슨
소스

24

이제 예측 변수의 분포와 정규성에 따라 달라집니다

로그 변환은 데이터를보다 균일하게 만듭니다

일반적인 주장으로, 이것은 거짓입니다. --- 그렇더라도 균일 성 이 중요한 이유는 무엇입니까?

예를 들어,

i) 1과 2의 값만 취하는 이진 예측 변수 로그를 취하면 0과 로그 2의 값만 취하는 이진 예측 변수로 남게됩니다.이 예측 변수와 관련된 항의 절편과 스케일링을 제외하고는 실제로 영향을 미치지 않습니다. 적합치와 마찬가지로 예측 변수의 p- 값도 변경되지 않습니다.

여기에 이미지 설명을 입력하십시오

ii) 왼쪽으로 치우친 예측자를 고려하십시오. 이제 통나무를 가져 가라. 일반적으로 왼쪽으로 치우칩니다.

여기에 이미지 설명을 입력하십시오

iii) 균일 한 데이터가 왼쪽으로 치우친 다

여기에 이미지 설명을 입력하십시오

(그러나 종종 그렇게 극단적 인 변화는 아닙니다)

특이 치의 영향을 덜 받음

일반적인 주장으로, 이것은 거짓입니다. 예측 변수에서 낮은 특이 치를 고려하십시오.

여기에 이미지 설명을 입력하십시오

주요 관심사가 아닌 모든 연속 변수를 로그로 변환하는 것에 대해 생각했습니다.

끝까지? 원래 관계가 선형 인 경우 더 이상 관계가 없습니다.

여기에 이미지 설명을 입력하십시오

그리고 그들이 이미 구부러져 있다면, 이것을 자동으로 수행하면 더 나빠지거나 더 구부러 질 수 있습니다.

-

예측 변수 (일차 관심사에 관계없이)를 기록하는 것이 때때로 적합 할 수도 있지만 항상 그렇지는 않습니다.

— Glen_b-복귀 모니카
소스

2

이 훌륭한 답변에 감사드립니다. 적어도 우리 중 많은 사람들이 이런 식으로 시각화 된 것을 볼 필요가 있다고 생각합니다. 그러나 오른쪽으로 치우친 데이터에 로그 변환이 적용되어야한다는 데 동의하십니까? 다른 왜곡 및 형태보다 더 많은가?

— Adam Robinsson

1

일반적으로 아닙니다. 매우 특정한 조건 하에서, 아마도.

— Glen_b-복원 모니카

또한 아무도 모델의 해석 가능성을 언급하지 않은 것에 놀랐습니다. 종속 변수를 로그 변환하면 모델을 해석하는 것이 좀 더 어려워집니다. 특히 평신도 나 통계적 / 수학적 배경이없는 사람들에게는 더욱 그렇습니다. 예를 들어 트렁크의 둘레를 인치 단위로 가정했을 때 나무의 높이를 피트 단위로 예측 한 모델이 있다고 가정 해 봅시다. 의 해석은 원주가 1 인치 증가 할 때 나무의 평균 높이가 반 피트의 로그만큼 증가한다는 것은 더 성가신 일입니다 (계속)

\hat{β} = 0.50

$\hat{\beta}=0.50$

— StatsStudent

예를 들어, 몸통 둘레 둘레의 수를 1 인치 증가시킬 수있는 것보다, 나무의 평균 높이는 반 피트 씩 증가합니다. 후자는 계산기없이 현장에서 해석하기 쉽고 계산하기가 더 쉽습니다.

— 통계 학생

10

제 생각에는 로그 변환 (및 그 문제에 대한 모든 데이터 변환) 을 수행하는 것이 의미가 없습니다 . 이전 답변에서 언급했듯이 데이터에 따라 일부 변환은 유효하지 않거나 쓸모가 없습니다 . 내가보기 엔 다음과 같은 이럴 우수한 읽어보실 것을 추천 소개 자료 에 대한 데이터 변환 : http://fmwww.bc.edu/repec/bocode/t/transint.html를 . 이 문서의 코드 예제는 Stata 언어로 작성 되었지만 그렇지 않은 경우이 문서 는 일반적 이므로 Staa 이외의 사용자에게도 유용합니다.

정규성 부족 , 특이 치 및 혼합 분포 와 같은 일반적인 데이터 관련 문제 를 처리 하기 위한 몇 가지 간단한 기술과 도구 는 이 기사 에서 찾을 수 있습니다 ( 혼합 분포를 다루는 접근법으로서의 계층화 는 가장 간단한 것임). 이에 대한보다 일반적이고 복잡한 접근 방식 은 유한 혼합물 모델 이라고도하는 혼합물 분석 이며 , 이에 대한 설명은이 답변의 범위를 벗어납니다. 박스 콕스 변환위의 두 참조에서 간략하게 언급 한 것처럼, 특히 비정규 데이터 (일부 경고가있는 경우)의 경우 중요한 데이터 변환입니다. Box-Cox 변환에 대한 자세한 내용은이 소개 기사 를 참조 하십시오 .

— 알렉산드르 블 레크
소스

2

위대한 참조 Aleksandr. 감정주의가 잘 필요한 것을 공유해 주셔서 감사합니다. 감사.

— Adam Robinsson

1

@AdamRobinsson : 내 기쁨, 아담! 내 대답이 마음에 들었습니다.

— Aleksandr Blekh

8

로그 변환이 항상 개선되지는 않습니다. 분명히 0 또는 음수 값을 달성하는 변수는 로그 변환 할 수 없으며, 0을 포옹하는 양수 변수는 로그 변환 된 경우 음수 이상 치가 나올 수 있습니다.

일상적으로 모든 것을 기록해야 할뿐만 아니라 모형을 피팅하기 전에 선택한 양성 예측 변수 (적절하게는 종종 로그이지만 다른 것)를 변환하는 것이 좋습니다. 반응 변수도 마찬가지입니다. 주제 지식도 중요합니다. 물리학 또는 사회학의 이론이나 자연스럽게 특정 변형을 초래할 수있는 모든 이론. 일반적으로 양으로 치우친 변수가 있으면 로그 (또는 제곱근 또는 역수)가 도움이 될 수 있습니다.

일부 회귀 텍스트는 변환을 고려하기 전에 진단 그림을 봐야한다고 제안하지만, 나는 동의하지 않습니다. 모델을 설치하기 전에 이러한 선택을 할 수있는 최선의 작업을 수행하는 것이 가장 좋다고 생각합니다. 그런 다음 진단을보고 조정해야하는지 확인하십시오.

— 러스 렌스
소스

모두 이러한 고려 사항이 중요하고 중요하지 않은 예측 변수에 모두 적용된다고 덧붙입니다.

— Russ Lenth

감사합니다 @rvl! 나는 언제, 어떻게 변환을 선택할지에 대한 불일치 때문에 혼란스러워한다. 책은 종종 당신이 쓴 것처럼 회귀를 만지기 전에 모든 변수의 형태를 확인해야한다고 말합니다. 통찰력을 제공해 주셔서 감사합니다.

— Adam Robinsson

@ rvl, 답변 주셔서 감사합니다. snoq이 CrossValidated 스레드 에서 데이터 세트 를 로그 변환 하시겠습니까 (목표는 가우시안 혼합에 적합 함을 명심하십시오)?

— 바브

-3

1) 카운트 데이터 (y> 0)-> log (y) 또는 y = exp (b0 + biXi) 2) 카운트 데이터 + 제로 (y> = 0)-> 허들 모델 (이항 + 카운트 등록) 3) 모두 다중 효과 (& 오류)는 가산 적입니다 4) 분산 ~ 평균-> log (y) 또는 y = exp (b0 + biXi) 5) ...

— 이반 크냐 세 예프
소스

이 답변은 읽기가 어렵고 질문에 대한 답변을 시도하는지 확실하지 않습니다.

— Juho Kokkala

1

전신 및 형식화되지 않은 프레젠테이션은이 답변을 이해하기 어렵게 만듭니다. 아이디어를 영어로 확장하고 사용할 수 있다고 생각하십니까?

T E X

$\TeX$