변환 할 때 비정규 데이터를 유지하는 비정규 데이터에 대해 회귀를 수행하려면 어떻게해야합니까?


15

21 개 설문지 항목에 대한 리 커트 척도 답변에서 파생 된 일부 데이터 (158 건)가 있습니다. 설문지의 어떤 항목이 전체 항목에 대한 응답을 예측하는지 확인하기 위해 회귀 분석을 수행하고 싶습니다 (만족도). 응답은 (KS 테스트에 따라) 정상적으로 배포되지 않으며 내가 생각할 수있는 모든 방식 (역, 로그, log10, sqrt, 제곱)으로 변환했으며 정규 분포를 완고 히 거부합니다. 잔차 줄거리는 사방에 보이므로 선형 회귀 분석을 수행하는 것이 합법적이지 않다고 생각하고 정상적으로 행동하는 것처럼 보입니다 (포아송 분포도 아닙니다). 나는 대답이 매우 밀접하게 묶여 있기 때문이라고 생각합니다 (평균은 3.91, 95 % CI 3.88 ~ 3.95).

따라서 데이터를 변환하는 새로운 방법이 필요하거나 일종의 비모수 적 회귀가 필요하다고 생각하지만 SPSS에서 수행 할 수있는 작업을 모릅니다.


1
Box-Cox 변환 ( en.wikipedia.org/wiki/… )을 고려하십시오 . 질문에 잔차 그림을 추가하면 도움이 될 수 있습니다.
M. Berk

3
예, 잔차 그림을 보여주세요. 아마도 QQ 플롯 일 수도 있습니다.
David Marx

5
값이 불연속적일 경우, 특히 한쪽 끝이 찌그러 질 경우 결과가 거의 정상이되는 변환이 없을 수 있습니다. 그러나 정규성에 대한 정규 가설 검정은 올바른 질문에 답하지 않으며, 더 이상 공칭 속성을 갖지 않기 위해 정규성을 거부하는지 여부에 따라 조건부로 수행되는 다른 절차를 유발합니다.
Glen_b-복지 주 모니카

1
비례 배당 로지스틱 회귀 분석은 아마도이 질문에 대한 합리적인 접근법 일 것입니다. 그러나 SPSS에서 사용할 수 있는지는 알 수 없습니다.
Ben Bolker 21시 06 분

3
나는 회귀가 올바른 접근 방법이라고 확신하지 않으며, 정상적인 우려 때문이 아닙니다. 설문지 답변은 추기경이 아닐 수도 있습니다. 예를 들어, 당신이 남자에게 '행복하니?'라고 물으면 답이 3이되고, 지난 달에 4 살이었지만 이것이 25 % 덜 행복하다는 것을 의미합니까? 그렇지 않을 가능성이 높습니다. 서수뿐만 아니라 기수를 다룰 지 여부를 파악해야합니다 설문 조사와 같은
사고

답변:


32

회귀 분석을 위해 정규 분포를 가정 할 필요는 없습니다. 최소 제곱 회귀는 분포에 관계없이 BLUE 추정기 (최고 선형, 편견 추정기)입니다. Gauss-Markov 정리 (예 : wikipedia)를 참조하십시오. 정규 분포는 추정값이 최대 우도 추정값임을 나타내는 데만 사용됩니다. OLS가 어떻게 든 정규 분포 데이터를 가정한다는 것은 일반적으로 오해입니다. 그렇지 않습니다. 훨씬 더 일반적입니다.


2
이건 정말 진실. 많은 사람들에게 종종이 사실을 무시합니다.
Repmat

@Repmat에 동의하십시오. 정규 테스트를 통과했는지 확실하지 않지만 모델이 작동합니다.
HEITZ

5

잔차의 정규성 검정에 의존하기보다는 합리적인 판단으로 정규성을 평가하십시오. 정규성 테스트는 데이터가 정상임을 나타내지 않으며 그렇지 않다는 것을 알려줍니다. 그러나 데이터가 샘플이므로 테스트 없이는 실제로 정상적이지 않다는 것을 확신 할 수 있습니다. 요구 사항은 거의 정상입니다. 시험은 당신에게 말할 수 없습니다. 테스트는 또한 큰 N에서 또는 그보다 더 심각하게 매우 민감 해지며 N에 따라 감도가 다양합니다. N은 감도가 높아지기 시작하는 범위에 있습니다. R에서 다음과 같은 시뮬레이션을 여러 번 실행하고 그림을 보면 정규성 검정이 많은 정규 분포에 대해 "정상이 아님"이라는 것을 알 수 있습니다.

# set the plot area to show two plots side by side (make the window wide)
par(mfrow = c(1, 2)) 
n <- 158 # use the N we're concerned about

# Run this a few times to get an idea of what data from a 
# normal distribution should look like.
# especially note how variable the histograms look
y <- rnorm(n) # n numbers from normal distribution
# view the distribution
hist(y)
qqnorm(y);qqline(y)

# run this section several times to get an idea what data from a normal
# distribution that fails the normality test looks like
# the following code block generates random normal distributions until one 
# fails a normality test
p <- 1 # set p to a dummy value to start with
while(p >= 0.05) {
    y <- rnorm(n)
    p <- shapiro.test(y)$p.value }
# view the distribution that failed
hist(y)
qqnorm(y);qqline(y)

시뮬레이션을 수행 한 후에는 정규성 테스트를 통해 정규적으로 보이는 데이터를 쉽게 거부 할 수 있으며 정규 분포의 데이터는 정규에서 멀리 떨어져있는 것처럼 보일 수 있습니다. 당신이 그 극단적 인 가치를보고 싶다면 시도하십시오 n <- 1000. 분포는 모두 정상적으로 보이지만 더 낮은 N 값과 거의 같은 속도로 테스트에 실패합니다. 반대로, 테스트를 통과하는 N 분포가 낮 으면 정규와 매우 거리가 멀어 보일 수 있습니다.

SPSS의 표준 잔차 그림은 정규성을 평가하는 데 크게 유용하지 않습니다. 특이 치, 범위, 적합도 및 레버리지를 볼 수 있습니다. 그러나 정규성은 그것으로부터 도출하기 어렵다. 히스토그램, Quantile-quantile 노멀 플롯 및 잔차 플롯을 비교하여 다음 시뮬레이션을 시도하십시오.

par(mfrow = c(1, 3)) # making 3 graphs in a row now

y <- rnorm(n)
hist(y)
qqnorm(y); qqline(y)
plot(y); abline(h = 0)

마지막 줄거리에서 정상 또는 많은 것을 말하기가 매우 어렵 기 때문에 정상 진단이 심각하지 않습니다.

요약하면 일반적으로 정규성 검정에 의존하지 않고 잔차의 진단 플롯에 의존하는 것이 좋습니다. 이러한 플롯이나 질문에 실제 값이 없으면 누구든지 분석 또는 변환 측면에서 데이터에 필요한 사항에 대한 확실한 조언을 제공하기가 매우 어렵습니다. 최상의 도움을 받으려면 원시 데이터를 제공하십시오.


안녕하세요. 제안 해 주셔서 감사합니다. 제안 된대로 잔차를보고 위의 구문을 변수와 함께 사용했습니다. 내 데이터는 내가 생각했던 것만 큼 재난이 아닌 비정규 적이 지 않았으므로 파라 메트릭 선형 회귀를 훨씬 더 자신감과 명확한 양심으로 사용했습니다! 다시 감사합니다.
rachel S

4

첫째, OLS 회귀 분석은 데이터에 대한 가정을하지 않으며 잔차로 추정되는 오류에 대한 가정을합니다.

둘째, 모델에 맞게 데이터를 변환하는 것은 잘못된 접근법입니다. 당신은 당신의 모델이 다른 방향이 아닌 문제에 적합하기를 원합니다. 예전에는 OLS 회귀가 컴퓨터가 느리기 때문에 "도시에서 유일한 게임"이었지만 더 이상 사실이 아닙니다.

셋째, SPSS를 사용하지 않으므로 거기에서 도울 수 없지만 어떤 형태의 비선형 회귀를 제공하지 않으면 놀랍습니다. 일부 가능성은 Quantile 회귀, 회귀 트리 및 강력한 회귀입니다.

넷째, 나는 당신의 진술에 대해 약간 걱정하고 있습니다.

설문지의 어떤 항목이 전체 항목에 대한 응답을 예측하는지 확인하기 위해 회귀 분석을 수행하고 싶습니다 (만족도).

전체 스케일을 만들기 위해 항목을 합산하거나 어쨌든 결합한 경우 회귀는 올바른 방법이 아닙니다. 아마도 요인 분석을 원할 것입니다.


요인 분석을 원할 수도 있지만 데이터가 정규 분포가 아닌 경우 요인 분석에도 영향을 미치지 않습니까?
간소화

연속적이지 않은 데이터에 대한 요인 분석을 수행 할 수 있습니다. 그러나 그것은 별도의 토론이며 여기서 논의되었습니다.
Peter Flom-Monica Monica 복원

1
Peter 안녕하세요, 귀하의 전문 지식에 감사 드리며 귀하의 조언을 크게 소중하게 생각합니다. 답변 해 주셔서 감사합니다. 명확히하기 위해, 나는 정규 분포가 아닌 항목에 대해 FA를 수행 할 수 있다는 것을 알고 있습니다 (잔차의 정규성에 대한 토론). OP가 같은 딜레마에 빠지지 않으면 (전문 지식을 가진 사람으로부터) 배우는 것이 궁금했습니다. 그러나, 나는 당신이 이미 :) 대답 가정
유선형

1

일반적으로 문제에 대한 두 가지 가능한 접근 방식이 있습니다. 하나는 이론적 관점에서 잘 정당화되지만 실제로는 구현이 불가능하고 다른 하나는 휴리스틱입니다.

이론적으로 최적의 접근법은 (실제로는 실제로는 사용할 수 없을 것입니다) 소위 최대 가능성 방법을 직접 적용하여 되돌려 서 회귀를 계산하는 것입니다. 최대 우도 추정 (실제로 선행적이고보다 기본적인 수학적 개념 임)과 OLS (일반 최소 제곱) 회귀 (일반적인 접근 방식, 관측 변수가 모두 독립적으로 랜덤하고 정규 분포를 갖는 특정이지만 매우 일반적인 경우에 유효한) )는 통계에 관한 많은 교과서에 설명되어 있습니다. 내가 특히 좋아하는 한 가지 토론은 Glen Cowan의 "통계 데이터 분석"섹션 7.1입니다. 관측 변수가 정규 분포를 따르지 않는 경우

이 경우 관측 변수를 지배하는 기본 분포를 실제로 알지 못하는 것처럼 보이기 때문에 (즉, 확실하게 알려진 것은 가우시안이 아니라 실제로는 아닙니다) 위의 접근 방식은 ' 당신을 위해 작동하지 않습니다. 일반적으로 OLS가 실패하거나 미친 결과를 반환하면 특이점이 너무 많기 때문입니다. OLS의 점은 회귀 곡선과의 편차에 대한 제곱에 의해 가중치가 적용되고 특이 치에 대해서는 해당 편차에 대해 가중치를 부여하기 때문에 정규 분포 분포 관측 변수의 가정을 실제로 위반하는 특이점은 적합치에 너무 많은 가중치를 부여합니다. 크다. 이 경우에 일반적인 휴리스틱 접근법은 OLS에 대한 약간의 조정 또는 수정을 개발하여 기준점 OLS 방법에 비해 특이점의 강조가 제거되거나 가중치가 줄어 듭니다. 통칭하여 이들은 일반적으로강력한 회귀 . 시도해 볼만한 확실한 추정 기술의 몇 가지 예가 포함 된 목록은 여기 에서 찾을 수 있습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.