잔차의 크기로 데이터 세트를 계층화하고 2- 표본 비교를 수행하는 것이 전혀 방어력이 있습니까?


16

이것은 내가 일종의 ad-hoc 방법으로 수행하는 것으로 보이며 매우 비린 것처럼 보이지만 아마도 뭔가를 놓치고 있습니다. 다중 회귀 분석 에서이 작업을 수행했지만 간단하게 유지합시다.

yi=β0+β1xi+εi

이제 적합 모형에서 잔차를 가져옵니다.

ei=yi(β^0+β^1xi)

잔차의 크기에 따라 샘플을 층화합니다. 예를 들어, 첫 번째 표본이 잔차의 최하위 90 %이고 두 번째 표본이 상위 10 %라고 가정하고 두 번의 표본 비교를 수행합니다. 모형의 예측 변수 인 와 모형에없는 변수 비공식 논리는 아마도 모델에서 기대하는 것보다 훨씬 높은 값을 가진 점들 (즉, 큰 잔차)이 어떤 방식 으로든 다르고 그 차이가 이런 식으로 조사된다는 것입니다.엑스

이 주제에 대한 나의 생각은 :

  • 모형의 예측 변수에 2- 표본 차이가있는 경우 모형의 현재 상태 (예 : 비선형 효과)로 예측되지 않은 예측 변수의 효과가 있습니다.
  • 모형에없는 변수에 대해 2- 표본 차이가 표시되면 처음에 모형에 있었던 것일 수 있습니다.

내가 경험적으로 (모의를 통해) 찾은 것 중 하나는 모형 에서 예측 변수의 평균을 비교 하고이 방법으로 층화하여 두 개의 표본 평균 ¯ x 1¯ x 2 를 생성하는 경우 서로 긍정적으로 관련되어 있습니다. 두 샘플은에 의존 때문에 말이 ¯의 Y , ¯ X , σ X , σ Yρ X Yxx¯1x¯2y¯,x¯,σ^x,σ^yρ^xy. 컷오프를 낮추면 (즉, 샘플을 나누는 데 사용하는 %) 상관 관계가 증가합니다. 따라서 최소한 2 표본 비교를 수행하려면 통계 분모의 표준 오차를 조정하여 상관 관계를 설명해야합니다. 공분산).t

어쨌든 내 기본 질문은 :이 작업을 수행 할 근거가 있습니까? 그렇다면 어떤 상황에서 이것이 유용한 일이 될 수 있습니까? 분명히 나는 ​​생각하지 않지만 올바른 방식으로 생각하지 않는 것이있을 수 있습니다.


두 샘플 비교에서 동일한 IVs를 사용합니까? 그렇다면 잔여 분할이 이미 해당 정보를 사용하고 있기 때문에이 점을 알 수 없습니다. 당신이 이것을 본 곳의 예를 들어 줄 수 있습니까?
Michelle

1
글쎄, 하나는 아마도 모델이 잘못 지정되었는지 여부를 확인하기 위해 진단으로 사용될 수 있다는 것입니다. 어떻게 생각하십니까?
Macro

3
위의 의견에서 제안한 것처럼 문제가있는 점을 식별하거나 비선형 효과가 누락 된 진단 도구 이외의 다른 점은 볼 수 없습니다. OP의 두 가지 점 ( "피사체에 대한 생각 ...")이 꽤 좋은 것 같습니다.
피터 엘리스

1
이 기술은 Loh와 그의 공동 저자가 자신의 트리 알고리즘 SUPPORT 및 GUIDE에서 분할 변수를 결정하는 데 사용됩니다. 데이터 세트는 이러한 방식으로 분할되므로 비선형 영향 (단계별 함수에 의해 제공됨)을 찾고 변수가 실제로 잊혀 졌는지 판별하는 것으로 생각할 수 있습니다. 나는 그것이 영리한 것인지 궁금해하는 것을 기억합니다. 아마도 그들의 논문에서 더 많은 설명을 찾을 수 있습니다 (기억하지 않습니다).
Momo

답변:


8

평균 비교가 너무 약합니다. 대신 분포를 비교하십시오.

크기 를 비교하는 것이 더 바람직한 지에 관한 질문도 있습니다 of the residuals (as stated) or to compare the residuals themselves. Therefore, I evaluate both.

To be specific about what is meant, here is some R code to compare (x,y) data (given in parallel arrays x and y) by regressing y on x, dividing the residuals into three groups by cutting them below quantile q0 and above quantile q1>q0, and (by means of a qq plot) comparing the distributions of x values associated with those two groups.

test <- function(y, x, q0, q1, abs0=abs, ...) {
  y.res <- abs0(residuals(lm(y~x)))
  y.groups <- cut(y.res, quantile(y.res, c(0,q0,q1,1)))
  x.groups <- split(x, y.groups)
  xy <- qqplot(x.groups[[1]], x.groups[[3]], plot.it=FALSE)
  lines(xy, xlab="Low residual", ylab="High residual", ...)
}

이 함수의 다섯 번째 인수 abs0는 기본적으로 잔차의 크기 (절대 값)를 사용하여 그룹을 형성합니다. 나중에 잔차를 사용하는 함수로 대체 할 수 있습니다.

잔차는 특이점, 외인성 변수와의 가능한 상관 관계, 적합도 및 동질성 등 많은 것을 감지하는 데 사용됩니다. 특이 치는 그 특성상 소수이고 고립되어 있어야하므로 여기서 의미있는 역할을하지 않을 것입니다. 이 분석을 간단하게 유지하기 위해 마지막 두 가지, 즉 적합도 (즉,엑스-와이관계) 및 동질성 (즉, 잔차 크기의 불변성). 시뮬레이션을 통해이를 수행 할 수 있습니다.

simulate <- function(n, beta0=0, beta1=1, beta2=0, sd=1, q0=1/3, q1=2/3, abs0=abs,
                     n.trials=99, ...) {
  x <- 1:n - (n+1)/2
  y <- beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd)
  plot(x,y, ylab="y", cex=0.8, pch=19, ...)
  plot(x, res <- residuals(lm(y ~ x)), cex=0.8, col="Gray", ylab="", main="Residuals")
  res.abs <- abs0(res)
  r0 <- quantile(res.abs, q0); r1 <- quantile(res.abs, q1)
  points(x[res.abs < r0], res[res.abs < r0], col="Blue")
  points(x[res.abs > r1], res[res.abs > r1], col="Red")
  plot(x,x, main="QQ Plot of X",
       xlab="Low residual", ylab="High residual",
       type="n")
  abline(0,1, col="Red", lwd=2)
  temp <- replicate(n.trials, test(beta0 + beta1 * x + beta2 * x^2 + rnorm(n, sd=sd), 
                             x, q0=q0, q1=q1, abs0=abs0, lwd=1.25, lty=3, col="Gray"))
  test(y, x, q0=q0, q1=q1, abs0=abs0, lwd=2, col="Black")
}

이 코드는 선형 모델을 결정하는 인수를 허용합니다. 계수 와이β0+β1엑스+β2엑스2, 오차항의 표준 편차 sd, Quantiles01, 크기 함수 abs0및 시뮬레이션에서 독립적 인 시행 횟수 n.trials. 첫 번째 주장 n은 각 시행에서 시뮬레이션 할 데이터의 양입니다. 그것은 일련의 플롯을 생성합니다.(엑스,와이)제안 된 테스트가 주어진 모델에 대해 어떻게 작동하는지 이해하는 데 도움이되도록 (예 : n베타,sd). Examples of these plots appear below.

이제이 도구를 사용하여 잔차의 절대 값을 사용하여 비선형 성과 이분산성의 현실적인 조합을 탐색 해 보겠습니다.

n <- 100
beta0 <- 1
beta1 <- -1/n
sigma <- 1/n

size <- function(x) abs(x)
set.seed(17)
par(mfcol=c(3,4))
simulate(n, beta0, beta1, 0, sigma*sqrt(n), abs0=size, main="Linear Homoscedastic")
simulate(n, beta0, beta1, 0, 0.5*sigma*(n:1), abs0=size, main="Linear Heteroscedastic")
simulate(n, beta0, beta1, 1/n^2, sigma*sqrt(n), abs0=size, main="Quadratic Homoscedastic")
simulate(n, beta0, beta1, 1/n^2, 5*sigma*sqrt(1:n), abs0=size, main="Quadratic Heteroscedastic")

출력은 플롯 세트입니다. 상단 행은 하나의 시뮬레이션 된 데이터 세트를 보여주고 , 두 번째 행은 잔차의 산점도를 보여줍니다엑스(quantile로 색상 코드화 됨 : 큰 값의 경우 빨간색, 작은 값의 경우 파란색, 더 이상 사용되지 않는 중간 값의 경우 회색), 세 번째 행에는 모든 시행에 대한 qq 플롯이 표시되고 시뮬레이션 된 데이터 세트에 대한 qq 플롯은 검은. 개별 QQ 플롯은엑스 높은 잔차와 관련된 값 엑스낮은 잔차와 관련된 값; 여러 번의 시도 끝에 qq 플롯이 회색으로 나타납니다. 우리는 이러한 봉투가 기본 선형 모델에서 벗어남에 따라 어떻게 그리고 얼마나 강하게 변화하는지에 관심이 있습니다. 강한 변화는 좋은 차별을 의미합니다.

Absolute values

마지막 3 개의 열과 첫 번째 열의 차이점으로 인해이 방법이 이분산성을 감지 할 수 있지만 중간 정도의 비선형 성을 식별하는 데 그렇게 효과적이지 않을 수 있습니다. 비선형 성을 이분산성과 혼동 할 수 있습니다. 여기에서 시뮬레이션되는 이분산성의 형태 (일반적인)는 잔차 추세의 예상 크기가엑스. 이러한 추세는 쉽게 감지 할 수 있습니다. 반면에 2 차 비선형 성은 양쪽 끝과 중간에 큰 잔차를 생성합니다.엑스가치. 영향을받는 분포를 살펴보면 구분하기가 어렵습니다.엑스 가치.

정확히 같은 데이터 를 사용하지만 잔차 자체를 분석 하여 동일한 작업을 수행하십시오 . 이를 위해이 코드를 수정 한 후 이전 코드 블록을 다시 실행했습니다.

size <- function(x) x

Residuals

이 변형은 이분산성을 잘 감지하지 못합니다. 처음 두 열에서 qq 플롯이 얼마나 유사한 지보십시오. 그러나 비선형 성을 감지하는 데 효과적입니다. 잔차가엑스중간 부분과 바깥 부분에 있습니다. 그러나 가장 오른쪽 열에 표시된 것처럼 이분산성은 비선형 성을 마스킹 할 수 있습니다.

아마도이 기술을 결합 하면 효과 가 있습니다. 이러한 시뮬레이션 (및 관심있는 독자가 여가 시간에 실행할 수있는 변형)은 이러한 기술에 장점이 없음을 보여줍니다.

그러나 일반적으로 잔차를 표준 방식으로 검사하여 훨씬 나은 서비스를 제공합니다. 자동화 된 작업을 위해 잔차 플롯에서 찾는 종류를 감지하기위한 공식 테스트가 개발되었습니다. 예를 들어, Breusch-Pagan 검정 은 (절대 값이 아닌) 제곱 잔차를 회귀 분석합니다.엑스. 이 질문에서 제안 된 테스트는 같은 정신으로 이해 될 수 있습니다. 그러나, 데이터를 단지 두 그룹으로 비닝함으로써 그에 의해 제공되는 대부분의 이변 량 정보 를 무시함으로써(엑스,와이^엑스)쌍, 우리는 제안 된 시험은 Breusch - 이교도와 같은 회귀 기반의 테스트를보다 강력 할 것으로 예상 할 수있다 .


2

나는 당신의 두 가지 요점에 동의합니다. 모형이 부적절하면 잔차가 거의 독립적이고 동일하게 분포되지 않을 수 있습니다. 중요한 변수가 누락되었거나 회귀 변수의 기능적 형식이 잘못되었을 수 있습니다. 이 경우 표준 회귀 진단을 사용하여 문제가 아닌 문제를 식별하십시오. 또한 올바른 기능적 형태로 모델에 올바른 변수를 가질 수 있지만 여전히 일정하지 않은 분산이 있습니다. 이것은 단지이자형나는 에 맞서 엑스나는. 어떤 형태의 잔차를 통해 모델에서 특이 치를 찾고 싶다고 말하는 지점을 볼 수 있지만, 그것들을 감지하기위한 영향 함수 접근법을 권장합니다. 이 절차가 무엇을 수행하는지 알 수 없습니다.

다른 사람들은 이것이 두 데이터 세트가 별도로 모델링되어야하는지 확인하기위한 탐색 도구 일 수 있다고 언급했습니다. 이 경우이 방법 및 다른 탐색 방법으로도 가능할 수 있습니다. 그러나 질문은 다음에 무엇을합니까? 그런 다음 두 개의 개별 회귀 분석을 수행하고 샘플에 대한 추론을 이끌어 내려면 어떻게 든 샘플을 나누는 방식을 고려해야합니다.


0

예를 들어 잔차가 일정하다고 가정하고 언급 한 방법이 관측치의 식별에 도움이 될 수 있다고 가정하면 두 번째 단계에서 "수정 된"추정값이 제공됩니다. 그러나 외부 탐지를 수행하거나 Quantile 회귀 분석, LMS (최소 중앙값 제곱) 또는 M 추정기 등 이러한 관측의 존재에 강한 추정기를 제공하는보다 엄격한 기술이 있습니다. 알려진 통계적 속성. (@Michael Chernik에 의해 추가되었습니다)

다른 동기는 클러스터 식별 일 수도 있지만, 잘 정의되고 널리 구현 된 클러스터 감지에 사용 가능한 기술과 비교할 때 기본적입니다.

두 경우 모두 잔차를 사용하는 것은 비공식적이고 원시적이지만 여전히 탐색 도구로 허용 될 수 있습니다. 또한 독자의 도메인에 따라 다릅니다. 양적 도구가 덜 인기가있는 일부 사회 과학에서는 이것이 받아 들여질 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.