답변:
상관 행렬이 특이점에 가까운 경우 (즉, 변수의 상관 관계가 높은 경우) 능형 회귀 접근을 시도 할 수 있습니다 . 강력한 추정치를 제공합니다 .
유일한 질문은 정규화 매개 변수 를 선택하는 방법 입니다. 다른 문제를 시도하는 것이 좋지만 간단한 문제는 아닙니다.
도움이 되었기를 바랍니다!
lm.ridge
MASS 패키지에서 루틴을 사용할 수 있습니다 . 예를 같은 호출 에 의 값 범위를 전달하면 의 일반화 된 교차 유효성 검사 통계를 다시 가져 와서 : 에 대해 플로팅 하여 최소값을 선택할 수 있습니다. λfoo <- lm.ridge(y~x1+x2,lambda=seq(0,10,by=0.1))
foo
plot(foo$GCV~foo$lambda)
글쎄, 내가 전에 사용한 한 가지 특별한 방법이 있습니다. 이 절차에 이름이 있는지 확실하지 않지만 직관적으로 의미가 있습니다.
목표가 모델을 맞추는 것이라고 가정하십시오.
여기서 두 예측 변수 인 는 서로 관련이 있습니다. 당신이 지적했듯이, 같은 모델에서 둘 다 사용하면 계수 추정치와 값에 이상한 일을 할 수 있습니다 . 대안은 모델을 맞추는 것입니다 p
그러면 잔차 는 와 상관이 없으며 어떤 의미에서는 와의 선형 관계에 포함되지 않은 의 일부로 생각할 수 있습니다 . 그런 다음 모델에 맞게 진행할 수 있습니다X i Z i X i
이는 첫 번째 모형의 모든 효과를 포착하고 (실제로 첫 번째 모형과 정확히 동일한 를 가짐 ) 예측 변수는 더 이상 동일 선상에 있지 않습니다.
편집 : OP는 인터셉트가 포함될 때와 같이 인터셉트를 생략 할 때 예측 변수와 잔차가 왜 예측 변수와 0의 상관 관계를 갖지 않는지에 대한 설명을 요청했습니다. 의견을 게시하기에 너무 길어서 여기에서 수정했습니다. 이 파생은 특별히 밝아지지는 않지만 (불행히도 합리적인 직관적 인 주장을 제기 할 수 없었습니다) OP가 요청한 것을 보여줍니다 .
절편은 단순 회귀 분석에서 생략 될 때 , 이므로 . 와 사이의 샘플 상관은 비례합니다. 여기서 은 막대 아래 수량의 샘플 평균을 나타냅니다. 이제 이것이 반드시 0과 같지는 않다는 것을 보여줄 것입니다. ei=yi−xi∑xiyi xiei
먼저 우리는
그러나
그래서 위해서는 및 정확히 0의 샘플 상관 관계를 가지고, 우리는 필요 로 . 즉,
일반적으로 두 개의 임의의 데이터 세트 대해서는 유지되지 않습니다 .
나는 지금까지 주어진 두 가지 대답을 모두 좋아합니다. 몇 가지를 추가하겠습니다.
다른 옵션은 변수를 결합 할 수도 있다는 것 입니다. 이는 두 가지를 모두 표준화 (즉, z- 점수로 변환)하여 평균화 한 다음 복합 변수 만 사용하여 모델을 피팅함으로써 수행됩니다. 이것은 동일한 기본 구조의 두 가지 다른 측정치라고 생각할 때 좋은 접근 방법입니다. 이 경우 오류로 오염 된 두 가지 측정 값이 있습니다. 실제로 변수에 가장 가능성이 높은 값그들 사이의 관심은 그들 사이에 있으므로 평균화하면 더 정확한 추정치가됩니다. 공칭 문제가 결과를 오염시키지 않도록 먼저 동일한 규모로 배치하도록 표준화합니다 (예 : 일부는 화씨이고 일부는 섭씨 인 경우 여러 온도 측정의 평균을 원하지 않습니다). 물론, 이미 같은 규모 (예 : 상관 관계가 높은 여론 조사)가있는 경우 해당 단계를 건너 뛸 수 있습니다. 변수 중 하나가 다른 변수보다 정확하다고 생각되면 가중 평균을 수행 할 수 있습니다 (아마도 측정 오류의 역수를 사용).
변수가 동일한 구문의 다른 측정 값이고 충분히 높은 상관 관계가있는 경우 많은 정보를 잃지 않고서도 실제로이를 폐기 할 수 있습니다. 예를 들어, 실제로는 한 번의 상황에서 오류 분산과 부스트 전력을 흡수하기 위해 공변량을 사용하고 싶었지만 공변량에 대해서는 신경 쓰지 않았습니다. 실제로 독일 적이지는 않았습니다. 몇 가지 옵션을 사용할 수 있었고 모두 과 서로 관련이있었습니다 . 나는 기본적으로 무작위로 하나를 골라 움직였으며 잘 작동했습니다. 다른 전략을 사용하여 다른 전략도 포함 시켰다면 2 자유도를 타는 전력 을 잃어버린 것 같습니다 . 물론, 나는 그들을 결합 할 수 있지만 왜 귀찮게합니까? 그러나 이것은 변수가 같은 두 가지 버전 이기 때문에 상관 관계가 있다는 사실에 크게 좌우됩니다 . 서로 관련이있는 다른 이유가있는 경우 이는 완전히 부적절 할 수 있습니다.
즉, 상관 변수 뒤에 무엇이 있는지 생각하는 것이 좋습니다. 즉, 어떤 전략을 사용할지 선택하는 데 최고의 역할을하기 위해 왜 이들이 서로 밀접하게 관련되어 있는지에 대한 이론이 필요합니다 . 동일한 잠재 변수에 대한 다양한 측정 값 이외에도 인과 사슬 (예 : ) 및 변수가 여러 인과 관계 힘의 결과 인 복잡한 상황 일 수 있습니다. 둘 다 동일합니다. 아마도 가장 극단적 인 경우는 @whuber가 아래 주석에서 설명하는 서프 레서 변수입니다. 예를 들어 @Macro의 제안은 주로 관심이 있고 의 추가 기여에 대해 궁금 하다고 가정합니다.X Z X x 1 x 2 X Z 의 기여 를 설명한 후 . 따라서 변수가 서로 관련이있는 이유와 알고 싶은 것이 무엇인지 생각하면 어떤 것으로 (즉, 또는 ) 및 어떤 로 취급 할지 결정하는 데 도움이됩니다 . 핵심은 이론적 통찰력 을 사용 하여 선택을 알리는 것입니다.
참조 - 나는 당신이 원래 의도했던 변수를 사용 할 수 있습니다 그들이 바이어스됩니다 있지만 (아주 가까운 그들의 진정한 값이다 수율 베타 가능성이 있기 때문에 그 능선 회귀, 틀림없이 더 나은 동의 여기 또는 여기에 대한 자세한 내용은 ). 그럼에도 불구하고, 나는 또한 두 가지 잠재적 단점이 있다고 생각합니다.
아마도 궁극적 인 접근 방식은 구조 방정식 모델에 적합 할 것입니다. 잠재 변수를 포함하여 작동한다고 생각되는 정확한 관계 세트를 공식화 할 수 있기 때문입니다. 그러나 나는 가능성을 언급하는 것 외에는 SEM에 대해 충분히 말할 수 없습니다. (또한 두 개의 공변량으로 설명하는 상황에서 과잉이 될 것이라고 생각합니다.)