예측 변수가없는 다중 회귀

다음과 같은 형식의 데이터가 제공되었다고 가정합니다. $(y,x_{1},x_{2},\cdots, x_{n})$ 과 $(y,x_{1},x_{2},\cdots, x_{n-1})$ . 우리는 예측의 임무가 주어진다 $y$ 의 가치에 따라 $x$ . 다음과 같은 두 가지 회귀를 추정합니다.

\begin{aligned} (1) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, x_{n}) \\ (2) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y &=f_{2}(x_{1},\cdots, x_{n-1}) \tag{2} \end{align}$

우리는 또한 값을 예측하는 회귀를 추정합니다. $x_{n}$ 의 가치에 따라 $(x_{1},\cdots, x_{n-1})$ , 그건:

\begin{matrix} (3) & x_{n} = f_{3} (x_{1}, \dots, x_{n - 1}) \end{matrix}

$x_{n}=f_{3}(x_{1},\cdots, x_{n-1}) \tag{3}$

이제 우리는 $(x_{1},\cdots, x_{n-1})$ 그러면 두 가지 다른 방법으로 예측할 수 있습니다 $y$ :

\begin{aligned} (4) & y & = f_{1} (x_{1}, \dots, x_{n - 1}, f_{3} (x_{1}, \dots, x_{n - 1})) \\ (5) & y & = f_{2} (x_{1}, \dots, x_{n - 1}) \end{aligned}

$\begin{align} y&=f_{1}(x_{1},\cdots, x_{n-1},f_{3}(x_{1},\cdots,x_{n-1})) \tag{4} \\ y&=f_{2}(x_{1},\cdots, x_{n-1}) \tag{5} \end{align}$

어느 쪽이 일반적으로 더 좋을까요?

첫 번째 방정식은 두 가지 데이터 포인트 형식의 정보를 활용하기 때문에 두 번째 방정식은 $n-1$ 예측 변수 값. 통계 교육이 제한되어 있으므로 전문적인 조언을 구하고 싶습니다.

또한 일반적으로 정보가 불완전한 데이터에 가장 적합한 방법은 무엇입니까? 다시 말해, 값이 전혀없는 데이터에서 가장 많은 정보를 추출하는 방법 $n$ 치수?

— 샤 오웬 리
소스

실제 추정과 추정 추정-당신이 결정 :)

— PhD

정말 간단합니까?

— Xiaowen Li

대답은 다를 수 있습니다. 얼마나 많은 데이터가 누락 되었습니까? 전체적으로 얼마나 많은 데이터가 있습니까? 몇 명의 예측자가 있습니까?

— Joel W.

+1, 나는 이것이 정말로 흥미롭고 명확하게 언급 된 질문이라고 생각합니다. 그러나 더 많은 정보는이 상황을 생각하는 데 도움이 될 것입니다.

예를 들어, 사이의 관계는 무엇입니까 $x_n$ 과 $y$ ? 회귀가 하나도 없을 수 있습니다. $(1)$ 회귀에 비해 이점이 없습니다 $(2)$ . (실제로 표준 오류가 약간 더 커지고 평균값이 실제 값보다 약간 더 높을 수 있다는 점에서 매우 작은 단점이 있습니다.) 함수 매핑이있는 경우 $x_n$ 에 $y$ 정의에 따라 실제 정보와 회귀가 있습니다. $(1)$ 초기 상황에서 더 나을 것입니다.

다음, 관계의 본질은 무엇입니까 $(x_1, \cdots, x_{n-1})$ 과 $x_n$ ? 하나 있습니까? 예를 들어, 실험을 수행 할 때 (보통) 설명 변수 값의 각 조합에 동일한 수의 연구 단위를 할당하려고합니다. (이 접근법은 IV 레벨의 여러 카티 전 곱을 사용하며 '전체 팩토리얼'디자인이라고합니다. 데이터를 저장하기 위해 레벨이 의도적으로 ' 소수 팩터 '디자인 이라고 불리는 경우도 있습니다.) 설명 변수는 직교이며 세 번째 회귀는 절대적으로 정확히 0을 산출합니다. 반면에 관측 연구에서 공변량은 거의 항상 상관됩니다. 상관 관계가 강할수록 정보가 덜 존재합니다. $x_n$ . 이러한 사실은 회귀의 상대적인 장점을 조정합니다 $(1)$ 회귀 $(2)$ .

그러나 (아쉽게도) 그보다 더 복잡합니다. 다중 회귀 분석에서 중요하지만 어려운 개념 중 하나는 다중 공선 성 입니다. 회귀를 추정하려고하면 $(4)$ 완벽한 다중 공선 성이 있다는 것을 알 수 있으며 소프트웨어는 설계 행렬이 돌이킬 수 없음을 알려줍니다. 따라서 회귀하는 동안 $(1)$ 회귀에 비해 이점을 제공 할 수 있음 $(2)$ 회귀 $(4)$ 하지 않을 것이다.

더 흥미로운 질문 (그리고 당신이 묻는 질문)은 회귀를 사용하면 어떻게 될까요? $(1)$ 에 대한 예측을 $y$ 추정을 사용하여 $x_n$ 회귀 예측에서 출력 된 값 $(3)$ ? (즉, 당신은 회귀를 추정 하지 않습니다. $(4)$ — 회귀로 추정 된 예측 방정식의 출력을 연결합니다. $(3)$ 예측 모델로 $(4)$ .) 여기서 실제로 새로운 정보를 얻지 못한다는 것입니다. 첫 번째에 존재하는 정보 $n-1$ 각 관측치의 예측 변수 값은 이미 회귀 분석에 의해 최적으로 사용되고 있습니다 $(2)$ 따라서 이득이 없습니다.

따라서 첫 번째 질문에 대한 답은 회귀 분석과 함께 갈 수도 있다는 것입니다. $(2)$ 불필요한 작업을 절약하기위한 예측 누군가가 당신에게 두 개의 데이터 세트를 건네주는 구체적인 상황을 다루기보다는 상당히 추상적 인 방법 으로이 문제를 해결했습니다 (이것은 상상할 수 없습니다). 대신, 나는이 질문이 회귀의 본질에 대해 상당히 깊은 것을 이해하려고 노력하고 있다고 생각합니다. 그러나 때때로 발생하는 것은 일부 관측치에 모든 예측 변수에 대한 값이 있고 일부 다른 관측치 (동일한 데이터 집합 내)에 일부 예측 변수에 대한 일부 값이 누락 된 것입니다. 이것은 세로 데이터를 다룰 때 특히 일반적입니다. 이러한 상황에서는 다중 대치 를 조사하려고합니다 .

— gung-복직 모니카
소스

자세한 답변에 대해 Gung에게 감사하고 내 질문의 문구를 수정하는 데 도움을줍니다. 답변을 완전히 해석하면 답변 해 드리겠습니다. 참고로, 이것은 전구 가격에 대한 관찰 연구입니다.

x_{n}

$x_n$ 전구의 수명, 광도 및 색온도를 포함합니다. 일반적으로 모든 것을 제공하지 않는 소매점에서 정보가 수집되어 예측 변수가 누락됩니다. 그럼에도 불구하고 우리는 수집 한 정보를 최대한 활용하려고합니다.

— Xiaowen Li

저는 이것이 회귀를 이해하는 것이라고 생각했습니다. 나는 여러 대치로 조사 할 것입니다.

— gung-모니 티 복원

통찰력을 주셔서 감사합니다. 방정식 4를 사용하여 새로운 정보를 얻지 못하는 것은 옳습니다. 대치가 정확히 필요한 것으로 밝혀졌습니다. 그리고 당신은 옳습니다. 저는 다중 공선 성을 보았으므로 계수에 대해 매우 큰 p 값을 얻었습니다. 그런 다음 변수 수를 줄이면 계수에 대해 더 작은 p 값을 얻거나 더 큰 값을 얻습니다.

r^{2}

$r^2$ 더 큰 p. 인생은 절충으로 가득 차 있다고 생각합니다.

— Xiaowen Li

회귀에 대한 추상적 토론에 다시 한 번 감사드립니다. 통계를 진실을 찾는 방법으로 보면 통계는 흥미로울 수 있습니다. 데이터 세트가 완료되면 더 자세히 살펴 보겠습니다. :

— Xiaowen Li

파라 메트릭 분수 대치를 확인해야합니다. 이것은 아이오와 주에서 김재광이 수행 한 작업으로이 상황에 완벽 할 수 있습니다. 참조 biomet.oxfordjournals.org/content/98/1/119.abstract

— StatsStudent