25

I 다소 혼란있어 만약 독립 변수 통계 모델 (또한 예측 또는 기능이라고 함), 예를 들면, 선형 회귀에서 , 랜덤 변수는? $X$ $Y=\beta_0+\beta_1 X$

— l7ll7
소스

12

선형 모델은 조건부 이므로 임의인지 여부는 중요하지 않습니다.

X

$X$

— 시안

4

이것을 확인 하십시오 . 좋은 질문입니다, BTW.

— Antoni Parellada

@ Xi'an, 고정 설계에서 선형 모델 가정은 에 따라 조정되지 않습니다 . 내 답변을 참조하십시오. 그래서 그것은 중요합니다. 이것이 실험 결과가 관측 연구 결과보다 훨씬 이해하기 쉬운 이유입니다.

X

$X$

— Aksakal

19

선형 회귀 분석에는 두 가지 일반적인 공식이 있습니다. 개념에 초점을 맞추기 위해 개념을 다소 추상화하겠습니다. 수학적 설명은 영어 설명보다 조금 더 복잡하므로 후자부터 시작하겠습니다.

선형 회귀 는 선형 맵 를 통해 회귀 의해 결정된 분포 와 가능하면 다른 매개 변수 의해 응답 가 랜덤 한 것으로 가정 되는 모델입니다 . $Y$ $X$ $\beta(X)$ $\theta$

대부분의 경우 가능한 분포 세트는 매개 변수가 및 위치 패밀리 이며 는 매개 변수 제공합니다 . 원형 적 예는 통상의 회귀 분포들의 세트는 일반 가정 인 및 회귀 변수의 선형 함수이다. $\alpha$ $\theta$ $\beta(X)$ $\alpha$ $\mathcal{N}(\mu, \sigma)$ $\mu=\beta(X)$

아직 수학적으로 설명하지 않았기 때문에 $X$ , $Y$ , $\beta$ 및 $\theta$ 어떤 종류의 수학적 객체를 가리키는 지 여전히 의문의 여지 가 있습니다.이 스레드의 주요 문제라고 생각합니다. 다양한 (동등한) 선택을 할 수 있지만, 대부분 다음 설명과 동일하거나 특별한 경우입니다.

고정 회귀 기 회귀은 실제 벡터로서 표현 $X\in\mathbb{R}^p$ . 응답 랜덤 변수 인 $Y:\Omega\to\mathbb{R}$ (여기서 $\Omega$ 시그마 필드 확률을 부여한다). 모델 함수 인 $f:\mathbb{R}\times\Theta\to M^d$ (또는, 원하는 경우, 함수의 집합 $\mathbb{R}\to M^d$ 에 의해 파라미터 $\Theta$ ). $M^d$ 는 확률 분포 공간의 차원 ( $d$ )의 유한 치수 토폴로지 (보통 제 2 미분 가능) 서브 매니 폴드 (또는 경계를 갖는 서브 매니 폴드)이다 . $f$ 는 일반적으로 연속적이거나 충분히 차별화 가능한 것으로 간주됩니다. $\Theta\subset\mathbb{R}^{d-1}$ 은 "방해 변수"입니다. 분포 것으로한다 $Y$ 인 $f(\beta(X), \theta)$ 알려지지 듀얼 벡터 $\beta\in\mathbb{R}^{p*}$ (이하 "회귀 계수") 및 알 $\theta\in\Theta$ . 우리는 이것을 라고 쓸 수있다
$Y \sim f (β (X), θ) .$ $Y \sim f(\beta(X), \theta).$
무작위 회귀 자. 회귀 변수 및 반응은 $p+1$ 차원 벡터 값 랜덤 변수 $Z = (X,Y): \Omega^\prime \to \mathbb{R}^p \times \mathbb{R}$ 입니다. 모델 $f$ 는 이전과 같은 종류의 객체이지만 이제 조건부 확률
$Y | X \sim f (β (X), θ) .$ $Y|X \sim f(\beta(X), \theta).$

수학적 설명은 데이터에 적용되는 방법을 알려주는 처방전 없이는 쓸모가 없습니다. 고정 회귀 분석기의 경우 실험자에 의해 지정된 $X$ 를 생각합니다. 따라서 제품 시그마 대수가 부여 된 제품 으로 $\Omega$ 을 보는 것이 도움이 될 수 있습니다 . 실험자는 결정 하고 자연은 (일부 알려지지 않은, 추상적 인) 합니다. 랜덤 회귀 분석의 경우, 자연 은 랜덤 변수 의 성분 인 결정합니다. $\mathbb{R}^p\times \Omega^\prime$ $X$ $\omega\in\Omega^\prime$ $\omega\in\Omega^\prime$ $X$ $\pi_X(Z(\omega))$ 결정 $X$ (어느 것이 "관찰")으로 우리가 지금 순서쌍을 $(X(\omega), \omega)) \in \Omega$ 정확하게 고정 회귀의 경우와 마찬가지로.

다중 선형 회귀의 전형적인 예 (이보다 일반적인 객체 대신 표준 표기법을 사용하여 표현할 것입니다)는 일부 상수 대해

f (β (X), σ) = N (β (x), σ)

$f(\beta(X), \sigma)=\mathcal{N}(\beta(x), \sigma)$ 입니다

. 마찬가지로

걸쳐 변화

A - 그 이미지 differentiably 일차원 서브셋 추적 한 곡선 정상 분포의 2 차원의 매니 폴드를 이대로 더.

σ \in Θ = R^{+}

$\sigma \in \Theta = \mathbb{R}^{+}$

x

$x$

R^{p}

$\mathbb{R}^p$

시 - whatsoever-- 어떤 방식 $\beta$ 다음과 같이 추정된다 및 로서 의 값 은 IS 예측값 의 와 연관된 --whether 실험자에 의해 제어된다 (케이스 1 ) 또는 관찰 된 경우 만 (사례 2). 우리가 어느 값 (케이스 1)를 설정하거나 실현 (케이스 2)를 관찰하는 경우 의 , 그 응답 그와 연관된 그 분포 랜덤 변수 $\hat\beta$ $\sigma$ $\hat\sigma$ $\hat\beta(x)$ $Y$ $x$ $x$ $x$ $X$ $Y$ $X$ $\mathcal{N}(\beta(x), \sigma)$ 알 수 있지만,추정수 $\mathcal{N}(\hat\beta(x), \hat\sigma)$ .

— 우버
소스

나는 이것이 환상적인 답변이라고 말할 수 있습니다. (아마도 모든 사람에게 해당되는 것은 아닙니다).

— l7ll7

2

추신 당신은 여기에서했던 것처럼이 기본적인 질문이 정확하게 설명 된 어떤 책을 알고 있습니까? 수학자로서, 내가 찾은 모든 책은 수학적인 관점에서 훨씬 덜 정확한 다른 답변을 여기에 반영했습니다. (이것은 물론 그것들을 나쁘게 만들지는 않습니다. 단지 그 책들이 저를위한 것이 아닙니다. 저는이 답변과 같이 더 정확한 책을 좋아할 것입니다.)

— l7ll7

마지막 문단의 첫 번째 문장 아니다

에 대한 예측 값

(랜덤 변수의 실현

,하지에 대한 예측값)

? 아니면 내가 당신의 언어를 오해, 그리고 "에 대한 예측 값이

수단", "때 예측 값을

집합 (관찰) 값

?"

\hat{β} (x)

$\hat{\beta}(x)$

y

$y$

Y

$Y$

x

$x$

x

$x$

x

$x$

X

$X$

— 차드

1

@Chad 모호한 언어를 지적 해 주셔서 감사합니다. 나는 당신의 이해와 일치하는 의미를 명확히하기 위해 그 문장을 편집했습니다.

— whuber

7

우선 @whuber는 훌륭한 답변을하였습니다. 텍스트에 대한 참조와 함께 다른 의미로, 더 간단한 의미로 설명하겠습니다.

자극

는 회귀 제형에서 무작위이거나 고정 될 수있다. 이것은 당신의 문제에 달려 있습니다. 소위 관찰 연구의 경우 무작위이어야하며 실험의 경우 일반적으로 고정됩니다. $X$

예 하나. 저는 전자파 노출이 금속 부분의 경도에 미치는 영향을 연구하고 있습니다. 그래서, 나는 금속 부분의 몇 가지 샘플을 채취하여 다양한 수준의 방사선에 노출시킵니다. 내 노출 수준은 X이며 선택한 수준으로 설정했기 때문에 고정되어 있습니다. 실험 조건을 완전히 제어하거나 최소한 시도합니다. 온도 및 습도와 같은 다른 매개 변수로도 동일한 작업을 수행 할 수 있습니다.

예 2 신용 카드 응용 프로그램에서 사기 발생 빈도에 대한 경제의 영향을 연구하고 있습니다. 따라서 GDP에 대한 사기 사건 수를 되돌립니다. GDP를 통제하지 않고 원하는 수준으로 설정할 수 없습니다. 또한 다변량 회귀 분석을 원할 수 있으므로 실업과 같은 다른 변수가 있으며 이제 X에는 값의 조합이 있지만 관찰 할 수 는 있지만 제어하지는 않습니다. 이 경우 X는 랜덤 입니다.

예 3. 실험실 조건이 아니라 실제 실험 농장에서 현장에서 새로운 농약의 효능을 연구하고 있습니다. 이 경우 무언가를 제어 할 수 있습니다. 예를 들어 살충제 양을 제어 할 수 있습니다. 그러나 날씨 나 토양 조건과 같은 모든 것을 제어하지는 않습니다. 좋아, 토양을 어느 정도 통제 할 수는 있지만 완전히 할 수는 없습니다. 이것은 중간 조건이며 일부 조건이 관찰 되고 일부 조건이 제어 됩니다. 농업 연구가 가장 큰 응용 분야 중 하나 인이 세 번째 사례에 중점을 둔 실험 설계 라는 전체 연구 분야가 있습니다.

수학

여기 답의 수학적 부분이 있습니다. Gauss-Markov 조건이라고하는 선형 회귀를 연구 할 때 일반적으로 제시되는 일련의 가정이 있습니다. 그들은 매우 이론적이며 아무도 실제적인 환경을 유지하고 있음을 입증하지 않습니다. 그러나 OLS (일반 최소 제곱) 방법의 한계를 이해하는 데 매우 유용합니다.

따라서 랜덤 및 고정 X의 가정은 관측 및 실험 연구와 거의 일치합니다. 대략, 세 번째 예에서 보았 듯이 때로는 극단 사이에 있기도합니다. Salkind의 Research Design 백과 사전에서 "Gauss-Markov"정리 섹션은 시작하기에 좋은 곳 이며 Google 도서 에서 제공 됩니다.

고정 설계의 다른 가정은 일반적인 회귀 모형 대해 다음과 같습니다 . $Y=X\beta+\varepsilon$

$E[\varepsilon]=0$
동질성, $E[\varepsilon^2]=\sigma^2$
연속 상관 없음, $E[\varepsilon_i,\varepsilon_j]=0$

무작위 설계에서 동일한 가정 vs.

$E[\varepsilon|X]=0$
동질성, $E[\varepsilon^2|X]=\sigma^2$
직렬 상관 관계 없음, $E[\varepsilon_i,\varepsilon_j|X]=0$

보시다시피 차이점은 랜덤 디자인의 디자인 매트릭스에 대한 가정을 조정하는 것입니다. 컨디셔닝은 이러한 강력한 가정을 만듭니다. 예를 들어, 고정 설계 에서처럼 오류의 평균이 0이라고 말하는 것이 아닙니다. 랜덤 디자인에서 우리는 그것들이 X, 공변량에 의존하지 않는다고 말합니다.

— 악사 칼
소스

2

통계에서 랜덤 변수 는 어떤 방식 으로든 무작위로 변하는 수량입니다. 이 우수한 CV 스레드 에서 "랜덤 변수"란 무엇입니까?

회귀 모형에서 예측 변수 (X- 변수, 설명 변수, 공변량 등)는 고정되어 있고 알려진 것으로 가정합니다 . 그것들은 무작위로 가정되지 않습니다. 모형의 모든 랜덤 성은 오차항에있는 것으로 가정합니다. 표준으로 공식화 된 간단한 선형 회귀 모델을 고려하십시오.
오차 항 은 랜덤 변수이며 모형의 랜덤 소스입니다. 오류 항의 결과로 도 랜덤 변수입니다. 그러나 는 임의의 변수로 가정되지 않습니다. (물론실제로는 임의의 변수일 수 있지만 모델에 반영되거나 반영되지는 않습니다.)

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y = \beta_0 + \beta_1 X + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$

ε

$\varepsilon$

Y

$Y$

X

$X$

— gung-복직 모니카
소스

따라서

는 상수입니까? 그것이 수학적인 관점에서

를 이해하는 유일한 방법이기 때문에 ,

은 랜덤 변수이고 덧셈은 "다른 것"+ 랜덤 변수가 아닌 두 개의 랜덤 변수 사이에서만 정의되기 때문입니다. 두 개의 임의 변수 중 하나가 일정 할 수 있지만 이것이 내가 참조하는 경우입니다.

X

$X$

X

$X$

ε

$\varepsilon$

— l7ll7

추신 : 나는 그 링크 에서 모든 설명을 보았지만 그다지 밝게 보이지 않았습니다. 왜? 확률 론자들이 변수를 이해하고 통계 학자들이 그것을 이해하는 방법으로 무작위 변수를 연결하는 것은 없습니다. 따라서 일부 답변은 표준, 정확한 확률 이론 정의를 다시 말하지만 다른 답변은 모호한 통계적 정의를 다시 말하고 있습니다. 그러나 아무도 정말 설명하지 연결 이 두 개념 사이를 (유일한 예외는 몇 가지 약속을 표시 할 수 있습니다 긴 티켓에서 - 어 - 박스 모델 대답이지만, 그럼에도 불구하고 [...].

— l7ll7

그 차이는 눈에 띄게 밝아 질 정도로 명확하지 않았다. 이 답변에 가치가 있는지 알아 보려면이 특정 답변을 묵상해야합니다.)

— l7ll7

X

$X$

아니오, 비 랜덤 변수에 대한 사고 방식은 두 가지 이유로 작동하지 않습니다. 하나는 위의 의견에서 주장했듯이 수학에는 "가변"과 같은 것이 없으며 두 가지 경우에도 마찬가지입니다. 그런 다음 위의 주석에서 주장했듯이 추가는 정의되지 않습니다.

— l7ll7

1

내가 질문을 이해했는지 확실하지 않지만 "독립 변수는 항상 임의의 변수 여야합니다"라고 묻는다면 대답은 아니오입니다.

독립 변수는 종속 변수와 상관 관계가 있다고 가정 된 변수입니다. 그런 다음 모델링 (아마도 회귀 분석)을 통해이 경우인지 테스트합니다.

여기에는 많은 합병증과 "if, buts and maybes"가 있으므로 회귀 분석을 다루고 철저히 읽거나 기본 통계 / 경제학에서 수업 노트를 얻는 기본 계량 경제학 또는 통계 책의 사본을 얻는 것이 좋습니다. 가능하면 온라인 과정.

— 통계 분석가
소스

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

x \mapsto x

$x\mapsto x$

x

$x$

x

$x$

X

$X$

마치 나보다 수학에 대해 훨씬 더 잘 이해하고있는 것 같습니다. 나는 단지 당신에게 표준 대학 학부 계량 경제학 / 통계 답변을 제공합니다. 적어도 실용적인 분석의 관점에서 아마도 당신이 그것을 조금 생각하고 있는지 궁금합니다. 그 책의 인용문과 관련하여, 그에 대한 나의 해석은 그가 언급하고있는 특정 x와 y가 임의적이라는 것입니다.

— Statsanalyst

예를 들어 영국 정치 투표 투표 모델의 종속 변수는 각 선거구 (캐나다, 지역, 미국인에 대한)의 보수 후보가받은 투표 수이고 독립 변수는 평균 주택 가격 (대리인 영국의 부 / 소득). 이것들 중 어느 것도 내가 이해하는 "무작위"변수는 아니지만, 이것은 모델링하기에 완전히 합리적인 것입니다.

— Statsanalyst

좋아, 그것은 계량 경제학 / 통계 부서에서 어떤 종류의 대답을 기대할 수 있는지 / 표준인지를 아는 것이 좋으며, 그 피드백에 대해 대단히 감사합니다. 수학의 문제는 "한 번 당신은 결코 돌아갈 수 없다"는 것입니다. 수학적인 정확성에 대한 1 년의 훈련은 무언가가 클라리 티를 달성 할 때까지 명백하지 않은 육체가 없다면 [...]

— l7ll7

독립 변수 = 랜덤 변수?

자극

수학