I 다소 혼란있어 만약 독립 변수 통계 모델 (또한 예측 또는 기능이라고 함), 예를 들면, 선형 회귀에서 , 랜덤 변수는?Y = β 0 + β 1 X
I 다소 혼란있어 만약 독립 변수 통계 모델 (또한 예측 또는 기능이라고 함), 예를 들면, 선형 회귀에서 , 랜덤 변수는?Y = β 0 + β 1 X
답변:
선형 회귀 분석에는 두 가지 일반적인 공식이 있습니다. 개념에 초점을 맞추기 위해 개념을 다소 추상화하겠습니다. 수학적 설명은 영어 설명보다 조금 더 복잡하므로 후자부터 시작하겠습니다.
선형 회귀 는 선형 맵 를 통해 회귀 의해 결정된 분포 와 가능하면 다른 매개 변수 의해 응답 가 랜덤 한 것으로 가정 되는 모델입니다 .
대부분의 경우 가능한 분포 세트는 매개 변수가 및 위치 패밀리 이며 는 매개 변수 α를 제공합니다 . 원형 적 예는 통상의 회귀 분포들의 세트는 일반 가정 인 N ( μ , σ ) 및 μ = β ( X ) 회귀 변수의 선형 함수이다.
아직 수학적으로 설명하지 않았기 때문에 , , 및 어떤 종류의 수학적 객체를 가리키는 지 여전히 의문의 여지 가 있습니다.이 스레드의 주요 문제라고 생각합니다. 다양한 (동등한) 선택을 할 수 있지만, 대부분 다음 설명과 동일하거나 특별한 경우입니다.
고정 회귀 기 회귀은 실제 벡터로서 표현 . 응답 랜덤 변수 인 (여기서 시그마 필드 확률을 부여한다). 모델 함수 인 (또는, 원하는 경우, 함수의 집합 에 의해 파라미터 ). 는 확률 분포 공간의 차원 ( )의 유한 치수 토폴로지 (보통 제 2 미분 가능) 서브 매니 폴드 (또는 경계를 갖는 서브 매니 폴드)이다 . 는 일반적으로 연속적이거나 충분히 차별화 가능한 것으로 간주됩니다. 은 "방해 변수"입니다. 분포 것으로한다 인 알려지지 듀얼 벡터 (이하 "회귀 계수") 및 알 . 우리는 이것을 Y ~ f ( β ( X ) , θ ) 라고 쓸 수있다 .
무작위 회귀 자. 회귀 변수 및 반응은 차원 벡터 값 랜덤 변수 입니다. 모델 는 이전과 같은 종류의 객체이지만 이제 조건부 확률
수학적 설명은 데이터에 적용되는 방법을 알려주는 처방전 없이는 쓸모가 없습니다. 고정 회귀 분석기의 경우 실험자에 의해 지정된 를 생각합니다. 따라서 제품 시그마 대수가 부여 된 제품 R p × Ω ' 으로 을 보는 것이 도움이 될 수 있습니다 . 실험자는 X를 결정 하고 자연은 (일부 알려지지 않은, 추상적 인) ω ∈ Ω '를 결정 합니다. 랜덤 회귀 분석의 경우, 자연 은 랜덤 변수 π X ( Z 의 X 성분 인 ω ∈ Ω ′을 결정합니다. 결정 (어느 것이 "관찰")으로 우리가 지금 순서쌍을 정확하게 고정 회귀의 경우와 마찬가지로.
다중 선형 회귀의 전형적인 예 (이보다 일반적인 객체 대신 표준 표기법을 사용하여 표현할 것입니다)는 일부 상수 σ에 대해
시 - whatsoever-- 어떤 방식 다음과 같이 추정된다 β 및 σ 로서 σ 의 값 β ( X는 ) 은 IS 예측값 의 Y 와 연관된 X --whether X 실험자에 의해 제어된다 (케이스 1 ) 또는 관찰 된 경우 만 (사례 2). 우리가 어느 값 (케이스 1)를 설정하거나 실현 (케이스 2)를 관찰하는 경우 , X 의 X , 그 응답 Y 그와 연관된 X는 그 분포 랜덤 변수 N은 ( 알 수 있지만,추정수 .
우선 @whuber는 훌륭한 답변을하였습니다. 텍스트에 대한 참조와 함께 다른 의미로, 더 간단한 의미로 설명하겠습니다.
는 회귀 제형에서 무작위이거나 고정 될 수있다. 이것은 당신의 문제에 달려 있습니다. 소위 관찰 연구의 경우 무작위이어야하며 실험의 경우 일반적으로 고정됩니다.
예 하나. 저는 전자파 노출이 금속 부분의 경도에 미치는 영향을 연구하고 있습니다. 그래서, 나는 금속 부분의 몇 가지 샘플을 채취하여 다양한 수준의 방사선에 노출시킵니다. 내 노출 수준은 X이며 선택한 수준으로 설정했기 때문에 고정되어 있습니다. 실험 조건을 완전히 제어하거나 최소한 시도합니다. 온도 및 습도와 같은 다른 매개 변수로도 동일한 작업을 수행 할 수 있습니다.
예 2 신용 카드 응용 프로그램에서 사기 발생 빈도에 대한 경제의 영향을 연구하고 있습니다. 따라서 GDP에 대한 사기 사건 수를 되돌립니다. GDP를 통제하지 않고 원하는 수준으로 설정할 수 없습니다. 또한 다변량 회귀 분석을 원할 수 있으므로 실업과 같은 다른 변수가 있으며 이제 X에는 값의 조합이 있지만 관찰 할 수 는 있지만 제어하지는 않습니다. 이 경우 X는 랜덤 입니다.
예 3. 실험실 조건이 아니라 실제 실험 농장에서 현장에서 새로운 농약의 효능을 연구하고 있습니다. 이 경우 무언가를 제어 할 수 있습니다. 예를 들어 살충제 양을 제어 할 수 있습니다. 그러나 날씨 나 토양 조건과 같은 모든 것을 제어하지는 않습니다. 좋아, 토양을 어느 정도 통제 할 수는 있지만 완전히 할 수는 없습니다. 이것은 중간 조건이며 일부 조건이 관찰 되고 일부 조건이 제어 됩니다. 농업 연구가 가장 큰 응용 분야 중 하나 인이 세 번째 사례에 중점을 둔 실험 설계 라는 전체 연구 분야가 있습니다.
여기 답의 수학적 부분이 있습니다. Gauss-Markov 조건이라고하는 선형 회귀를 연구 할 때 일반적으로 제시되는 일련의 가정이 있습니다. 그들은 매우 이론적이며 아무도 실제적인 환경을 유지하고 있음을 입증하지 않습니다. 그러나 OLS (일반 최소 제곱) 방법의 한계를 이해하는 데 매우 유용합니다.
따라서 랜덤 및 고정 X의 가정은 관측 및 실험 연구와 거의 일치합니다. 대략, 세 번째 예에서 보았 듯이 때로는 극단 사이에 있기도합니다. Salkind의 Research Design 백과 사전에서 "Gauss-Markov"정리 섹션은 시작하기에 좋은 곳 이며 Google 도서 에서 제공 됩니다.
고정 설계의 다른 가정은 일반적인 회귀 모형 대해 다음과 같습니다 .
무작위 설계에서 동일한 가정 vs.
보시다시피 차이점은 랜덤 디자인의 디자인 매트릭스에 대한 가정을 조정하는 것입니다. 컨디셔닝은 이러한 강력한 가정을 만듭니다. 예를 들어, 고정 설계 에서처럼 오류의 평균이 0이라고 말하는 것이 아닙니다. 랜덤 디자인에서 우리는 그것들이 X, 공변량에 의존하지 않는다고 말합니다.
통계에서 랜덤 변수 는 어떤 방식 으로든 무작위로 변하는 수량입니다. 이 우수한 CV 스레드 에서 "랜덤 변수"란 무엇입니까?
회귀 모형에서 예측 변수 (X- 변수, 설명 변수, 공변량 등)는 고정되어 있고 알려진 것으로 가정합니다 . 그것들은 무작위로 가정되지 않습니다. 모형의 모든 랜덤 성은 오차항에있는 것으로 가정합니다. Y = β 0 + β 1 X + ε 표준으로 공식화 된 간단한 선형 회귀 모델을 고려하십시오.
오차 항 ε 은 랜덤 변수이며 모형의 랜덤 소스입니다. 오류 항의 결과로 Y 도 랜덤 변수입니다. 그러나 X 는 임의의 변수로 가정되지 않습니다. (물론실제로는 임의의 변수일 수 있지만 모델에 반영되거나 반영되지는 않습니다.)
내가 질문을 이해했는지 확실하지 않지만 "독립 변수는 항상 임의의 변수 여야합니다"라고 묻는다면 대답은 아니오입니다.
독립 변수는 종속 변수와 상관 관계가 있다고 가정 된 변수입니다. 그런 다음 모델링 (아마도 회귀 분석)을 통해이 경우인지 테스트합니다.
여기에는 많은 합병증과 "if, buts and maybes"가 있으므로 회귀 분석을 다루고 철저히 읽거나 기본 통계 / 경제학에서 수업 노트를 얻는 기본 계량 경제학 또는 통계 책의 사본을 얻는 것이 좋습니다. 가능하면 온라인 과정.