회귀 분석과 분산 분석의 차이점은 무엇입니까?

21

회귀 분석과 분산 분석에 대해 지금 배우고 있습니다.

회귀 분석에서는 하나의 변수가 고정되어 있으며 변수가 다른 변수와 어떻게 진행되는지 알고 싶습니다.

분산 분석에서 예를 들어 :이 특정 동물성 식품이 동물의 무게에 영향을 미치는 경우 ... 하나의 고정 변수와 다른 변수에 미치는 영향 ...

옳고 그름입니까, pls 도와주세요 ...

regression

— 르 맥스
소스

25

데이터 세트가 세트로 구성되어 가정 에 대한 당신이의 의존성보고 싶지 에 . $(x_i,y_i)$ $i=1,\ldots,n$ $y$ $x$

사용자가 값을 찾을 가정 와 의 및 그 제곱의 합을 최소화 잔류 그럼 당신은 $\hat\alpha$ $\hat\beta$ $\alpha$ $\beta$

\sum_{i = 1}^{n} (y_{i} - (α + β x_{i}))^{2} .

$\sum_{i=1}^n (y_i - (\alpha+\beta x_i))^2.$

예상되는

어떤을위한 - 값이 (반드시 이미 관찰되지)

- 값. 그것은 선형 회귀입니다.

\hat{y} = \hat{α} + \hat{β} x

$\hat y = \hat\alpha+ \hat\beta x$

y

$y$

x

$x$

이제 총 제곱합을 분해하는 것을 고려하십시오 과자유도, "설명"및 "불명"부분으로 : 와

\sum_{i = 1}^{n} (y_{i} - \bar{y})^{2} where \bar{y} = \frac{y_{1} + \dots + y_{n}}{n}

$\sum_{i=1}^n (y_i - \bar y)^2 \qquad\text{where }\bar y = \frac{y_1+\cdots+y_n}{n}$

n - 1

$n-1$

\underset{explained}{\underset{⏟}{\sum_{i = 1}^{n} ((\hat{α} + \hat{β} x_{i}) - \bar{y})^{2}}} + \underset{unexplained}{\underset{⏟}{\sum_{i = 1}^{n} (y_{i} - (\hat{α} + \hat{β} x_{i}))^{2}}} .

$\underbrace{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2}_{\text{explained}}\ +\ \underbrace{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2}_{\text{unexplained}}.$

1

$1$ 와

. 각각 자유도의 분산 분석, 하나는 F-통계 같은 것을 간주하는

n - 2

$n-2$

이F- 통계량은 귀무 가설

검정합니다.

F = \frac{\sum_{i = 1}^{n} ((\hat{α} + \hat{β} x_{i}) - \bar{y})^{2} / 1}{\sum_{i = 1}^{n} (y_{i} - (\hat{α} + \hat{β} x_{i}))^{2} / (n - 2)} .

$F = \frac{\sum_{i=1}^n ((\hat\alpha+\hat\beta x_i) - \bar y)^2/1}{\sum_{i=1}^n (y_i - (\hat\alpha+\hat\beta x_i))^2/(n-2)}.$

β = 0

$\beta=0$

예측 변수가 범주 형일 때 종종 "분산 분석"이라는 용어를 만나므로 모형 적합합니다.

y = α + β_{i}

$y = \alpha + \beta_i$

i

$i$

k

$k$

k - 1

$k-1$

n - k

$n-k$

몇 가지 추가 사항 :

일부 수학자들에게 위의 설명은 전체 분야가 위에서 본 것만으로 보이게 할 수 있으므로 회귀 분석과 분산 분석이 활발한 연구 분야라는 것이 신비 로울 수 있습니다. 여기에 게시하기에 적합한 답변에 맞지 않는 것이 많이 있습니다.
$y=\alpha+\beta x$

— 마이클 하디
소스

5

@MichaelHardy 회귀 분석에서 성분으로 분산을 분해하는 것을 종종 분산 테이블 분석이라고합니다. 그것은 통계 학자들이 일반적으로 ANOVA에 의해 의미하는 것이 아닙니다. 방법 1) 선형 회귀 분석, 2) 분산 분석 및 3) 공분산 분석은 일반 선형 모형의 일반 제목 하의 범주이며, 선형 회귀 분석에는 연속 공변량이 포함되며, ANOVA에는 이산 그룹 만 포함되며 ANCOVA는 연속 공변량과 개별 그룹.

— Michael R. Chernick

1

비공식적으로 하나는 때때로 그런 식으로 말하고, 내 대답은 그렇게 말하지 않았지만, (1) 계수의 최소 제곱 추정은 두 가지 문제 (연속 또는 범주 예측 변수)와 합의 분해 중 하나에서 수행된다는 것을 알아야합니다 두 개의 문제 중 하나에서 OVA 테이블과 같은 자유도를 갖는

— Michael Hardy

5

그 양보와 함께 당신은 내 대답에 아무런 문제가 없다고 결론 내 렸습니다. 또한 ANOVA, ANCOVA 및 회귀라는 용어는 비공식적 인 용어가 아닙니다. 그것들은 매우 명백하게 형식적이며 분산 분석이 회귀 분석의 분산의 분해라고 OP에 알리는 것은 잘못입니다. 누군가 anova라는 이름의 통계 절차가 선형 모델을 수행 할 수 있다는 사실은 아무것도 입증하지 못합니다. SAS proc reg는 회귀 만 처리하고 proc anova는 내가 정의한 분산 분석 만 처리하며 proc glm은 두 가지를 모두 수행합니다.

— Michael R. Chernick

1

.... 그리고 R에서 "lm (....)"은 두 상황 모두 에서 회귀 계수를 제공 하고 "anova (lm (....))"은 제곱과 자유도의 합을 분해합니다. 두 상황 모두 에서 . "인식해야한다"는 한, 귀하의 답변 아래에 의견을 추가했습니다. 로지스틱 회귀 분석에 대해 언급 할 경우, 선형 회귀에 대해 이야기하지 않는 즉시 "회귀"라는 단어가 많은 것을 포함 할 수있는 매우 광범위한 용어라고 말하는 것이 더 분명합니다.

— Michael Hardy

@MichaelHardy stats.SE 사이트에서 제기 된 내 질문에 대해 자유롭게 의견을 보내주십시오. 나는 당신의 대답 과이 질문에 대한 나의 대답이 모두 올바른 것이라고 생각합니다. 나는 내 대답이 downvoted되는 것에 확실히 반대한다. 통계 커뮤니티의 다른 사람들의 의견을 듣고 싶었습니다.

— Michael R. Chernick

5

주요 차이점은 반응 변수입니다. 로지스틱 회귀 분석은 선형 회귀 분석 및 비선형 회귀 분석에서 이항 반응을 다루지 만 반응 변수는 연속적입니다. 연속 반응 변수와 기능적 관계가있는 변수 (일명 공변량)가 있습니다. 분산 분석에서 반응은 연속적이지만 몇 가지 다른 범주 (예 : 처리 그룹 및 제어 그룹)에 속합니다. 분산 분석에서 그룹 간 평균 반응의 차이를 찾습니다. 선형 회귀 분석에서는 공변량이 변함에 따라 반응이 어떻게 변하는 지 살펴 봅니다. 차이를 보는 또 다른 방법은 회귀 분석에서 공변량은 연속적이지만 분산 분석에서는 불연속 그룹이라는 것입니다.

— 마이클 R. 체 르닉
소스

6

선형 회귀와 분산 분석의 차이 를 의미하는 질문을했습니다 . 로지스틱 회귀를 가져 오는 것은 주제에서 벗어나는 것 같습니다. 그러나 마지막 문장이 잘못되었습니다. 예측 변수가 이산인지 연속인지에 관계없이 분산 분석을 수행 할 수 있습니다.

— Michael Hardy

1

분산 분석에는 실제로 예측 변수가 있습니다. 귀하의 예에서 예측 변수는 범주 형이지만 꼭 그럴 필요는 없습니다. 분산 분석은 "이산 그룹"과 관련된 문제 만을 고려 하지 않습니다 .

— Michael Hardy

3

@MichaelHardy 통계 백과 사전을 확인할 때 일반 선형 모델에서 분산 분해 측면에서 분산 분석을 참조하기 때문에 한 걸음 물러서 고 있습니다. 그러나이 용어에는 두 가지 의미가 있으며 ANOVA는 내가 설명한 방식으로 ANCOVA 및 회귀와 구별되는 경우가 많습니다. 따라서 OP는 일반 선형 모형의 분산 성분에 대한 불확실성을 나타내는 용어와 이산 그룹 만 포함 된 선형 모형의 하위 클래스를 나타내는 용어를 모두 알고 있어야합니다.

— Michael R. Chernick

2

나는 당신이 사용하는 사용법을 비공식적이라고 생각합니다. 로지스틱 회귀 분석을 언급하는 것은 이상합니다.이 용어가 다른 변수에 대한 평균 또는 예측 된 값을 추정하고 분산 분석과 구별 할 때 넓은 의미로 사용될 때 다양한 "회귀"중 하나라고 말할 수 없습니다. . 그러나 선형 회귀 모델과 분산 분석의 차이에 대한 문제는 더 합리적인 질문처럼 보입니다. 그러나 원래 포스터의 의도에 대한 불확실성이 종종 있습니다.

— Michael Hardy

7

당신의 의도가 무엇이든간에, 나는 통계에 박사 학위를 가지고 있다. 우선, 당면한 문제를 해결하는 것은 아무 것도하지 않습니다. 권위에 호소하는 것은 흔히 사용되지만 물건을 증명하는 데 잘못 안내되는 접근법입니다. 자신의 권위에 호소하는 것이 훨씬 더 문제가됩니다. 또한 @MichaelHardy (귀하가 다루고있는 개인)에 대한 존중의 부족을 우연히 또는 다른 방식으로 보여주는 것으로 해석 될 수 있습니다.

— 추기경

2

분산 분석 (ANOVA)은 구조로 간주되는 관측치를 분석하는 통계적 방법의 본문입니다.

$y_i=\beta_1x_{i1}+\beta_2x_{i2}+\dots+\beta_px_{ip}+e_i,~i=1(1)n$ 의 선형 조합으로 구성됩니다. $p$ 알 수없는 수량 $\beta_1,\beta_2,\dots,\beta_p$ 더하기 오류 $e_1,e_2,\dots,e_n$ 그리고 { $x_{ij}$ }는 rv의 { $e_i$ }는 서로 관련이 없으며 동일한 평균을 가짐 $0$ 그리고 분산 $\sigma^2$ (알 수 없는).

즉 $E(y^{n \times 1})=X\beta,D(y)=\sigma^2I_n$ 여기서 D 는 분산 행렬 또는 분산 공분산 행렬입니다.

, 여기서 계수 { $x_{ij}$ }는 효과의 유무를 나타내는 카운터 변수 또는 지표 변수 의 값입니다. $\beta_j$ } 관찰 조건에서 : { $x_{ij}$ } 횟수입니다 $\beta_j$ i 번째 관찰 에서 발생하며 일반적으로 $0$ 또는 $1$ . 일반적으로 분산 분석에서 모든 요소는 정 성적으로 처리됩니다.

{ $x_{ij}$ }는 카운터 변수가 아니라 다음과 같은 연속 변수에 의해 관측 값에서 얻은 값입니다. $t$ = time, $T$ = 온도, $t^2,e^{-T}$ 등, 우리는 회귀 분석의 경우가 있습니다. 일반적으로, 회귀 분석에서 모든 요소는 정량적이며 정량적으로 처리됩니다.

주로이 두 종류는 분석의 두 종류입니다 .

— 아르가
소스

표기법은 무엇입니까

i = 1 (1) n

$i=1(1)n$ mean?

1

i = 1 (1) n

$i=1(1)n$ means

i = 1, 2, \dots, n

$i=1,2,\dots,n$

— Argha

-1

회귀 분석에서는 하나의 변수가 고정되어 있으며 변수가 다른 변수와 어떻게 진행되는지 알고 싶습니다.

분산 분석에서 예를 들어 :이 특정 동물성 식품이 동물의 체중에 영향을 미치는 경우 ... 하나의 고정 변수와 다른 변수에 대한 영향.

— 아이 자
소스

1

안녕하세요 아이 자 씨, SE에 오신걸 환영합니다. 더 많은 컨텍스트를 제공하고 질문이 실제로 무엇인지 명확하게하려면 이것을 편집해야합니다.

— 질문 닫기를 빨리 중단