회귀 분석에서 왜 독립 변수를 "독립"이라고합니까?


30

그 변수 중 일부는 서로 밀접하게 관련되어 있습니다. 어떻게 / 왜 / 어떤 맥락에서 우리는 그것들을 독립 변수 로 정의 합니까?


1
그것은 역사적이며 프랑스 과학 작품에서 나온 것입니다. 참조를 찾으려고합니다.
Alecos Papadopoulos

1
나는 부를 것이다 일련의 인과 관계를 추론 피하기 위해 "잠재적으로 공동 의존"변수를.
qed

1
좋은 질문입니다!
라파엘 마라 주 엘라

답변:


29

오늘날 머신 러닝에 중점을두고 제어 된 실험 연구를 위해 얼마나 많은 통계 분석이 개발되었는지 기억한다면, "독립 변수"라는 문구가 의미가 있습니다.

통제 된 실험 연구에서, 약물의 선택 및 그 농도, 또는 비료의 선택 및 에이커 당의 양은 연구자에 의해 독립적 으로 이루어집니다 . 관심있는 반응 변수 (예 : 혈압, 작물 수확량) 가 이러한 실험 조작 에 어떻게 의존하는지 에 관심이 있습니다. 이상적으로 독립 변수의 특성은 엄격하게 지정되며 본질적으로 값을 알 때 오류가 없습니다. 예를 들어 표준 선형 회귀 분석은 독립 변수 값과 잔차 오차의 관점에서 종속 변수 값의 차이를 모델링합니다.

제어 된 실험 연구의 맥락에서 회귀에 사용 된 것과 동일한 수학적 형식은 실험 조작이 거의 없거나 전혀없는 관찰 된 데이터 세트의 분석에도 적용될 수 있으므로 "독립 변수"라는 문구가 이러한 유형으로 넘어간 것은 놀라운 일이 아닙니다 연구. 그러나이 페이지의 다른 사람들이 언급했듯이, 그러한 상황에서 "예측 자"또는 "기능"이 더 적합하면 불행한 선택 일 것입니다.


2
그러나 약물 수준의 선택은 수사관이하는 일에 달려 있기 때문에 어떤 것이 무엇인지 기억할 수 없습니다.
mdewey

기계 학습에서 "기능"은 종종 잠복되지 않은 변수입니다. “관찰 된 기능”이 더 일반적입니다.
Neil G

18

여러 가지면에서 "독립 변수"는 불행한 선택입니다. 변수는 서로 독립적 일 필요는 없으며, 물론 종속 변수 독립적 일 필요는 없습니다 . 가르치고 내 책에서 회귀 모델링 전략 나는 단어 예측자를 사용합니다 . 어떤 상황에서는 그 단어가 충분히 강하지는 않지만 평균적으로 잘 작동합니다. 통계 모델에서 (오른쪽) 변수 의 역할에 대한 전체 설명은 매번 사용하기에 너무 길 수 있습니다. 변수 분포 또는 분포 가 조절 되는 측정 값 . 이것은 우리가 현재 분포에 관심이 없지만 값을 상수로 취급하는 변수 세트를 말하는 또 다른 방법입니다.YXY


따라서 입력 변수를 "독립적"으로 호출하는 것은 잘못된 습관입니까? @ 프랭크
Amarpreet Singh

11
그들은 분명히 어떤 것과도 독립적 인 것으로 간주되지 않으므로 습관 때문에 잘못 사용되는 것은 잘못된 습관입니다.
Frank Harrell

1
"Y의 분포가 조절되는 변수 또는 측정 세트"... 실제로 나는 그것들을 "컨디셔닝 변수"또는 "컨디셔닝 된 변수"라고 생각합니다.E(Y|X)
Silverfish

11

나는 "독립적"과 "의존적"이라는 용어가 좋지 않다는 다른 답변에 동의합니다. 마찬가지로 EDM을 설명하고,이 용어는 연구자가 서로 독립적 회귀 설정할 수 제어의 실험 문맥에서 일어났다. 이로드 된 인과 관계가없는 바람직한 용어가 많이 있으며, 제 경험상 통계학자는보다 중립적 인 용어를 선호하는 경향이 있습니다. 여기에 다음을 포함하여 많은 다른 용어가 사용됩니다.

Yixi,1,...,xi,mResponsePredictorsRegressandRegressorsOutput variableInput variablesPredicted variableExplanatory variables

개인적으로 나는 설명 변수와 반응 변수라는 용어를 사용하는데, 그 용어에는 통계적 독립이나 통제 등의 의미가 없기 때문에 ( '응답'에는 인과 관계가 있다고 주장 할 수 있지만, 이것은 상당히 약한 의미입니다. 문제가되지 않았습니다.)


1
(+1) 회귀 / 회귀가 가장 중립적 인 용어라고 생각하지만 설명 / 응답을 사용하여 설명하는 것을 선호합니다.
Frans Rodenburg

2
나는 중립적 인 용어를 선호하는 경향에 동의하지만, "설명 적"은 다음과 같이 나에게 꽤 인과 적이라고 들립니다. "X 변수는 왜 Y 변수가 그 역할을 하는지를 설명 합니다."
timwiz

1
나는 그것을 확률 론적 의미로 설명을 의미한다. 즉, 반응 변수의 분포 변화를 설명한다. 당신이 옳을 수도 있지만,이 모든 경우에 어떤 인과 관계에 대한 의미가 약합니다.
Monica Monica 복원

2
설명은 원인을 암시하므로 부적절합니다.
Frank Harrell

1
@ 프랭크 : 나는 그 견해에 반드시 동의하지는 않습니다. 설명은 "설명"이라는 단어에서 파생되었으므로 변수가 어떻게 든 응답 변수를 설명한다는 것을 암시합니다. 이 설명은 인과 적이거나 통계적 일 수 있으며 후자라고 생각합니다. 그럼에도 불구하고 사람들이이 단어의 의미를 다르게 해석하고있는 것으로 보이므로, 일부 사람들은이 단어가 인과 관계가있는 것으로 읽게 될 것입니다.
복원 Monica Monica

9

Frank Harrell과 Peter Flom의 답변에 추가하려면 :

변수 "독립"또는 "종속"을 호출하면 오해의 소지가 있다는 데 동의합니다. 그러나 어떤 사람들은 여전히 ​​그렇게합니다. 나는 한 번 왜 대답을 들었다.

회귀 분석에서 우리는 하나의 "특별한"변수 (보통 로 표시 )와 많은 "특별하지 않은"변수 ( )를 가지고 있으며 의 변화가 에 어떻게 영향을 미치는지 보고 싶습니다 . 다시 말해, 가 에 어떻게 의존 하는지보고 싶습니다 .YXXYY X

이것이 가 "종속"이라고하는 이유 입니다. 그리고 하나가 "종속적"이라고 불리면 다른 하나를 어떻게 부르겠습니까?Y


당신은 Y가 X에 의존한다고 말하고 (따라서 Y는 종속 변수라고 함) X가 Y에 의존하지 않는다는 것을 의미합니다. 그러나 X가 Y에 의존하거나 Y와 관련이있는 경우가있을 수 있습니다 (따라서 더 이상 "독립적"이라고하지 마십시오. 이것에 대한 의견이 있으십니까?
Amarpreet Singh

아니요, X가 Y에 의존하지 않는다는 의미는 아닙니다. 회귀 분석이 수행하는 것에 대한 가장 기본적인 설명은 Y가 X에 의존하는 방식을 설명하는 것입니다. 따라서 Y의 가장 기본적인 이름은 "의존적"입니다. "
Łukasz Deryło

6
"X를 독립적으로 호출해야합니까?"라는 질문에 대답하려고하지 않습니다. 그러나 게시물의 제목처럼 "우리는 왜 독립적으로 부르나요?"
Łukasz Deryło

5

"의존적"및 "독립적"은 혼동되는 용어 일 수 있습니다. 한 가지 의미는 의사 인과 관계 또는 인과 관계이며 이는 "독립 변수"및 "종속 변수"를 말할 때 의미하는 것입니다. 우리는 어떤 의미에서 DV가 IV에 의존한다는 것을 의미합니다. 예를 들어, 성인 인간의 키와 체중의 관계를 모델링 할 때 체중은 DV이고 높이는 IV입니다.

이것은 "예측 자"가하지 않는 것, 즉 관계의 방향을 포착합니다. 신장은 체중을 예측하지만 체중도 신장을 예측합니다. 즉, 사람들의 키를 추측하라는 말을 듣고 그들의 체중을 들었다면, 그것은 유용 할 것입니다.

그러나 우리는 키가 체중에 달려 있다고 말하지 않을 것입니다.


SEM 모델에 대해 구체적입니까?
Amarpreet Singh

아니요. 회귀를 생각하고있었습니다.
Peter Flom-Monica Monica 복원

좋아, 이름의 문제 일 뿐이야 입력 변수를 "독립적"이라고 부르는 것이 무언가를 의미한다고 혼동했습니다.
Amarpreet Singh

12
DV와 IV는 일반적인 약어 (개인적으로 싫어함)이지만 IV가 도구 변수만을 의미 할 수있는 많은 경제학자와 다른 사회 과학자들을주의하십시오. DV가 Deo volente (하나님의 뜻)만을 의미 할 수있는 사람들을 만나는 것은 흔하지 않습니다.
닉 콕스

0

위의 답변을 바탕으로 예, 나는이 종속적이고 독립적 인 변수가 약한 용어라는 데 동의합니다. 그러나 나는 우리 중 많은 사람들이 그것을 사용하는 상황을 설명 할 수 있습니다. 일반적인 회귀 문제의 경우 Y와 같은 출력 변수가 있으며 그 값은 x1, x2, x3과 같은 다른 입력 변수에 따라 다릅니다. 이것이 바로 "종속 변수"라고하는 이유입니다. 그리고 유사에 따라 상황 , 그냥 출력 및 입력 변수, X1, X2, X3를 구분하는 것은 독립 변수로 불린다. Y와 달리 다른 변수에 의존하지 않기 때문에 (그렇지만 여기서 우리는 그들 자신과의 종속성에 대해 이야기하지 않습니다.)


@Ramya R의 답변과 비슷합니다.
Amarpreet Singh

-2

독립 변수는 다른 변수에 의존하지 않기 때문에 독립이라고합니다. 예를 들어, 주택 가격 예측 문제를 고려하십시오. house_size, location 및 house_price에 대한 데이터가 있다고 가정하십시오. 여기에서 house_price는 house_size 및 위치에 따라 결정되지만 location 및 house_size는 주택마다 다를 수 있습니다.


4
때로는 회귀 분석에서 소위 "독립적 인"변수가 서로 관련되어 있습니다. 따라서 반드시 통계적으로 독립적 일 필요는 없습니다. 이를 예측 변수라고 부르는 것이 좋습니다.
Michael R. Chernick

마이클, 지적 해줘서 고마워 후속 질문이 있습니다. 공선 형인 두 개의 예측 변수가있는 경우 다중 공선 성 문제를 제거하여 예측 변수가 서로 독립적이되도록 변수 하나를 버리지 않습니까?
Ramya R

1
반드시 그런 것은 아닙니다. 추정치의 안정성에 영향을 미치는지 여부와 두 변수가 모두 포함 된 경우 예측 강도가 얼마나 강한 지에 따라 다릅니다. 두 변수가 0.1의 상관 관계를 갖는 경우, 독립적이지 않지만 이들 사이의 관계는 약합니다.
Michael R. Chernick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.