그 변수 중 일부는 서로 밀접하게 관련되어 있습니다. 어떻게 / 왜 / 어떤 맥락에서 우리는 그것들을 독립 변수 로 정의 합니까?
그 변수 중 일부는 서로 밀접하게 관련되어 있습니다. 어떻게 / 왜 / 어떤 맥락에서 우리는 그것들을 독립 변수 로 정의 합니까?
답변:
오늘날 머신 러닝에 중점을두고 제어 된 실험 연구를 위해 얼마나 많은 통계 분석이 개발되었는지 기억한다면, "독립 변수"라는 문구가 의미가 있습니다.
통제 된 실험 연구에서, 약물의 선택 및 그 농도, 또는 비료의 선택 및 에이커 당의 양은 연구자에 의해 독립적 으로 이루어집니다 . 관심있는 반응 변수 (예 : 혈압, 작물 수확량) 가 이러한 실험 조작 에 어떻게 의존하는지 에 관심이 있습니다. 이상적으로 독립 변수의 특성은 엄격하게 지정되며 본질적으로 값을 알 때 오류가 없습니다. 예를 들어 표준 선형 회귀 분석은 독립 변수 값과 잔차 오차의 관점에서 종속 변수 값의 차이를 모델링합니다.
제어 된 실험 연구의 맥락에서 회귀에 사용 된 것과 동일한 수학적 형식은 실험 조작이 거의 없거나 전혀없는 관찰 된 데이터 세트의 분석에도 적용될 수 있으므로 "독립 변수"라는 문구가 이러한 유형으로 넘어간 것은 놀라운 일이 아닙니다 연구. 그러나이 페이지의 다른 사람들이 언급했듯이, 그러한 상황에서 "예측 자"또는 "기능"이 더 적합하면 불행한 선택 일 것입니다.
여러 가지면에서 "독립 변수"는 불행한 선택입니다. 변수는 서로 독립적 일 필요는 없으며, 물론 종속 변수 독립적 일 필요는 없습니다 . 가르치고 내 책에서 회귀 모델링 전략 나는 단어 예측자를 사용합니다 . 어떤 상황에서는 그 단어가 충분히 강하지는 않지만 평균적으로 잘 작동합니다. 통계 모델에서 (오른쪽) 변수 의 역할에 대한 전체 설명은 매번 사용하기에 너무 길 수 있습니다. 변수 분포 또는 분포 가 조절 되는 측정 값 . 이것은 우리가 현재 분포에 관심이 없지만 값을 상수로 취급하는 변수 세트를 말하는 또 다른 방법입니다.
나는 "독립적"과 "의존적"이라는 용어가 좋지 않다는 다른 답변에 동의합니다. 마찬가지로 EDM을 설명하고,이 용어는 연구자가 서로 독립적 회귀 설정할 수 제어의 실험 문맥에서 일어났다. 이로드 된 인과 관계가없는 바람직한 용어가 많이 있으며, 제 경험상 통계학자는보다 중립적 인 용어를 선호하는 경향이 있습니다. 여기에 다음을 포함하여 많은 다른 용어가 사용됩니다.
개인적으로 나는 설명 변수와 반응 변수라는 용어를 사용하는데, 그 용어에는 통계적 독립이나 통제 등의 의미가 없기 때문에 ( '응답'에는 인과 관계가 있다고 주장 할 수 있지만, 이것은 상당히 약한 의미입니다. 문제가되지 않았습니다.)
Frank Harrell과 Peter Flom의 답변에 추가하려면 :
변수 "독립"또는 "종속"을 호출하면 오해의 소지가 있다는 데 동의합니다. 그러나 어떤 사람들은 여전히 그렇게합니다. 나는 한 번 왜 대답을 들었다.
회귀 분석에서 우리는 하나의 "특별한"변수 (보통 로 표시 )와 많은 "특별하지 않은"변수 ( )를 가지고 있으며 의 변화가 에 어떻게 영향을 미치는지 보고 싶습니다 . 다시 말해, 가 에 어떻게 의존 하는지보고 싶습니다 .
이것이 가 "종속"이라고하는 이유 입니다. 그리고 하나가 "종속적"이라고 불리면 다른 하나를 어떻게 부르겠습니까?
"의존적"및 "독립적"은 혼동되는 용어 일 수 있습니다. 한 가지 의미는 의사 인과 관계 또는 인과 관계이며 이는 "독립 변수"및 "종속 변수"를 말할 때 의미하는 것입니다. 우리는 어떤 의미에서 DV가 IV에 의존한다는 것을 의미합니다. 예를 들어, 성인 인간의 키와 체중의 관계를 모델링 할 때 체중은 DV이고 높이는 IV입니다.
이것은 "예측 자"가하지 않는 것, 즉 관계의 방향을 포착합니다. 신장은 체중을 예측하지만 체중도 신장을 예측합니다. 즉, 사람들의 키를 추측하라는 말을 듣고 그들의 체중을 들었다면, 그것은 유용 할 것입니다.
그러나 우리는 키가 체중에 달려 있다고 말하지 않을 것입니다.
위의 답변을 바탕으로 예, 나는이 종속적이고 독립적 인 변수가 약한 용어라는 데 동의합니다. 그러나 나는 우리 중 많은 사람들이 그것을 사용하는 상황을 설명 할 수 있습니다. 일반적인 회귀 문제의 경우 Y와 같은 출력 변수가 있으며 그 값은 x1, x2, x3과 같은 다른 입력 변수에 따라 다릅니다. 이것이 바로 "종속 변수"라고하는 이유입니다. 그리고 유사에 따라 이 상황 만 , 그냥 출력 및 입력 변수, X1, X2, X3를 구분하는 것은 독립 변수로 불린다. Y와 달리 다른 변수에 의존하지 않기 때문에 (그렇지만 여기서 우리는 그들 자신과의 종속성에 대해 이야기하지 않습니다.)
독립 변수는 다른 변수에 의존하지 않기 때문에 독립이라고합니다. 예를 들어, 주택 가격 예측 문제를 고려하십시오. house_size, location 및 house_price에 대한 데이터가 있다고 가정하십시오. 여기에서 house_price는 house_size 및 위치에 따라 결정되지만 location 및 house_size는 주택마다 다를 수 있습니다.