왜 선형 회귀를 연구해야합니까?


13

두 개의 랜덤 변수 와 가 주어지면 "상관 계수" 계산 하고이 두 랜덤 변수 사이에 가장 적합한 선을 형성 할 수 있습니다. 내 질문은 왜?η cξηc

1) 최악의 방법으로 의존하는 임의의 변수 및 가 있습니다 (예 : . 이 에도 불구하고 . 선형 회귀를 따라 생각하면 완전히 눈을 멀게됩니다.η ξ = f ( η ) c = 0ξηξ=f(η)c=0

2) 왜 구체적으로 선형입니까? 랜덤 변수 사이에 존재할 수있는 다른 종류의 관계가 있습니다. 왜 그중 하나를 다른 모든 것들 중에서 하나?


18
이것은 때때로 손톱이 나올 때 왜 드라이버를 소유하는지 묻는 것과 같습니다.
Sycorax는 Reinstate Monica

6
당신은 또한 거기 사람이 있다는 것을 전제 가정 것 같다 단지 선형 회귀에 관심을 "한 경우 에만 선형 회귀 함께 생각", "그 하나의 이유는 단 하나 밖으로 모든 다른 사람의 ". 이것은 나에게 빨대처럼 보입니다. 물론 단 하나의 도구 나 관점을 고수하는 것은 어리 석습니다.
Matthew Drury

7
선형 "구체적으로"는 실제로 기본 함수 의 선형 조합에 관한 것입니다.
GeoMatt22

2
@MatthewDrury strawman이 없으며 나는 아무것도 가정하지 않고 단지 방법의 약점을 설명하기 위해 병리학 적 극단의 사고를 사용하여 질문합니다. 내가 왜 그렇게 가정한다고 가정합니까? 회귀는 통계 학자에게는 매우 큰 주제입니다. 나는 그것에 대해 너무 특별한 것이 무엇인지 이해하지 못해서 너무 많이 연구됩니다.
Nicolas Bourbaki

8
이 질문에 어려움을 겪고있는 사람들에게 : 선형 회귀에 대해 처음 알게되었을 때 잊어 버렸고 "가정 중 하나는 선형 효과의 가정"이라고 들었습니다. 당신은 자신에게 생각했지만 "효과는 결코 선형 이 아닙니다 !". 많은 숙고를 겪은 후에도 선형 회귀는 여전히 이해하고 사용하는 기본 도구라는 것을 스스로 확신했습니다. 이제 숙고하기 전에 자신을 다시 설정하십시오. 모든 통계 학생이 많은 시간을 투자해야한다는 것은 좋은 질문이라고 생각합니다.
Cliff AB

답변:


10

나는 모든 관계가 그 자체로 선형 적이지는 않지만 상당히 많은 관계가 선형으로 근사 될 수 있다는 데 동의합니다. 우리는 테일러 시리즈 또는 푸리에 시리즈 등과 같은 수학에서 많은 경우를 보았습니다. 여기서 중요한 점은 geomatt22는 의견에서 비선형 데이터를 일반적으로 변환하고 기본 함수를 사용하여 어떤 종류의 변환을 적용하고 선형화 할 수 있다고 말했습니다. 관계. 대학이 '다중 선형 회귀 모델'(단순 회귀 모델 포함) 만 다루는 이유는 이들이 선형 수준 인 고급 수준의 모델에 대한 구성 요소이기 때문입니다.

수학적으로 말하면, 힐버트 공간에서 특정 선형 근사가 치밀하다는 것을 증명할 수 있다면 근사를 사용하여 공간의 함수를 나타낼 수 있습니다.


2
바로 그거죠. 다른 사람은 언급하지 않았지만이 답변에서 알 수 있듯이 일반적으로 항상 변수에 변환을 적용하여 관계를 선형화 할 수 있습니다. 또한 a) 선형 회귀에 대한 전역 최대 값을 찾기가 쉽고 b) 선형 회귀를 기반으로하는 로지스틱 회귀를 알고 있으면 신경망을 포함한 다른 많은 모델을 쉽게 이해할 수 있습니다.
Ricardo Cruz

7

당신이 언급 한 모델, 간단한 선형 회귀, 일명 "최상의 적합 선"(여기서 혼동되는 모델과 추정 방법)은 매우 간단합니다 (이름에서 알 수 있듯이). 왜 공부해야합니까? 나는 많은 이유를 볼 수 있습니다. 다음에서는 임의 변수 개념이 적어도 비공식적으로 도입되었다고 가정합니다. 왜냐하면 귀하의 질문에 언급했기 때문입니다.

  1. 교육학: 물론, 2 차 모멘트가 유한 한 실제 랜덤 변수는 힐버트 공간을 형성합니다. 확률 이론을 처음 연구했을 때 이미 분명했을 것입니다. 그러나 통계는 수학 학생들에게만 가르쳐지는 않습니다. 물리에서 경제, 컴퓨터 과학, 사회 과학에 이르기까지 더 광범위한 대중이 있습니다.이 학생들은 학습 과정 초기에 통계에 직면 할 수 있습니다. 그것들은 선형 대수학으로 지워졌을 수도 있고 아닐 수도 있으며, 첫 번째 경우에도 수학 과정의 더 추상적 인 관점에서 그것을 보지 못했을 수도 있습니다. 이 학생들에게 임의의 변수를 다른 임의의 변수로 근사하는 개념은 그리 즉각적이지 않습니다. 단순 선형 모형의 기본 특성, 즉 오차와 예측 변수가 직교 랜덤 변수라는 사실, 때로는 그들에게 놀랍습니다. 확률 변수에서 측정 가능한 공간에 이르기까지 임의 변수 ( "불쾌한"객체! 측정 가능한 함수) 사이에 "각도"를 정의 할 수 있다는 사실은 분명하지만 신입생에게는 반드시 필요한 것은 아닙니다. 따라서 벡터 공간에 대한 연구가 좋은 ol 'Euclidean 평면으로 시작한다면 통계 모델에 대한 연구를 가장 간단한 것으로 시작하는 것이 타당하지 않습니까?
  2. 절차 : 간단한 선형 회귀를 사용하면 가장 간단한 경우 모수 추정 개념과 최소 제곱, 표준 오류 등의 방법을 도입 할 수 있습니다. 이것이 사소한 것이라고 생각한다면, 직업 / 연구에서 통계를 사용하지만 통계학자는 아닌 많은 전문가들이 빈번한 신뢰 구간에 대해 깊이 혼란스러워한다는 것을 명심하십시오! 어쨌든 일단 가장 쉬운 경우가 다루어지면 여러 선형 회귀 분석으로 이동할 수 있습니다. 이것이 마스터되면 모든 선형 모델을 추정 할 수 있습니다. 다시 말해, 모델 (OLS 또는 정규화가 필요한 경우 LARS 등)에 적합 할 수 있다면 종류의 모든 모델에 적합ξ = N i = 0 β i ϕ ( η i ) + ϵξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ. 이것은 @DaeyoungLim이 지적한 바와 같이 힐버트 공간의 모든 함수를 근사 할 수 있고, 무한한 기본 함수가 있고 힐버트 공간에서 밀도가 높은 벡터 부분 공간을 생성하는 경우 매우 강력한 모델입니다. .
  3. 실용적 : 간단한 선형 회귀 분석에 대한 수많은 성공적인 응용이 있습니다. Okun의 경제 법칙 , Hooke의 법칙 , 옴의 법칙 및 물리학 의 Charles 법칙, 혈액 수축 기압과 의학의 나이 사이의 관계 (이름이 있는지 모르겠습니다!)는 모두 다양한 정도의 간단한 선형 회귀의 예입니다. 정확성.

5

또 다른 이유는 회귀 분석이 ANOVA와 같은 기술을 통일적으로 처리 하는 방식 입니다. 나에게, ANOVA의 일반적인 '초등'치료는 상당히 애매한 것처럼 보이지만 회귀 기반 치료는 명백합니다. 나는 이것이 회귀 모형이 '초등'치료에서 암묵적이고 검토되지 않았다는 몇 가지 가정을 명시하는 방식과 많은 관련이 있다고 생각한다. 또한, 이러한 통일 된 관점에서 제공되는 개념적 명확성에는 통계 소프트웨어에서 방법을 구현할 때 유사한 실질적인 이점이 수반됩니다.

이 원칙은 분산 분석뿐만 아니라 제한된 입방 스플라인과 같은 확장에도 적용됩니다.


3

Linear Regression의 인기는 부분적으로 해석 가능성에 기인합니다. 즉, 기술이 아닌 사람들은 약간의 설명만으로 매개 변수 계수를 이해할 수 있습니다. 이는 결과 또는 예측의 최종 사용자가 수학 / 통계를 깊이 이해하지 못하는 비즈니스 상황에서 상당한 가치를 부여합니다.

예,이 기법에는 모든 접근 방식과 마찬가지로 가정 및 제한 사항이 있으며 대부분의 경우에 가장 적합한 것은 아닙니다. 그러나 선형 회귀는 매우 강력하며 가정을 위반하는 경우에도 성능이 매우 우수합니다.

이러한 이유로 공부할 가치가 있습니다.


-2

무언가 관련이 없을 수 있습니다.

xycov(x,y)=0xyyx

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.