선형 회귀는 더 이상 사용되지 않습니까? [닫은]


12

나는 현재 선형 회귀 수업에 있지만, 내가 배우고있는 것이 더 이상 현대 통계 나 기계 학습과 관련이 없다는 느낌을 흔들 수 없습니다. 요즘 많은 흥미로운 데이터 세트가 선형 회귀에 대한 비현실적인 많은 가정을 자주 위반할 때 단순 또는 다중 선형 회귀에 대한 추론에 많은 시간을 소비하는 이유는 무엇입니까? 서포트 벡터 머신이나 가우시안 프로세스를 사용한 회귀와 같이보다 유연하고 현대적인 도구에 대한 추론을 대신 가르치지 않겠습니까? 우주에서 초평면을 찾는 것보다 더 복잡하지만, 이것이 오늘날의 문제를 해결하는 데 훨씬 더 나은 배경을 제공하지 않습니까?


10
스크루 드라이버가 망치를 쓸모 없게합니까? 아니면 각각 다른 작업을 수행합니까?
Sycorax는 Reinstate Monica가

6
나는 칼, 톱, 두 개의 다른 드라이버, 한 쌍의 펜치 및 아마도 다른 두 가지로 기능하는 멀티 툴을 가지고 있지만 그 도구 중 하나가 필요할 때 가장 마지막에 도달해야합니다. 핀치에서만 유용하며 결코 "작업에 가장 적합한 도구"가 아닙니다.
대런

7
실제 사람들이 직면 한 많은 상황은 소음이 매우 적은 매우 작은 데이터 세트와 관련이 있습니다. 대부분의 경우 더 복잡한 모델은 실현 가능하지 않지만 일반 선형 모델은 최소한 10 분의 1 이상의 시간이 소요됩니다. 대규모 데이터 세트 (및 관련 문제)는 계속 진행되는 전체 데이터 분석의 비율로 계속 증가하지만 매우 작은 데이터 세트 및 상대적으로 간단한 분석은 사라지지 않습니다. 또한 더 정교한 도구는 역사적으로뿐만 아니라 개념적으로 더 간단한 도구 위에 직접 구축됩니다.
Glen_b-복지 주 모니카

6
선형 회귀가 지속적으로 실용적으로 사용되는 많은 상황 외에도 광범위한 고급 첨가제 모델에 대해 학습하는 데 기초가된다는 점도 지적 할 가치가 있습니다. 그런 점에서이 질문은 미적분이 산술을 쓸모 없게 만드는지 묻는 것과 같습니다.
Jacob Socolar

1
@ Aksakal 정교하게 부탁드립니다. 베이지안 최적화에 사용하는 것은 어떻습니까?
Mark L. Stone

답변:


24

선형 회귀의 가정이 현실적이지 않다는 것은 사실입니다. 그러나 이것은 모든 통계 모델에 해당됩니다. "모든 모델이 잘못되었지만 일부는 유용합니다."

더 복잡한 모델을 사용할 수있을 때 선형 회귀를 사용할 이유가 없다는 인상을 받았다고 생각합니다. 일반적으로 더 복잡한 모델은 과적 합에 더 취약하고 더 많은 계산 리소스를 사용하기 때문에 내장 프로세서 나 웹 서버에서 통계를 수행하려는 경우 중요합니다. 간단한 모델도 이해하고 해석하기가 더 쉽습니다. 대조적으로, 신경망과 같은 복잡한 기계 학습 모델은 다소 블랙 박스로 끝나는 경향이 있습니다.

언젠가 선형 회귀가 더 이상 실용적이지 않더라도 (예상 할 수 없을 것 같지만) 더 복잡한 모델은 선형 회귀를 기반으로하는 경향이 있기 때문에 이론적으로 여전히 중요합니다. 예를 들어, 정규화 된 혼합 효과 로지스틱 회귀를 이해하려면 먼저 일반 선형 선형 회귀를 이해해야합니다.

더 복잡하고 새롭고 더 빛나는 모델이 유용하거나 중요하지 않다는 것은 아닙니다. 그들 중 많은 사람들이 있습니다. 그러나 더 간단한 모델은 더 광범위하게 적용 가능하므로 더욱 중요하며 다양한 모델을 제시하려는 경우 먼저 제시하는 것이 좋습니다. 요즘 자신을 "데이터 과학자"라고 부르거나 신뢰 구간이 실제로 무엇인지와 같은 기초적인 내용조차 모르는 사람들이 수행 한 나쁜 데이터 분석이 많이 있습니다. 통계하지 마십시오!


"복잡한 모델"의 의미를 명확하게 설명 할 수 있습니까? OP도 같은 의미입니까?
Hatshepsut

1
@Hatshepsut 실제로 선형 회귀 또는 특별한 경우가 아닌 모든 것. OP는 SVM과 가우시안 프로세스 모델을 예로 들었습니다. 혼합 모형, 로지스틱 회귀 및 페널티 회귀에 대해 언급했습니다. 다른 예로는 의사 결정 트리, 신경망, MARS, 베이지안 계층 모델 및 구조 방정식 모델이 있습니다. 한 모델이 다른 모델보다 복잡한 지 또는 모델로 정확히 계산되는지 결정하는 방법은 상호 검증 된 질문입니다.
Kodiologist

"과적 합"; 가중 지수의 합으로 밝혀진 것에 맞추기 위해 9 차 다항식을 사용하는 것과 같습니다. 플롯이 노이즈 레벨 바로 위의 계측기 오류를 재현하는 데 적합합니다. 나는 실제로 그 다항식을 사용하는 것이 더 잘 작동했는지 궁금합니다.
Joshua

7

선형 회귀는 일반적으로 더 이상 사용되지 않습니다 . LASSO 관련 방법에 대한 연구를 수행하는 사람들이 여전히 있으며 여러 테스트와 관련이 있습니다. 예를 들어 Google Emmanuel Candes와 Malgorzata Bogdan이 있습니다.

특히 OLS 알고리즘에 대해 묻는다면 그들이 가르치는 이유는 방법이 너무 간단하여 폐쇄 형 솔루션을 가지고 있다는 것입니다. 또한 능선 회귀 또는 lasso / elasticnet 버전보다 간단합니다. 간단한 선형 회귀 분석을 위해 솔루션에 직관 / 증거를 구축 한 다음 추가 구속 조건으로 모델을 보강 할 수 있습니다.


3

나는 회귀가 오래되었다고 생각하지 않으며, 현재 데이터 과학자들이 직면하고있는 일부 문제에 대해서는 사소한 것으로 간주 될 수 있지만 여전히 통계 분석의 ABC입니다. 가장 간단한 모델이 어떻게 작동하는지 모르는 경우 SVM이 올바르게 작동하는지 어떻게 알 수 있습니까? 이러한 간단한 도구를 사용하면 복잡한 복잡한 모델로 뛰어 들기 전에 데이터를 살펴보고 추가 분석에 사용할 수있는 도구와 사용할 수없는 도구에 대해 깊이 이해하는 방법을 알려줍니다. 교수님과 동료와의 대화를 마치고 나면 복잡한 모델을 적용 할 수있는 학생들은 있지만 레버리지가 무엇인지 이해하지 못하거나 데이터에 무엇이 잘못되었는지 이해하기 위해 간단한 QQ 플롯을 읽을 수 없다고 말했습니다. 가장 단순하고 읽기 쉬운 모델에는 종종 아름다움이 있습니다.


3

짧은 대답은 ' 아니요' 입니다. 예를 들어, MNIST 데이터로 선형 모델을 사용하면 정확도의 ~ 90 %를 얻을 수 있습니다!

긴 대답은 "도메인에 따라"이지만 선형 모델이 널리 사용됩니다.

  • 의학 연구와 같은 특정 분야에서는 하나의 데이터 포인트를 얻는 것이 매우 비쌉니다. 그리고 분석 작업은 수년 전과 유사합니다. 선형 회귀는 여전히 매우 중요한 역할을합니다.

  • 텍스트 분류와 같은 morden 기계 학습에서는 선형 모델이 여전히 매우 중요하지만 다른 더 멋진 모델이 있습니다. 이것은 선형 모델이 매우 "안정적"이기 때문에 데이터에 너무 적합하지 않을 것입니다.

마지막으로 선형 모델은 실제로 대부분의 다른 모델의 빌딩 블록입니다. 잘 배우면 미래에 도움이 될 것입니다.


2

실제적인 관점에서 선형 회귀는 작업에 더 복잡한 모델을 사용하는 경우에도 유용합니다. 핵심은 선형 회귀를 이해하기 쉽고보다 복잡한 모델에서 발생하는 것을 개념적으로 이해하는 데 사용하기 쉽다는 것입니다.

통계 분석가로서 실생활에서 실용적 응용 사례를 제공 할 수 있습니다. 대규모의 데이터 세트를 사용하여 감독되지 않은 야생에서 자신을 발견하면 상사가 데이터에 대한 분석을 요청합니다. 어디에서 시작합니까? 글쎄, 만약 당신이 데이터 셋에 익숙하지 않고 다양한 기능들이 서로 어떻게 연관되어 있을지에 대한 좋은 아이디어가 없다면, 당신이 제안한 것과 같은 복잡한 모델은 조사하기에 나쁜 곳입니다.

대신 가장 좋은 시작은 단순한 오래된 선형 회귀입니다. 회귀 분석을 수행하고 계수를보고 잔차를 그래프로 표시하십시오. 데이터가 어떻게 진행되고 있는지 확인한 후에는 적용하려는 고급 방법에 대해 몇 가지 결정을 내릴 수 있습니다.

sklearn.svm과 같은 고급 모델 블랙 박스에 데이터를 꽂으면 (파이썬에있는 경우) 결과가 의미가 있다고 확신 할 수 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.