닫힌 형태 대 경사 하강에서의 회귀 모수 해결


71

Andrew Ng의 기계 학습 과정 에서 선형 회귀 및 로지스틱 회귀를 소개하고 경사 하강 및 뉴턴의 방법을 사용하여 모형 매개 변수를 맞추는 방법을 보여줍니다.

그래디언트 디센트는 기계 학습의 일부 응용 프로그램 (예 : 역 전파)에 유용 할 수 있지만 더 일반적인 경우 닫힌 형태의 매개 변수를 풀지 못하는 이유가 있습니다. 미적분을 통한 비용 함수와 해결?

일반적으로 폐쇄 형 솔루션에 대해 그래디언트 디센트 (gradient descent)와 같은 반복 알고리즘을 사용하면 어떤 이점이 있습니까?


9
대부분의 glm에서 회귀 매개 변수의 MLE에 대한 닫힌 양식 솔루션이 없다고 생각합니다 (예 : 로지스틱 회귀). 정상적인 오류가있는 선형 회귀는 한 가지 예외입니다.
매크로

5
흥미로운 ... 이것은 다른 통계 패키지가 초기 매개 변수 설정, 반복 횟수, 다중 로컬 최소값 등에 따라 로지스틱 회귀에 대해 다른 응답을 줄 수 있음을 의미합니까? 또는 모든 좋은 통계 패키지가 따르다? (차이가 있다면 대부분의 경우 차이가 거의 없다고 확신하지만)
Jeff

3
(+1) 귀하의 질문과 의견에 Jeff. 로지스틱 회귀와 같은 정식 링크를 사용하는 GLM은 볼록한 특성이 뛰어납니다. 그러한 문제를 해결하기 위해 하나 이상의 알고리즘이있을 수 있지만, 이것의 기본적인 결론은 (몇몇 매우 작은 세부 사항) 모듈로 잘 구현 된 수치 알고리즘이 그들 사이에 일관된 결과를 제공한다는 것입니다.
추기경

2
나는 앤드류 응 (Andrew Ng)의 과정을 개인적으로 싫어한다. 왜냐하면 사람들은 선형 회귀가 "기계 학습"이라고 믿게했기 때문이다.
Digio

답변:


85

폐쇄 형 솔루션이 계산하는 데 비용이 많이 드는 경우가 아니라면 일반적으로 솔루션을 사용할 수있는 방법입니다. 하나,

  1. 대부분의 비선형 회귀 문제의 경우 닫힌 형태 솔루션이 없습니다.

  2. 선형 회귀 (폐쇄 형 솔루션을 사용할 수있는 몇 가지 경우 중 하나)에서도 공식을 사용하는 것은 실용적이지 않을 수 있습니다. 다음 예제는 이것이 발생할 수있는 한 가지 방법을 보여줍니다.

y=XβX

β^=argminXβy2

~에 의해 주어진다

β^=(XTX)1XTy

이제 가 매우 크지 만 희소 행렬 이라고 상상해보십시오 . 예를 들어 는 100,000 개의 열과 1,000,000 개의 행을 가질 수 있지만 의 항목 중 0.001 %만이 0이 아닙니다 . 이러한 희소 행렬의 0이 아닌 항목 만 저장하기위한 특수 데이터 구조가 있습니다. XXX

또한 우리가 운이 좋지 않다고 가정하고 는 0이 아닌 항목의 비율이 훨씬 높은 상당히 조밀 한 행렬입니다. 밀도가 100,000 x 100,000 인 요소 행렬을 저장하려면 부동 소수점 숫자가 필요합니다 (숫자 당 8 바이트에서 80 기가 바이트가 됨). 그러나 슈퍼 컴퓨터. 또한이 행렬의 역수 (또는 일반적으로 C 레 스키 (Cholesky) 계수)도 대부분 0이 아닌 항목을 갖는 경향이 있습니다. XTXXTX1×1010

그러나 , 및 보다 더 많은 저장 공간이 필요하지 않고 행렬 곱 명시 적으로 형성하지 않는 최소 제곱 문제를 해결하기위한 반복적 인 방법이 있습니다 . Xyβ^XTX

이 상황에서 반복 방법을 사용하는 것은 닫힌 제곱 솔루션을 최소 제곱 문제에 사용하는 것보다 훨씬 계산적으로 효율적입니다.

이 예는 터무니없이 커 보일 수 있습니다. 그러나이 크기의 큰 희소 최소 제곱 문제는 지진 단층 촬영 연구에서 데스크톱 컴퓨터의 반복적 인 방법으로 일상적으로 해결됩니다.


4
최소 제곱 문제에 대해 닫힌 양식 솔루션을 사용하는 것이 바람직하지 않은 수치 정확도 문제도 언급해야합니다. 그러나 이것은 원래 포스터에 대한 현재의 이해를 넘어서는 것으로 보이는 잘못된 컨디셔닝에 대한 논의가 필요합니다.
브라이언 Borchers

17
내가 이해할 것이라고 생각하지 않기 때문에 주저하지 말고 답변을 게시하십시오. 첫째, 더 많은 정보를 제공하는 것이 아프지 않을 것입니다. 정보를 파악하기 위해 약간의 연구가 필요합니다. 둘째, stackexchange 모델은이 질문과 답변이 향후 다른 사람들에게 도움이 될 것이라고 가정합니다. 다시 말해 OP가 알고 있다고 생각하는 정도에 따라 답을 멍청하게 만들지 마십시오.
Jeff

2
@Brian, 내 의견은 귀하의 의견이 문제의 핵심에 더 가깝고 답변의 첫 번째 문장과 약간 상충된다는 것입니다. 나는 생각하지 않는다 어떤 (오른쪽 마음에) 최소 제곱 소프트웨어가 폐쇄 된 형태의 솔루션을 사용합니다. :)
추기경

4
실제로는 소규모 인수 최소 제곱 문제를 해결하기 위해 QR 분해 또는 SVD를 사용하는 것이 가장 좋습니다. 이러한 직교 인수 분해 중 하나를 사용하는 솔루션은 LSQR과 같은 반복 기술을 사용하는 것과 비교하여 "폐쇄 형 솔루션"이라고 주장합니다. 필자는 필자의 요점에서 불필요하게주의를 끌기 때문에 대답에서 이것을 탐구하지 않았다.
Brian Borchers

2
컨디셔닝? 교과서 폐쇄 양식 솔루션? 나는 아침에 제곱 상태의 냄새를 좋아합니다. 큰 조건 번호가 있습니까? 왜 그것을 제곱하고 더 크게 만드 지 않습니까? 너무 크지 않은 조건 번호가 있습니까? 왜 그것을 제곱하지 않고 크게 만드십시오.
Mark L. Stone

2

기계 학습 (ML) 및 회귀에 대한 여러 게시물이 있습니다. ML은 선형 방정식 시스템을 해결하기위한 1 단계 매트릭스 샌드위치 연산 (예 : 포함하므로 OLS (일반 최소 제곱)을 푸는 데 필요하지 않습니다. . 모든 것이 선형이라는 사실은 계수를 풀기 위해 단 한 단계의 조작 만 필요하다는 것을 의미합니다. 로지스틱 회귀 분석은 가능성 함수 를 최대화합니다 . 이는 Newton-Raphson 또는 기타 ML 기울기 상승 방법, 메타 휴리스틱 (힐 클라이밍, 유전자 알고리즘, 무리 지성, 개미 식민지 최적화 등)을 사용하여 해결할 수 있습니다. . β=(XTX)1XTyL=ipi

parsimony와 관련하여 반복 학습이 OLS를 해결하는 데 비효율적이므로 OLS에 ML을 사용하는 것은 낭비입니다.

이제 그라디언트 기반 문제를 해결하기위한 미분 대 ML 접근 방식에 대한 실제 질문으로 돌아가십시오. 특히 로지스틱 회귀 분석에는 Newton-Raphson의 기울기 하강 (파생 기반) 접근 방식이 일반적으로 사용됩니다. Newton-Raphson은 각 함수의 목적 함수와 부분 도함수를 알고 있어야합니다 (한계에서 연속적이고 차별화 가능). ML은 목적 함수가 너무 복잡하고 ( "마음") 미분을 모르는 경우 주로 사용됩니다. 예를 들어, 인공 신경망 (ANN)을 사용하여 기능 근사 문제 또는 감독 분류 문제를 해결할 수 있습니다. 이 경우 ANN이 기능입니다.

로지스틱 회귀 문제를 해결하기 위해 ML 방법을 사용하는 실수를 저 지르지 마십시오. 물류의 경우 Newton-Raphson은 매우 빠르며 문제를 해결하기위한 적절한 기술입니다. ML은 기능이 무엇인지 모르는 경우 일반적으로 사용됩니다. (ANN은 ML이 아닌 컴퓨터 지능 분야에서 나왔습니다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.