나는 현재 회귀 에 대한 최소 제곱 (및 기타) 추정에 대해 배우고 있으며, 일부 적응 알고리즘 문헌에서 읽은 내용에서 종종 "... 그리고 오류 표면이 볼록하기 때문에 ..."라는 문구가 나타납니다. 왜 볼록한 지에 대한 깊이는 어디에서 찾을 수 없습니다.
그렇다면 정확히 볼록 하게 만드는 것은 무엇 입니까?
비용 함수를 사용하여 자체 적응 형 알고리즘을 설계하고 싶기 때문에 반복되는 누락이 약간 성가신 것으로 나타 났지만 비용 함수가 볼록한 오류 표면을 생성하는지 여부를 알 수없는 경우 글로벌 최소값이 없기 때문에 그라디언트 디센트와 같은 것을 적용하는 데 너무 멀어집니다. 창의력을 발휘하고 싶을 수도 있습니다. 예를 들어 최소 제곱을 내 오류 기준으로 사용하고 싶지 않을 수도 있습니다.
더 깊이 파고 들고 (그리고 나의 질문은 여기에서 시작됩니다), 당신이 볼록한 오류 표면을 가지고 있는지 알 수 있으려면, Hessian 행렬 이 양의 반 정밀도 인지 확인해야합니다 . 대칭 수학의 경우이 테스트는 간단합니다. Hessian 행렬의 모든 고유 값이 음수가 아닌지 확인하십시오. (행렬이 대칭이 아닌 경우 Gramian 덕분에 행렬을 자체 조옮김에 추가하고 동일한 고유 값 테스트를 수행하여 대칭으로 만들 수 있지만 여기서는 중요하지 않습니다).
헤 시안 행렬이란 무엇입니까? Hessian 행렬은 비용 함수 부분의 가능한 모든 조합을 체계화합니다. 몇 개의 부분이 있습니까? 피처 벡터의 피처 수만큼. 부분을 계산하는 방법? 원래 비용 함수에서 부분 파생 상품을 '수동으로'가져옵니다.
이것이 바로 내가 한 일입니다. 나는 행렬 로 표시된 x 데이터 행렬을 가지고 있다고 가정합니다 . 여기서, 은 예제 수를 나타내고 은 예제 당 기능 수를 나타냅니다. (이것은 또한 부분의 수입니다). 센서에서 시간 샘플과 공간 샘플을 가지고 있다고 말할 수 있지만 물리적 응용은 여기서 중요하지 않습니다.n X m n m n
또한, 우리는 또한 크기 x 의 벡터 집니다 . (이것은 'label'벡터이거나 모든 행에 해당하는 'answer'입니다 ). 간단히 하기 위해이 특정 예에서는 라고 가정했습니다 . 2 개의 '예'와 2 개의 '특징'.m 1 X m = n = 2
이제 여기에 가장 적합한 '선'또는 다항식을 확인하려고한다고 가정하십시오. 즉, 비용 함수가 다음과 같이 다항식 계수 벡터 에 대해 입력 데이터 기능을 투영합니다 .
이제 첫 번째 부분 미분 wrt (feature 0) 다음과 같습니다.
이제 두 번째 부분을 모두 계산하겠습니다.
우리는 헤 시안이 다음에 지나지 않는다는 것을 알고 있습니다 :
이제 데이터 매트릭스 를 어떻게 구성했는지에 따라 (내 '기능'은 열로, 예제는 행으로 이동합니다) Hessian 은 다음과 같습니다.
... 샘플 공분산 행렬에 불과합니다 !
따라서 어떻게 해석해야할지 잘 모르겠습니다. 또는 내가 어떻게 일반화해야하는지 잘 모르겠습니다. 그러나 나는 말할 수 있다고 생각합니다.
항상 참 :
- Hessian 행렬은 항상 오류 / 비용 표면이 볼록한지 여부를 제어합니다.
- Hessian 행렬이 pos-semi-def 인 경우 볼록합니다 (그리고 최적의 솔루션으로 수렴하기 위해 기울기 강하와 같은 알고리즘을 행복하게 사용할 수 있음).
LSE에만 해당 :
- LSE 비용 기준에 대한 헤 시안 행렬은 원래 공분산 행렬에 지나지 않습니다. (!).
- 나에게 이것은 LSE 기준을 사용하면 데이터 자체 에 볼록면이 있는지 여부를 결정 한다는 것을 의미합니다 . ... 그러면 공분산 행렬의 고유 벡터가 어떻게 든 비용 표면을 '형성'할 수있는 능력이 있다는 것을 의미합니까? 이것이 항상 사실입니까? 아니면 LSE 기준에 맞습니까? 오류 표면의 볼록성이 데이터에 의존해야한다는 것은 나와 함께 앉아 있지 않습니다.
따라서 원래 질문의 맥락에서 다시 말하면 (선택한 일부 비용 함수를 기준으로) 오류 서핑이 볼록한지 여부를 어떻게 결정합니까? 이 결정은 데이터 또는 헤 시안을 기반으로합니까?
감사
TLDR : 비용 함수 및 / 또는 데이터 세트가 볼록 또는 비 볼록 오류 표면을 생성하는지 여부를 결정 하는 방법은 정확하고 실제적 입니까?