나는 위의 대답에 약간 혼란 스러웠으므로 다른 기회를 주겠다. 문제는 실제로 '고전적인'선형 회귀에 관한 것이 아니라 특정 소스의 스타일에 관한 것입니다. 고전 회귀 부분에서 :
그러나 선형성 가정 자체는 모델에 어떤 구조도 두지 않습니다.
절대적으로 맞습니다. 언급했듯이 은 선형 관계를 죽이고 와 완전히 독립적 인 것을 더하여 모델을 전혀 계산할 수 없습니다.XϵX
그린은 조잡합니까? 실제로 작성 했어야합니까 :E(y|X)=Xβ
첫 번째 질문에 대답하고 싶지 않지만 일반적인 선형 회귀 분석에 필요한 가정을 요약하겠습니다.
대해 데이터 포인트 및 을 관찰한다고 가정 해 봅시다 . 관찰 한 데이터 는 독립적으로 동일하게 분포 된 무작위 변수 에서 나온 것으로 가정해야 합니다 ...Y 난 ∈ R을 난 = 1 , . . . , n ( x i , y i ) ( X i , Y i )xi∈Rdyi∈Ri=1,...,n(xi,yi)(Xi,Yi)
존재 고정 (독립적 ) 되도록 모든 랜덤 변수 되도록 설정된다β ∈ R d Y i = β X i + ϵ i i ϵ iiβ∈RdYi=βXi+ϵiiϵi
물론 IID되고 같은 분포 ( 독립적이어야 아니라)ϵ 나는ϵiϵiN(0,σ)σi
들면 및 변수 일반적인 농도, 즉 하나의 확률 변수가 밀도를 갖는다X=(X1,...,Xn)Y=(Y1,...,Yn)X,Y(X,Y)fX,Y
이제 일반적인 경로를 따라 계산하고 계산할 수 있습니다.
fY|X(y|x)=fY,X(y,x)/fX(x)=(12πd−−−√)nexp(−∑ni=1(yi−βxi)22σ)
기계 학습 (오류 함수의 최소화)과 확률 이론 (우도의 최대화) 사이의 일반적인 '이중성' 을 통해 실제로 에서 를 최대화 할 수 있습니다. 일반적인 "RMSE"물건.β−logfY|X(y|x)β
언급 한 바와 같이 : 인용하려는 책의 저자가이 점을 밝히기를 원한다면 (기본 설정에서 '최상의 가능한'회귀선을 계산할 수 있어야하는 경우) 그래야 합니다. 이 책의 어딘가에있는 의 정규성에 대해이 가정을한다 .ϵ
현재 다른 가능성이 있습니다.
그는이 가정을이 책에 기록하지 않습니다. 그러면 책에 오류가 있습니다.
그는 ' 을 쓸 때마다 은 달리 명시되지 않는 한 평균 0으로 분배됩니다. 그런 다음 IMHO 나쁜 스타일입니다. 바로 지금 느끼는 혼란을 유발하기 때문입니다. 그렇기 때문에 나는 모든 정리 에서 가정을 약간 단축 된 형태로 쓰는 경향이 있습니다. 그래야만 모든 빌딩 블록을 자체적으로 깨끗하게 볼 수 있습니다.ϵ+ϵϵ
- 그는 당신이 인용하는 부분에 그것을 적어두고 당신 / 우리는 그것을 알아 차리지 못했습니다 (또한 가능성 :-))
그러나 엄격한 수학적 의미에서도 정상적인 오류는 정식적인 것입니다 (최고 엔트로피를 가진 분포 (변형이 일단 수정되면), 따라서 가장 강한 모델을 생성 함). 일부 저자는이 가정을 건너 뛰지 만 그럼에도 불구하고 사용합니다 . 공식적으로, 당신은 절대적으로 맞습니다 : 그들은 "잘못된 방법으로"수학을 사용하고 있습니다. 그들이 위에서 언급 한 밀도 대한 방정식을 생각해 내고 싶을 때마다 을 알아야 합니다. 그렇지 않으면 적어 놓으려는 모든 의미있는 방정식에서 그 속성이 날아갑니다. . ϵfY|Xϵ