귀하의 질문에 대답 할 때 고려해야 할 중요한 부분은
자동차 가격을 예측하기위한 최고의 모델을 찾고 있습니다
이 문장 은 모델을 사용하려는 이유 에 대해 설명 하기 때문 입니다. 모델 선택 및 평가는 적합치로 달성하려는 목표를 기반으로해야합니다.
첫째, 요점을 되풀이 할 수 있습니다 무엇 않습니다R2 내가 당신이 이미 알고있는 나는 차 손실 함수를 기반으로 확장 측정, 계산 :. 이것을보기 위해 잔류 정의 하여 i 번째 관측 Y I 및 대응하는 피팅 값 (Y) 나 . 편리한 표기법 사용 S S R : = ∑ N i = 1 e 2 i , S S T : = ∑ei=yi−y^iyiy^iSSR:=∑Ni=1e2i,R2는 간단히R2=1-SSR/SST로 정의됩니다.SST:=∑Ni=1(yi−y¯)2R2R2=1−SSR/SST
둘째, 모델 선택 / 평가에 R 2 를 사용하는 것이 무엇을 의미 하는지R2 봅시다 . 모델 M : M ∈ M을 사용하여 생성 된 예측 중에서 선택한다고 가정합니다 . 여기서 M 은 고려중인 모델의 모음입니다 (예 :이 모음에는 신경망, 임의 포리스트, 탄력적 그물, ...). S S T 는 모든 모델에서 일정하게 유지 되므로 R 2 를 최소화하면 S S R 을 최소화하는 모델을 정확하게 선택하게됩니다 . 다시 말해, 당신은 선택합니다Y¯MM:M∈MMSSTR2SSR최소 제곱 오차 손실을 생성하는 M ∈ M !M∈M
셋째, 왜 R2 또는 이 모델 선택에 흥미로울 수 있는지를 생각해 보자 . 전통적으로, 제곱 손실 ( L 2 규범)은 다음 세 가지 이유로 사용됩니다. (1) 계산에 절대 값이 표시되지 않기 때문에 최소 절대 편차 (LAD, L 1 규범) 보다 계산이 더 쉽습니다 . (2) 적합 LAD보다 훨씬 큰 실제 값 (절대적인 의미가 아닌 제곱으로 표시)에서 멀리 떨어져있는 값을 사용하여 극단 값을 줄입니다. (3) 대칭 : 자동차 가격을 과대 또는 과소 평가하는 것은 똑같이 나쁜 것으로 간주됩니다.SSR L2L1
넷째 (마지막), 이것이 여러분의 예측에 필요한 것인지 살펴 보겠습니다 . 여기서 가장 흥미로운 점은 마지막 단락에서 (3)입니다. 중립적 인 입장을 취하고 자동차 구매자 나 판매자가 아니라고 가정 해 봅시다. 그러면 는 의미가 있습니다. 당신은 공평하며, 동일하게 초과 또는 미달하는 편차를 처벌하고자합니다. 관찰되지 않은 값을 예측하지 않고 수량 간의 관계를 모델링하려는 경우에도 마찬가지입니다. 이제 예산이 부족한 소비자 / 구매자를 위해 일한다고 가정 해 봅시다.이 상황에서는 가격의 과대 평가를 2 차적 의미로, 과소 평가는 L p 의미에서 1 ⩽ pR2Lp . 를 들어 , P = 1 , 당신은 절대 편차 의미에서 처벌 것이다. 이는 구매자의 목표와 의도를 반영하는 것으로 볼 수 있으며, 추정치를 하향 편향시키는 것이 관심을 가질 수 있습니다. 반대로 판매자의 가격 예측을 모델링하는 경우 생각을 뒤집을 수 있습니다. 말할 필요도없이, 어떤 규범 L의 p를 위한 / 에이전트에게 모델을 모델러의 기본 설정을 반영하기 위해 선택 될 수있다. 또한 L p 규범밖에서완전히처벌 할 수 있으며한쪽에서는 일정, 지수 또는 로그 손실을 사용하고 다른 쪽에서는 다른 손실을 사용할 수 있습니다.1⩽p<2p=1LpLp
요약하면, 모델 선택 / 평가는 모델의 목표와 독립적으로 고려 될 수 없습니다.