다른 용어는 다른 규칙을 제안합니다. "잔여"라는 용어는 모든 설명 변수가 고려 된 후에 남은 것, 즉 실제 예측 된 것을 의미한다. "예측 오류"는 예측이 실제, 즉 예측-실제와 얼마나 차이가 있는지를 나타냅니다.
모델링의 개념은 또한 어떤 컨벤션이 더 자연스러운 지에 영향을줍니다. 하나 이상의 기능 열 , 응답 열 및 예측 열 가있는 데이터 프레임이 있다고 가정합니다 .X=x1,x2...yy^
한 가지 개념은 가 "실제"값이고 는 단순히 변형 된 버전입니다 . 이 개념에서 와 는 모두 임의 변수입니다 ( 는 파생 변수 임). 하지만 우리가 실제로 관심있는 하나입니다, 우리가 관찰 할 수있는 하나입니다 위한 프록시로 사용되는 . "오류"는 이 "true"값 에서 가 얼마나 많이 벗어나 는지 입니다. 이는이 편차의 방향에 따라 오류를 정의하는 것을 제안합니다 (예 : .yy^Xyy^y^yy^y^yy^ye=y^−y
그러나 를 "실제"값으로 생각하는 또 다른 개념이 있습니다. 즉, y는 결정 론적 과정을 통해 의존 한다. 의 특정 상태 는 특정 결정 론적 가치를 발생시킵니다. 이 값은 임의의 프로세스에 의해 혼란스러워집니다. 따라서 우리는 입니다. 이 개념에서 는 의 "실제"값입니다. 예를 들어 중력으로 인한 가속도 인 g의 값을 계산하려고한다고 가정합니다. 많은 물체를 떨어 뜨려 떨어 뜨린 거리 ( )와 떨어질 때까지 걸린 시간 ( )을 측정합니다. 그런 다음 y = 모델로 데이터를 분석하십시오.y^XXx→f(X)→f(X)+error()y^Xy2xg−−√. 이 방정식이 정확하게 작동하는 g 값이 없다는 것을 알았습니다. 그런 다음 이것을 다음과 같이 모델링하십시오.
y^=2xg−−√
y=y^+error .
즉, 변수 y를을하고 "진짜"가치가있을 생각이다 실제 물리 법칙에 의해 생성되고, 다음 몇 가지 다른 값 입니다 의 어떤 독립적 인 수정 , 등 측정 오류 또는 바람 돌풍 또는 기타.y^yy^X
이 개념에서, 당신은 y = 를 현실이 "해야 할"행동으로 취하고 있으며, 당신이 그것에 동의하지 않는 답변을 얻는다면, 현실은 잘못된 답변. 물론 이것은 이런 식으로 말하면 다소 어리 석고 거만 해 보일 수 있지만,이 개념을 진행하는 데에는 충분한 이유가 있으며, 이런 식으로 생각하는 것이 유용 할 수 있습니다. 그리고 궁극적으로 모델 일뿐입니다. 통계 학자들은 이것이 실제로 세상이 어떻게 작동하는지 반드시 생각하지는 않습니다 (아마도 누군가가있을 수도 있지만). 그리고 방정식 주어지면, 실제로는 마이너스가 예측됩니다.2xg−−√y=y^+error
또한 두 번째 개념의 "실제로 잘못 이해"측면이 마음에 들지 않으면 "y가 의존하는 일부 프로세스 f를 식별 했지만 우리는 얻지 못하고 있습니다. "정답이 맞습니다. y에도 영향을주는 다른 프로세스가 있어야합니다." 이 변형에서X
y^=f(X)
y=y^+g(?)
g=y−y^ 입니다.