만으로는 적합도의 좋은 척도가 아니지만모델링에서parsimony가 중요하다는 점을 제외하고는 여기에 들어 가지 마십시오.R2
이를 위해 탐색 적 데이터 분석 (EDA) 및 회귀 ( 단순 또는 기타 자동화 된 절차는 아님 ) 의 표준 기술은 선형 모델을 사용하는 것이 좋습니다.
f−−√=a+b∗c+a∗b∗c+constant+error
OLS를 사용하면 0.99 이상의 가 달성 됩니다. 이러한 결과로 기운 하나는 양측 회귀 정사각형 유혹 F를 에 , B * C , * B * C , 및 모든 사각형 및 제품. 이것은 즉시 모델을 생성합니다R2fab∗ca∗b∗c
f=a2+b∗c+constant+error
루트 MSE가 34 미만이고 조정 된 가 0.9999 인 경우R2 . 추정 된 1.0112 및 0.988 계수는 공식을 사용하여 데이터를 인위적으로 생성 할 수 있음을 나타냅니다.
f=a2+b∗c+50
약 50에 상당하는 SD의 약간의 정규 분포 오차.
편집하다
@knorv의 힌트에 따라 분석을 계속했습니다. 이를 위해 원래 변수에 대해 잔차의 산점도 행렬을 검사하는 것으로 시작하여 지금까지 성공한 기술을 사용했습니다. 아니나 다를까, 사이의 상관 관계에 대한 명확한 표시가 있었다 및 잔차가 (심지어 OLS의 회귀 불구하고 F 에 대한 , 2 , 및 B * C 않았다 하지 표시 A가 "상당한"이었다). 이 정맥에서 계속 나는 차 용어들과 상관 탐구 2 , ... , 전자 2 , 을 *afaa2b∗ca 와 새로운 잔차는 b 2 와 작지만 매우 중요한 관계를 찾았 습니다. "매우 중요하다"는이 스누핑은 모두 20 가지의 다른 변수를 살펴 보는 것을 의미하므로,이 낚시 원정의 중요성에 대한 나의 기준은 대략 0.05 / 20 = 0.0025입니다.a2,…,e2,a∗b,a∗c,…,d∗eb2
이것은 우리가 "흥미로운"계수와 "단순한"계수와의 관계를 예상하고 검색한다는 점에서 물리적 모델의 특징을 가지고 있습니다. 예를 들어, 의 추정 계수 가 -0.0092 (95 % 신뢰도로 -0.005와 -0.013 사이)임을 알았을 때 -1/100을 사용하기로 결정했습니다. 이것이 사회 또는 정치 시스템의 관찰과 같은 다른 데이터 세트라면, 나는 그러한 변경을하지 않고 OLS 추정을 그대로 사용합니다.b2
어쨌든, 개선 된 착용감은
f=a+a2+b∗c−b2/100+30.5+error
평균 잔차 , 표준 편차 26.8, -50과 +43 사이의 모든 잔차 및 비정규성에 대한 증거는 없음 (그러한 작은 데이터 세트를 사용하더라도 오류가 균일하게 분포되어 실제로 차이를 알 수는 없음) 약 50에서 약 25까지의 잔차 표준 편차 감소는 종종 "잔차 분산의 75 %를 설명하는"것으로 표현됩니다.0
이 I 인 것을 더 특징으로 확인되지 데이터를 생성하는 데 사용되는 식 . 잔차는 일부 계수에서 상당히 큰 변화를 허용 할만큼 충분히 큽니다. 예를 들어, , b 2 및 상수 의 계수에 대한 95 % CI 는 각각 [-0.4, 2.7], [-0.013, -0.003] 및 [-7, 61]입니다. 요점은 임의의 오류가 실제로 데이터 생성 절차에 도입 된 경우 (그리고 모든 실제 데이터에 적용되는 경우), 계수 (및 관련 될 수있는 모든 변수의 결정적인 식별)를 배제 할 수 있다는 것입니다. ). 그것은 통계적 방법의 한계가 아닙니다 : 그것은 단지 수학적 사실 일뿐입니다.ab2
BTW, 강력한 회귀를 사용하여 모델에 적합
f=1.0103a2+0.99493b∗c−0.007b2+46.78+error
잔차 SD는 27.4이고 모든 잔차는 -51과 +47 사이입니다. 본질적으로 이전 적합치보다 우수하지만 변수가 하나 적습니다. 그런 의미에서 더 포용 적이지만 계수를 "좋은"값으로 반올림하지 않았다는 의미에서는 덜 포용 적입니다. 그럼에도 불구하고, 이것은 어떤 종류의 계수가 어떤 변수를 포함해야하는지에 대한 엄격한 이론이없는 회귀 분석에서 일반적으로 선호하는 형식입니다.
R2
FF
"연소 수율"이고AA
연료의 양, 그리고BB
당신의 상호 작용 용어를 찾을 것입니다, 산소의 양이었다AA
과BB