만으로는 적합도의 좋은 척도가 아니지만모델링에서parsimony가 중요하다는 점을 제외하고는 여기에 들어 가지 마십시오.R2
이를 위해 탐색 적 데이터 분석 (EDA) 및 회귀 ( 단순 또는 기타 자동화 된 절차는 아님 ) 의 표준 기술은 선형 모델을 사용하는 것이 좋습니다.
f−−√=a+b∗c+a∗b∗c+constant+error
OLS를 사용하면 0.99 이상의 가 달성 됩니다. 이러한 결과로 기운 하나는 양측 회귀 정사각형 유혹 F를 에 , B * C , * B * C , 및 모든 사각형 및 제품. 이것은 즉시 모델을 생성합니다R2fab∗ca∗b∗c
f=a2+b∗c+constant+error
루트 MSE가 34 미만이고 조정 된 가 0.9999 인 경우R2 . 추정 된 1.0112 및 0.988 계수는 공식을 사용하여 데이터를 인위적으로 생성 할 수 있음을 나타냅니다.
f=a2+b∗c+50
약 50에 상당하는 SD의 약간의 정규 분포 오차.
편집하다
@knorv의 힌트에 따라 분석을 계속했습니다. 이를 위해 원래 변수에 대해 잔차의 산점도 행렬을 검사하는 것으로 시작하여 지금까지 성공한 기술을 사용했습니다. 아니나 다를까, 사이의 상관 관계에 대한 명확한 표시가 있었다 및 잔차가 (심지어 OLS의 회귀 불구하고 F 에 대한 , 2 , 및 B * C 않았다 하지 표시 A가 "상당한"이었다). 이 정맥에서 계속 나는 차 용어들과 상관 탐구 2 , ... , 전자 2 , 을 *afaa2b∗ca 와 새로운 잔차는 b 2 와 작지만 매우 중요한 관계를 찾았 습니다. "매우 중요하다"는이 스누핑은 모두 20 가지의 다른 변수를 살펴 보는 것을 의미하므로,이 낚시 원정의 중요성에 대한 나의 기준은 대략 0.05 / 20 = 0.0025입니다.a2,…,e2,a∗b,a∗c,…,d∗eb2
이것은 우리가 "흥미로운"계수와 "단순한"계수와의 관계를 예상하고 검색한다는 점에서 물리적 모델의 특징을 가지고 있습니다. 예를 들어, 의 추정 계수 가 -0.0092 (95 % 신뢰도로 -0.005와 -0.013 사이)임을 알았을 때 -1/100을 사용하기로 결정했습니다. 이것이 사회 또는 정치 시스템의 관찰과 같은 다른 데이터 세트라면, 나는 그러한 변경을하지 않고 OLS 추정을 그대로 사용합니다.b2
어쨌든, 개선 된 착용감은
f=a+a2+b∗c−b2/100+30.5+error
평균 잔차 , 표준 편차 26.8, -50과 +43 사이의 모든 잔차 및 비정규성에 대한 증거는 없음 (그러한 작은 데이터 세트를 사용하더라도 오류가 균일하게 분포되어 실제로 차이를 알 수는 없음) 약 50에서 약 25까지의 잔차 표준 편차 감소는 종종 "잔차 분산의 75 %를 설명하는"것으로 표현됩니다.0
이 I 인 것을 더 특징으로 확인되지 데이터를 생성하는 데 사용되는 식 . 잔차는 일부 계수에서 상당히 큰 변화를 허용 할만큼 충분히 큽니다. 예를 들어, , b 2 및 상수 의 계수에 대한 95 % CI 는 각각 [-0.4, 2.7], [-0.013, -0.003] 및 [-7, 61]입니다. 요점은 임의의 오류가 실제로 데이터 생성 절차에 도입 된 경우 (그리고 모든 실제 데이터에 적용되는 경우), 계수 (및 관련 될 수있는 모든 변수의 결정적인 식별)를 배제 할 수 있다는 것입니다. ). 그것은 통계적 방법의 한계가 아닙니다 : 그것은 단지 수학적 사실 일뿐입니다.ab2
BTW, 강력한 회귀를 사용하여 모델에 적합
f=1.0103a2+0.99493b∗c−0.007b2+46.78+error
잔차 SD는 27.4이고 모든 잔차는 -51과 +47 사이입니다. 본질적으로 이전 적합치보다 우수하지만 변수가 하나 적습니다. 그런 의미에서 더 포용 적이지만 계수를 "좋은"값으로 반올림하지 않았다는 의미에서는 덜 포용 적입니다. 그럼에도 불구하고, 이것은 어떤 종류의 계수가 어떤 변수를 포함해야하는지에 대한 엄격한 이론이없는 회귀 분석에서 일반적으로 선호하는 형식입니다.
R2
FF"연소 수율"이고AA연료의 양, 그리고BB당신의 상호 작용 용어를 찾을 것입니다, 산소의 양이었다AA과BB