다른 데이터 세트에서 동일한 모델의 회귀 계수 비교


12

동일한 냉동 시스템에 사용 된 2 개의 냉매 (가스)를 평가하고 있습니다. 평가를 위해 포화 흡입 온도 ( ), 응축 온도 ( ) 및 전류량 ( ) 데이터가 있습니다. 두 개의 데이터 세트가 있습니다. 첫 번째 냉매 ( ) 및 두 번째 냉매 ( ). 회귀 분석에 선형, 다변량 ( & ), 3 차 다항식 모델을 사용하고 있습니다. 백분율로 평균적으로 얼마나 적은 양의 암페어 (또는 성능 비교와 유사한 메트릭)가 두 번째 냉매에 의해 도출되는지 결정하고 싶습니다.D Y R 1 R 2 S D에스와이아르 자형1아르 자형2에스

나의 첫번째 생각은 :

  1. 사용할 모델 결정 :와이=0+1에스+2+에스+4에스2+52+6에스2+72에스+8+9에스
  2. 기준선 데이터 ( ) 에서 계수 ( )를 합니다.R 1나는아르 자형1
  3. 이러한 계수를 사용 하여 데이터 세트 의 각 & 에 대해 각각의 예상 앰프 드로우 ( )를 계산 한 다음 평균을 구하십시오.D R 2 Y에스아르 자형2와이^
  4. 비교] 실제 평균 A 그리기 (평균에 의) 데이터. Y2R2와이^와이2아르 자형2
  5. 퍼센트 (%) 변화=(와이2와이^)/와이^

그러나 두 번째 냉매는 열 특성이 약간 다르고 냉동 시스템 (TXV 및 과열 조정)에 대한 작은 변경 사항이 있기 때문에이 '기준선 비교 방법'이 정확하다고는 생각하지 않습니다.

다음으로 두 번의 회귀 분석을 수행해야했습니다 :

와이1=0+1에스1+21+에스11+4에스12+512+6에스121+712에스1+81+9에스1와이2=0+1에스2+22+에스22+4에스22+522+6에스222+722에스2+82+9에스2

그런 다음 포화 흡입 온도 ( )의 경우 계수 ( 대 )를 다음과 같이 비교하십시오 . 1에스11

변화율=111

그러나 이러한 계수는 다르게 가중치를 적용해야합니다. 따라서 결과가 왜곡됩니다.

z- 검정을 사용하여 계수의 가중치가 얼마나 다른지를 결정할 수 있다고 생각하지만 출력의 의미를 완전히 이해하지 못했습니다 . 그러나 여전히 성능 지표를 제공하지는 않지만 전반적인 목표입니다.=(11)/에스이자형12+에스이자형12)


1
1. 다항식 모델은 계수에서 선형이기 때문에 선형 모델입니다. 2. 귀하의 질문을 이해하려고합니다. R1과 R2가 사용 된 시간 사이에 냉장 시스템이 수정 된 경우, 실제로 '동일한 냉장 시스템'(라인 1)이 아닌가? 3. 왜 두 번째 방법으로 S 계수를 비교하기 시작 했습니까? 4. R1 및 R2 레벨의 공변량 '냉매'를 다항식 적합 (상호 작용과 함께)에 도입하는 것을 고려 했습니까? 그 계수는 질문에 답할 수 있습니다.
qoheleth

@qoheleth 1. 나는 당신의 사고 방식을 따르지 않습니다 ... 계수는 항상 선형입니다-그것은 숫자입니다. 계수가 언제 선형이 아닌가? 2. 맞습니다. 냉동 시스템이 약간 변경되었지만 두 냉매 모두에 대해 동일한 출력 온도 ( "사과 사과")를 보장하기 위해서만 변경되었습니다. 3. 'S'는이 특정 비교에서 관심있는 유일한 변수입니다. 4. 공변량 / 상호 작용 변수 방법에 대해 읽었지만 그러한 방법을 사용하여 계수의 의미를 이해하지 못합니다. 출력 해석에 대해 자세히 설명 할 수 있습니까? 감사합니다.
gth826a

1. 통계적 관점에서, 추정하고있는 것들의 선형성 (linearity)이 계산되는 수이므로 다항식 모델은 선형 적입니다. 비선형 모델의 예는 mitscherlich 함수 y = alpha (1-exp (beta-lambda * X))입니다. 여기서 alpha / beta / lambda는 우리가 추정하는 것입니다. 3. 실제로 무엇을 테스트하려고합니까? 그것은 S의 계수입니까? 또는 Y? S 인 경우 왜 첫 번째 시도가 \ hat {Y}에서 비교를합니까?
qoheleth

Y-hat은 다음과 같습니다. 첫 번째 데이터 세트에서 파생 된 계수와 함께 사용 된 두 번째 데이터 세트의 실제 S & D입니다. 이 방법은 이전 장비의 에너지 소비를 개조 / 개조 / 개조 등의 후 에너지 소비와 비교할 때 '성능 계약'에너지 분석에 일반적입니다. 에너지 소비 = y-hat = 기저 부하 + 에너지 /도-일 *도-일 ... 여기서 에너지 / 도는 기준 회귀 분석에서 도출 된 coeff이고 도수는 리노베이션 후입니다. . 이 프로젝트 시나리오를 수행하지 않은 경우 "무엇을 소비 했습니까?"
gth826a

1
따라서 궁극적으로 Y를 비교하고 싶은 것 같습니다. 나는 고차 항 (S ^ 2, S ^ 3 등)이있는 경우 계수의 % 변화를 계산하는 것을 잊어 버릴 것이라고 말하지만 계수는 당신이 생각하는 것이 아닙니다 그들은. Y에 초점을 맞 춥니 다. 저에게 분명하지 않은 질문은 R2의 S & D가 R1의 S & D와 다른 것을 의미한다고 말하는 것입니까? 그렇지 않은 경우, 냉매 (r1 또는 r2)라는 추가 공변량 (X 변수)을 사용하여 하나의 모델을 결합 된 데이터 세트에 간단히 맞추고 모델이 적절하다고 가정 할 때 해당 계수를 확인하여 추론 할 수 있습니다.
qoheleth

답변:


2

이상 기체 법칙으로부터 여기서 , 비례 모델을 암시한다. 장치가 절대 온도인지 확인하십시오. 비례 결과를 요구하는 것은 비례 오차 모델을 암시합니다. 아마도 Y = a D b S c를 고려한 다음 다중 선형 회귀에 대해 ln ( Y ) = ln ( a ) + b ln ( D ) + c ln ( S )를 사용할 수 있습니다V=아르 자형와이=에스ln(와이)=ln()+ln()+ln(에스)Y, D 및 S 값의 로그를 취하여 과 같이 표시됩니다. 여기서 l 아래 첨자는 "로그"를 의미합니다. 이제 이것은 사용중인 선형 모델보다 더 잘 작동 할 수 있으며 대답은 상대 오류 유형입니다.와이=++에스

사용할 모델 유형을 확인하려면 하나를 시도하고 잔차가 균일한지 확인하십시오. 그것들이 바이어스 모델 이 아닌 경우 , 위와 같이 x 또는 y 데이터의 역수, 제곱근, 제곱, 지수 등의 로그를 모델링하는 것과 같은 다른 방법으로 잔차가 동일해질 때까지 수행하십시오. 모형이 균질 잔차를 생성 할 수없는 경우 필요한 경우 검열과 함께 여러 선형 Theil 회귀 분석을 사용하십시오.

데이터가 y 축에 정상적으로 분포되는 방법은 필요하지 않지만 이상 치는 회귀 매개 변수 결과를 현저하게 왜곡 할 수 있으며 종종 왜곡합니다. 만약 동질성이 발견되지 않는다면 보통 최소 제곱을 사용하지 말고 가중 회귀, Theil 회귀, x의 최소 제곱, 데밍 회귀 등과 같은 다른 유형의 회귀를 수행해야합니다. 또한 오류가 연속적으로 상관되어서는 안됩니다.

출력의 의미 : 는 관련이 있거나 관련이 없을 수 있습니다. 총 분산이 두 개의 독립 분산의 합이라고 가정합니다. 이것을 다시 말하면, 독립성은x,y플롯에서 직교성 (수직 성)입니다. 즉, 총 변동성 (분산)은 피타고라스 정리,H=+ 를 따릅니다.=(11)/에스이자형12+에스이자형12)엑스,와이 또는 데이터의 경우하지 않을 수 있습니다. 이 경우z-통계량은 상대 거리, 즉 평균 차이 (거리)를 피타고라스, AKA 벡터로 나눈 값, 표준 오차 (SE)를 더한 표준 편차 (SD)로 나눈 값입니다. 에 의해H=+2+영형2SE는 그 자체가 거리 인 N. 한 거리를 다른 거리로 나누면 거리를 정규화합니다. 즉, 평균의 차이를 총 (표준) 오차로 나눈 다음, 확률을 찾기 위해 ND (0,1)을 적용 할 수있는 형태입니다.

이제 측정 값이 독립적이지 않은 경우 어떻게되며 어떻게 테스트 할 수 있습니까? 당신이 바로 각도되지 삼각형 그들의 측면을 추가하는 것이 기하학에서 기억할 메모리를 새로 고침하지 않을 경우, 여기 . 즉, 축 사이에 90도 각도가 아닌 다른 각도가있는 경우 총 거리 계산에 해당 각도가 무엇인지 포함시켜야합니다. 먼저 표준화 된 공분산이라는 상관 관계를 기억하십시오. 총 거리2=2+22코사인(θ),θ=(,) 와 상관 관계 ρ A , B σ 2 T = σ 2 A + σ 2 B - 2 σ A σ B ρ A , B가 됩니다. 즉, 표준 편차가 상관 관계가있는 경우 (예 : 쌍별) 독립적이지 않습니다.σρ,σ2=σ2+σ22σσρ,


"사용할 모델의 유형을 확인하고 잔차가 균등한지 확인하십시오."예,이 가정을 전혀하지 않고, 유효한 경우에도-반드시 그렇지는 않습니다. "좋은"모델이 있습니다.
Repmat

만약 OLS를 사용하고 잔차가이 분산이라면, 반드시 바이어스 된 모델을 가지게됩니다. Homoscedasticity는 여기 에 표시된 OLS 요구 사항 입니다. 좋은 모델을 가지려면 변수 바이어스를 생략 하지만 일련의 상관 관계가없는 오류 , 모델 대 종속 변수의 선형성 등 다른 조건이 필요 합니다.
Carl

잔차가 이질 골격 인 편견 및 / 또는 일관된 모형 (추정)을 가질 수 있습니다. 그것은 일반적인 추론 절차가 효과가 없다는 것을 의미 할뿐입니다
Repmat

이분산성은 기울기가 평평 해지지 만, 이상 치가이를 수정하더라도 큰 신뢰 구간과 형편없는 모델이됩니다. 그러한 모델을 사용하지는 않지만, 예를 들어, 모델을 크게 만들 수 있습니다. 의학 문헌은 그들로 가득합니다.
Carl

귀하의 의견의 첫 부분은 명백한 잘못입니다. 그게 무슨 뜻인지 잘 모르겠습니다.
Repmat
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.