회귀 모델을 사용하여 예측 : 언제 중지해야합니까?


9

예측을하기 위해 실험 척도에서 간단한 선형 회귀 모델을 계산했습니다. 사용 가능한 데이터에서 너무 멀리 떨어진 포인트에 대한 예측을 계산해서는 안된다는 것을 읽었습니다. 그러나 얼마나 외삽 할 수 있는지 알 수있는 지침을 찾지 못했습니다. 예를 들어, 50GB의 디스크 크기에 대한 읽기 속도를 계산하면 결과가 실제와 비슷할 것입니다. 100GB, 500GB의 디스크 크기는 어떻습니까? 내 예측이 현실에 가까운 지 어떻게 알 수 있습니까?

내 실험의 세부 사항은 다음과 같습니다

다른 디스크 크기를 사용하여 소프트웨어의 읽기 속도를 측정하고 있습니다. 지금까지 실험 사이의 디스크 크기를 5GB로 늘려서 5GB에서 30GB로 측정했습니다 (총 6 개 측정).

내 결과는 선형이며 표준 오류는 작습니다.


2
유용한 답변을 얻으려면 두 번째 문장을 크게 확장하고 명확히해야한다고 생각합니다.
rolando2

rolando2가 옳습니다. "너무 많은 예측"이란 무엇입니까?
David Robinson

읽은 문서에서 사용 된 정확한 용어를 찾을 수 없습니다. 아이디어는 "원래 측정 값과 너무 멀다". 30 GB 디스크로 읽기 속도를 측정했습니다. 100GB 디스크의 읽기 속도를 예측하면 "너무 먼"것입니까?
Flanfl

gung의 대답은 관련된 문제를 설명하기에 충분합니다. 특정 경우에 도움이 될 수있는 추가 사항은 소프트웨어 읽기와 관련된 물리적 프로세스를 고려하는 것입니다. 어떤 종류의 작업을 수행해야합니까? 소프트웨어가 읽기 프로세스의 일부로 디스크를 구성하거나 정렬해야합니까? 이 질문들은 선형성의 가정을위한 몇 가지 토대를 제공하는 데 도움이 될 것입니다.
확률 론적

답변:


19

찾고있는 용어는 '외삽 법'입니다. 문제는 디스크 크기의 엔드 포인트 사이 (예 : 5와 30 사이)에있는 데이터의 양과 중간 수준의 수에 관계없이 진정한 기본 기능에 어느 정도의 곡률이있을 수 있다는 것입니다 감지 할 수있는 권한이 없습니다. 결과적으로 끝점에서 멀리 외삽하면 실제 함수가 맞춤 선에서 멀어지면서 약간의 곡률이 확대됩니다. 또 다른 가능성은 실제 기능이 실제로 조사 된 범위 내에서 완벽하게 직선적이지만 연구의 종말점과 어느 정도 거리에 변화 점이 있다는 것입니다. 이런 종류의 일은 배제하기가 불가능합니다. 질문은 ~이야, 그들이 진짜 일 가능성이 얼마나 높고 당신의 예측은 얼마나 정확하지 않습니까? 그 질문에 대한 분석적 대답을 제공하는 방법을 모르겠습니다. 나의 직감은 연구중인 범위가 [5, 30] 일 때 500이 끔찍한 먼 길이지만, 내 직감이 당신보다 더 가치 있다고 생각할 실제적인 이유는 없다는 것입니다. 예측 구간 계산을위한 표준 공식은 멀어 질수록 확장 구간을 보여줍니다.엑스¯간격이 어떻게 보이는지 보는 것이 도움이 될 수 있습니다. 그럼에도 불구하고, 당신은 그 선이 실제로 완벽하고 직선이며 이론적으로 완전히 남아 있다는 이론적 가정을하고 있음을 명심해야합니다.엑스-예측에 사용할 값입니다. 이 예측의 적법성은 데이터와 적합 및 그 가정에 따라 결정됩니다.


2
완전히 동의합니다 (+1). 이 질문에 대한 답은 통계적으로 엄격 할 수 없습니다. 소프트웨어 및 컴퓨터 엔지니어와 이야기하는 것이 여기에 관련이 있습니다!
Dominic Comtois

답변 주셔서 감사합니다, 정말 도움이됩니다. 나는 스스로 가르쳤으므로 (단어를 아는 것과 같이) 많은 기본 지식이 빠져 있습니다.
Flanfl

신뢰 구간 너비의 역수를 예측의 "강도"의 지표로 간주 할 수 없습니까? 분명히 그것을 사용하기 위해 임의의 값을 선택해야 할 것입니다 ..
naught101

2
@ naught101, 회귀선이 완벽하게 직선이라고 가정 할 경우 예측 간격의 너비는 예측 강도의 척도 (약한 예측을 나타내는 넓은 간격으로 w)로 간주 될 수 있지만 여전히 그 가정에 따라
gung-복직 모니카

7

@gung의 훌륭한 답변에 몇 가지 요점을 추가하겠습니다.

  • 해당 분야에 따라 DIN / EN 또는 ISO와 같은 관련 규범 이있을 수 있습니다 . 이것은 아마도 하드 디스크 읽기 속도를 예측하는 데는 문제가되지 않지만 분석 화학 에서 규칙은 외삽 법아닙니다 . 기간. 500GB까지 이동하려면 500GB를 포함하여 일부 측정을 수행하십시오.

  • 선형 모델을 설정하는 일반적인 방법에는 두 가지 중요한 가정이 있습니다.

    • 분명히 함수는 선형입니다. 실제로 선형성이 무한대로 확장되는 것은 일반적으로 그리 좋은 가정이 아닙니다. 예를 들어 하드 디스크 볼륨보다 많은 양을 읽을 경우 여전히 선형성을 찾을 수 있습니까?

    • 일반적으로 균일 성도 가정합니다. 이는 오류 / 노이즈의 절대량이 종속 (엑스) 변수, 여기에서 읽을 데이터의 양. 하드 디스크 판독 값에 대해서는 잘 모르겠지만 일반적으로 일정한 절대 노이즈와 일정한 상대 노이즈 (또는 다른 노이즈 소스로 인해 더 복잡한 동작) 사이에서 발생합니다 (화학 / 화학).
      일정한 잡 음량의 일정한 정권과의 편차는 외삽에 대한 예측 간격이 크게 잘못되었음을 의미합니다. 일반적으로 너무 좁을 것입니다.

  • 이러한 가정이 충족 되더라도 그러한 종류의 외삽에 대한 예측 구간이 실제로 얼마나 큰지 고려하십시오.

    lm 교정 범위 작품 외삽

    (나는 가지고있는 아주 좋은 측정의 실제 교정 데이터를 가져 와서 문제에 맞게 조정했습니다).
    예측 간격은엑스= 500은 이미 총 차이의 두 배 입니다.교정 데이터 범위! 매우 훌륭한 선형 데이터 세트가없는 경우 예측 간격은 "폭발"합니다.


1
+1, 특히 동성애 가정은 여기서 논의에 좋은 추가입니다. (작은 메모, "점" 은 이전 문장에서 언급 된 규칙의 최종성을 강조하는 방법으로 기간 을 의미 합니까?)
gung-Reinstate Monica

@ gung : 기간이 단어라면 그것이 의미하는 바입니다 :-) 감사합니다.
SX에 불만족 cbeleites

2
"dot"마침표는 컴퓨터 용어 및 특히 URL에만 사용됩니다 (예 : "stats dot stackexchange dot com"). 아마도 20 년 정도 된 영어로 상당히 새로운 사용법입니다.
gung-복직 모니카

1
추가 사항에 감사드립니다. 나는 얼마 전에 일을 마쳤지만이 질문에 대한 두 가지 대답이 다른 학생들에게 도움이되기를 바랍니다.
Flanfl
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.