선형, 지수 및 로그 함수에서 최적 피팅 곡선 피팅 함수 결정


18

문맥:

Mathematics Stack Exchange (프로그램을 작성할 수 있습니까?) 에 대한 질문에서 누군가 점 세트 를 가지고 있으며 선형, 지수 또는 로그에 곡선을 맞추고 싶습니다. 일반적인 방법은 다음 중 하나를 선택하여 시작하고 (모델 지정) 통계 계산을 수행하는 것입니다.엑스와이

그러나 실제로 원하는 것은 선형, 지수 또는 대수에서 '최상의'곡선을 찾는 것입니다.

표면 상으로, 세 가지를 모두 시도하고 최상의 상관 계수에 따라 세 가지에 가장 잘 맞는 곡선을 선택할 수 있습니다.

그러나 어떻게 든 나는 이것이 꽤 정숙하지 않다고 생각합니다. 일반적으로 받아 들여지는 방법은 모델을 먼저 선택한 다음 세 가지 중 하나 (또는 ​​다른 링크 함수)를 선택한 다음 데이터에서 계수를 계산하는 것입니다. 그리고 무엇보다도 최고의 사실을 따는 것은 체리 따기입니다. 그러나 데이터에서 함수 또는 계수를 결정하는지 여부는 여전히 동일한 것입니다. 절차는 가장 좋은 것을 발견하는 것입니다 (어떤 함수가-또한 다른 계수가 발견되는지 말하십시오).

질문 :

  • 적합 통계를 비교하여 선형, 지수 및 로그 모델 중에서 가장 적합한 적합 모델을 선택하는 것이 적절합니까?
  • 그렇다면 가장 적합한 방법은 무엇입니까?
  • 회귀가 함수에서 매개 변수 (계수)를 찾는 데 도움이되는 경우, 3 개의 곡선 패밀리 중 가장 적합한 곡선을 선택할 수있는 불연속 매개 변수가없는 이유는 무엇입니까?

1
귀하의 편의를 위해 모델 선택 태그를 추가했습니다 . 링크를 통해 직접 관련된 수많은 스레드가 생성됩니다. 볼 가치가있는 다른 태그로는 aic이 있습니다. 결국이 문제에 대한 수학적 진술에는 두 가지 필수 요소가 누락되어 있음을 발견해야합니다. 점이 이론적 곡선에서 벗어날 수있는 방법과 이유에 대한 설명 및 정확한 곡선을 얻지 못하는 비용의 표시. 이러한 요소가 없으면 "최고"가 잘못 정의되어 있음을 보여주는 다른 답변을 생성 할 수있는 다양한 방법이 있습니다.
whuber

1
모델에 대한 유효성 검증을 수행하기 위해 데이터의 일부를 따로 설정하고 해당 유효성 검증 데이터 세트에 가장 적합한 모델을 선택할 수 있습니다. 따라서 본질적으로 데이터를 하나의 모델로 학습 할 수있는 세 가지 고유 한 세트가 있습니다. 2. 단일 모델을 훈련시키는 데이터 2. 각 모델의 유효성을 검사하는 데이터 최상의 모델을 선택할 수있는 데이터 및 3. 손대지 않은 실제 최종 유효성 검사 데이터 .
kleineg

1
@kleineg 올바른 방향 인 것 같습니다. 모델 선택 (예 : lin / exp / log 간)은 단일 모델 하이퍼 파라미터와 같습니다. 이는 단일 방식의 정규 매개 변수의 또 다른 단계에 불과하며 별도의 기차 / 검증 / 테스트 단계를 통해 일반화 할 수 있습니다.
Mitch

관련성 : {미묘한 과잉 맞춤 방법] ( johndcook.com/blog/2015/03/17/a-subtle-way-to-over-fit)- 여러 모델 기능 중에서 선택 (예 : exp 대 선형 대 로그) 다른 매개 변수. 이를 하이퍼 파라미터 (유효성 검증 단계가 필요함) 또는 복잡한 조합 기능 (테스트 단계에서 테스트 할 경우)의 일반 매개 변수로 생각할 수 있습니다.
미치

답변:


9
  • Eureqa 라는 무료 소프트웨어를 확인하고 싶을 수도 있습니다 . 주어진 기능 관계의 기능적 형태와 매개 변수를 찾는 프로세스를 자동화하는 구체적인 목표를 가지고 있습니다.
  • 매개 변수 수가 다른 모델을 비교하는 경우 일반적으로 더 많은 매개 변수로 모델에 불이익을주는 적합도를 사용하려고합니다. 모델 비교에 적합 척도가 가장 적합한 풍부한 문헌이 있으며 모델이 중첩되지 않은 경우 문제가 더 복잡해집니다. 귀하의 시나리오를 고려할 때 다른 사람들이 가장 적합한 모델 비교 지수라고 생각하는 것을 듣고 싶습니다. (부수적으로 최근 커브 피팅을 위해 모델을 비교할 때 모델 비교 지수에 대한 내 블로그 에 대한 토론 이있었습니다 ).
  • 내 경험상 비선형 회귀 모델은 주어진 데이터에 순수한 통계적 적합을 넘어서는 이유로 사용됩니다.
    1. 비선형 모델은 데이터 범위를 벗어난 더 정확한 예측을합니다.
    2. 비선형 모델은 동등한 적합을 위해 더 적은 매개 변수를 요구합니다
    3. 비선형 회귀 모델은 종종 사전 연구와 이론지도 모델 선택이 상당한 영역에 적용됩니다.

5

이것은 매우 다양한 영역에서 유효한 질문입니다.

가장 좋은 모델은 모수 추정 중에 사용되지 않은 데이터 포인트를 예측할 수있는 모델입니다. 이상적으로는 데이터 세트의 서브 세트로 모델 매개 변수를 계산하고 다른 데이터 세트에 대한 적합 성능을 평가합니다. 세부 사항에 관심이있는 경우 "교차 유효성 검증"을 사용하여 검색하십시오.

첫 번째 질문에 대한 답은 "아니오"입니다. 최상의 피팅 모델을 단순히 취할 수는 없습니다. N 차 ~ N 데이터 포인트의 다항식을 피팅하는 이미지. 모든 모델이 모든 데이터 포인트를 정확하게 전달하기 때문에 이것은 완벽하게 적합합니다. 그러나이 모델은 새 데이터로 일반화되지 않습니다.

내가 말할 수있는 한, 가장 적절한 방법은 모델의 잔차 진폭과 매개 변수 수를 동시에 처벌하는 메트릭을 사용하여 모델이 다른 데이터 세트로 일반화 할 수있는 양을 계산하는 것입니다. AIC와 BIC는 내가 알고있는 이러한 지표 중 일부입니다.


3

많은 사람들이 일상적으로 데이터에 대한 다양한 곡선의 적합성을 탐색하기 때문에 예약이 어디에서 왔는지 모르겠습니다. 물론, 2 차는 적어도 선형뿐만 아니라 3 차, 2 차는 물론 항상 적합 할 것이라는 사실이 있으므로, 이러한 비선형 항을 더하는 것의 통계적 유의성을 테스트하는 방법이 있습니다. 불필요한 복잡성을 피하십시오. 그러나 다양한 형태의 관계를 테스트하는 기본 관행은 좋은 습관입니다. 실제로 매우 유연한 황토 회귀 분석으로 시작하여 가장 적합한 종류의 곡선이 무엇인지 알 수 있습니다.


3
2 차가 더 잘 맞는지 여부는 어떻게 당신이 잘 맞는지를 어떻게 운영했는지에 달려 있습니다. 특히, 더 많은 매개 변수 (예 : AIC)로 ​​모델에 불이익을주는 적합도를 사용하면 2 차 대 선형의 경우 적합도가 떨어질 수 있습니다.
Jeromy Anglim

9
@rolando, 아마도 오해일지도 모르지만, 솔직히 이런 종류의 (자격을 갖추지 않은) 조언은 통계 학자로서 우리가 "싸움"하는 데 많은 시간을 소비하는 것입니다. 특히 OP가 예측이나 추론과 같은 단순한 곡선 피팅 이외의 것에 관심이있는 경우 통계에 대한 "생각할 수있는 모든 것을 시도하십시오"접근의 의미를 이해하는 것이 매우 중요합니다.
추기경

2
Anscombe, Tukey, Mosteller, Tufte 및 Cleveland의 전통에 따라 이러한 의견을 조정하는 데 어려움을 겪고 있습니다. 모델을 작성하기 전에 데이터를 시각화하고 탐색하고 각 관계의 모양을 확장해야한다는 점을 강조하고 있습니다. 다른 통계를 생성합니다.
rolando2

8
그들의 접근 방식에 관한 많은 논쟁이 있습니다. 이러한 문제를 요약하는 지나치게 단순화 된 방법은 패턴에 대해 배우고 나중에 검증이 필요한 새로운 발견을하려면 탐색 적 분석이 적절하다는 것입니다. 추론을 원한다면 (P- 값, 신뢰 구간 등을 사용하여 특정 표본에서 일반 모집단으로 추론) 그리 많지 않습니다.
Frank Harrell

4
이것은 CV에서 본 가장 생산적인 주석 스레드입니다. 특히 교환 b / t rolando2 (3 ^) 및 @FrankHarrell입니다. 또한 두 가지 접근법 모두 매우 매력적입니다. 내 자신의 해상도는 사전 및 테스트에 무엇을 계획하는 것입니다 에만 적합 / 테스트 한다는 확고한 결론을 도출하지만, 발견을 위해서 (/ O의 결과를 반드시 파악을 믿는 W) 또한 철저하게 데이터를 탐색을 위해 모델이 무엇을 할 수 사실 다음 연구를 위한 계획 . (다른 연구를 수행하고 무언가를 점검해야하는지, 흥미 롭거나 중요합니까?) 핵심은 이러한 분석의 결과에 대한 당신의 신념 입니다.
gung-복직 모니카

3

데이터로 이끄는 과학 / 이론과 데이터가 알려주는 것 사이의 균형을 찾아야합니다. 다른 사람들이 말했듯이, 자신이 가능한 변형 (모든 정도의 다항식 등)에 적합하게하면 지나치게 적합하고 쓸모없는 것을 얻습니다.

이를 확신시키는 한 가지 방법은 시뮬레이션을 통하는 것입니다. 모형 중 하나 (선형, 지수, 로그)를 선택하고이 모형을 따르는 데이터를 생성합니다 (매개 변수 선택). y 값의 조건부 분산이 x 변수의 확산에 비해 작 으면 간단한 도표를 통해 어떤 모델이 선택되었고 "진실"이 무엇인지 알 수 있습니다. 그러나 도표에서 명확하지 않은 매개 변수 세트를 선택하는 경우 (아마도 분석 솔루션이 관심있는 경우) 세 가지 방법 각각을 분석하고 어느 것이 "최적"적합을 제공하는지 확인하십시오. "최상의"적합이 종종 "진정한"적합하지 않다는 것을 알게 될 것입니다.

반면에, 우리는 때때로 데이터가 가능한 한 많은 것을 알려주기를 원하며 관계의 본질을 완전히 결정하는 과학 / 이론이 없을 수도 있습니다. Box and Cox (JRSS B, vol. 26, no. 2, 1964)의 원본 논문은 y 변수의 여러 변환을 비교하는 방법에 대해 설명합니다. 주어진 변환 세트는 선형이고 로그는 특수한 경우 (지수는 아님) , 그러나 논문 이론상 어느 것도 당신이 그들의 변환 가족으로 만 제한하지는 않지만, 동일한 방법론을 확장하여 관심있는 3 가지 모델을 비교할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.