통계학자는 식물에 물을 넘길 수 없다고 가정합니까, 아니면 곡선 형 회귀 분석에 잘못된 검색어를 사용하고 있습니까?


18

I 선형 회귀 GLM 읽어 거의 모든이 귀결 : 의 비의 증가 또는 비 감소 함수이고 및 파라미터 당신 인 가설을 추정하고 테스트합니다. 를 의 선형 함수 로 만들기 위해 수십 개의 링크 함수와 및 변환이 있습니다.y=f(x,β)f(x,β)xβyxyf(x,β)

이제 대한 증가 / 감소가 아닌 요구 사항을 제거하면 파라 메트릭 선형화 모형을 적합시키기위한 삼각 함수와 다항식의 두 가지 선택 만 알고 있습니다. 둘 다 각각의 예측 된 와 전체 세트 사이에 인공 의존성을 생성 하므로 데이터가 실제로 주기적 또는 다항식 프로세스에 의해 생성된다고 믿을만한 이전의 이유가 없다면 매우 견고하지 않습니다.f(x,β)yX

이것은 일종의 난해한 사건이 아닙니다. 물과 농작물 수확량 사이의 실제적인 상식 관계 (한 번 줄거리가 수 중에서 충분히 깊어지면 작물 수확량이 줄어들 기 시작 함) 또는 아침 식사에서 소비 한 칼로리와 수학 퀴즈에서 수행 한 칼로리 또는 공장 직원 수 즉, 선형 모델이 사용되는 거의 모든 실제 사례에서 생산되는 위젯 수는 적지 만 수익률이 마이너스 수익으로 감소 할 정도로 넓은 범위의 데이터를 포함합니다.

나는 '오목', '볼록', '곡선', '비단 조적', '욕조'라는 용어를 찾으려고 노력했지만 다른 사람은 몇 명이나 잊어 버렸습니다. 관련 질문이 적고 사용 가능한 답변이 적습니다. 따라서 실제로 다음과 같은 데이터가있는 경우 (R 코드에서 y는 연속 변수 x 및 이산 변수 그룹의 함수입니다) :

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

산포도

Box-Cox 변환을 먼저 시도해보고 기계적인 의미가 있는지 확인하고 실패하면 로지스틱 또는 점근선 링크 함수를 사용하여 비선형 최소 제곱 모델에 적합 할 수 있습니다.

따라서 전체 데이터 세트가 다음과 같은 것을 알 때 매개 변수 모델을 완전히 포기하고 스플라인과 같은 블랙 박스 방법으로 대체 해야하는 이유는 무엇입니까?

plot(y~x,updown,col=group);

내 질문은 :

  • 이 기능 관계 클래스를 나타내는 링크 함수를 찾으려면 어떤 용어를 검색해야합니까?

또는

  • 이 기능 관계 클래스에 대한 링크 함수를 디자인하거나 현재 단조로운 응답을위한 기존 관계를 확장하는 방법을 배우려면 무엇을 읽고 검색해야합니까?

또는

  • 이 유형의 질문에 가장 적합한 StackExchange 태그도 있습니다!

4
나는 당신이 무엇을 요구하는지 전혀 모른다. 당신의 단순하지 않은 기능에 맞게 원하는 정확히 다항식 회귀 또는 사인 회귀하여 문제가 다시 무엇인가 ... ?? 또한 ... "링크 기능"... 당신은 그 단어를 계속 사용합니다 ... 나는 그것이 당신이 생각하는 것을 의미한다고 생각하지 않습니다. x
Jake Westfall

5
(1) R코드에 구문 오류 group가 있습니다. 인용해서는 안됩니다. (2) 줄거리가 아름답습니다. 빨간색 점은 선형 관계를 나타내는 반면 검은 점은 부분 선형 회귀 (변경점 모델로 얻은) 및 지수로도 여러 가지 방식으로 적합 할 수 있습니다. 나는 하지 데이터를 생산 무엇의 이해에 의해 통보 및 관련 분야의 이론에 의해 좌우되는 모델링 선택 해야지 때문에, 그러나, 이러한 추천. 그들은 당신의 연구를위한 더 나은 시작일 수 있습니다.
whuber

1
@whuber 감사합니다! 코드를 수정했습니다. 이론적 동기 부여와 관련하여, 이들은 처음부터 어디에서 오는가? 내 벤치 과학자 공동 작업자는 예측 변수를 행복하게 이분법 화하고 t- 검정을 수행합니다. 따라서 "y는 x와 양의 상관 관계가 있음"에서 "y는 x에 대한 작은 반응이 없음"에서 "y는 x와 음의 상관 관계가 있음"으로의 전이를 포착하는 수학적 관계를 찾아 데이터 낭비를 막을 수있는 방법을 찾게되었습니다. 실패하면, 나는 Michaelis와 Menten이 효소, 기질 및 생성물 사이의 관계를 발견했을 때 무엇을했는지를 요약해야 할 것이다.
f1r3br4nd

1
그러한 것들이 '친절한'지점을 미리 알고 있습니까?
Glen_b-복지국 모니카

3
도발적인 제목과 실제로 의미있는 후속 조치에 +1
Stumpy Joe Pete

답변:


45

YfXβX


아마도 실제 사례 가이 점을 밝힐 것입니다. J. Tolkien 은 1948 년 연구 ( 1977 년에 사후에 발표 되었지만 절대로 다시는 검토하지 않음)에서 24 개월의 해바라기 ( Helianthus Gondorensis ) 의 13 개 그룹이 3 개월 동안 발아에서 시작된 통제 된 양의 물을 공급 한 식물 급수 실험 결과를보고했습니다. 성장. 적용되는 총량은 2 인치 단위로 1 인치에서 25 인치까지 다양합니다.

그림 1

급수에 대한 명확한 긍정적 인 반응과 과잉 급수에 대한 강한 부정적인 반응이 있습니다. 이온 수송의 가상 운동 모델을 기반으로 한 이전 연구는 두 가지 경쟁 메커니즘이이 행동을 설명 할 수 있다고 가정했다. 하나는 소량의 물 (생존 로그 확률에서 측정 된 바와 같이)에 대해 선형 반응을 야기하는 반면 다른 하나는 -억제 인자- 지수 적으로 작용 합니다 (이것은 비선형 효과입니다). 다량의 물로, 억제 인자는 물의 긍정적 인 효과를 압도하고 사망률을 상당히 증가시킬 것이다.

κYnx

Binomial(n,f(β0+β1xβ2exp(κx)))
fxκβ0β1β2f1(E[Y])x1β0xβ1exp(κx)β2

κκR

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

기술적 인 어려움은 없습니다. 계산에는 1/30 초만 걸립니다.

그림 2

E[Y]

E[Y]xR

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

질문에 대한 답변은 다음과 같습니다.

이 기능 관계 클래스를 나타내는 링크 함수를 찾으려면 어떤 용어를 검색해야합니까?

None : 링크 기능의 목적이 아닙니다.

현재 단조로운 응답만을위한 기존의 [링크 기능]을 확장하기 위해 무엇을 검색해야합니까?

Nothing : 응답이 모델링되는 방식에 대한 오해를 기반으로합니다.

분명히 회귀 모델을 만들어떤 설명 변수를 사용하거나 구성해야하는지에 초점을 맞춰야합니다 . 이 예에서 제안한대로 과거 경험과 이론의 지침을 찾으십시오.


멋진 답변! 이 실제 데이터는 소설에서 톨킨입니까?
Cam.Davidson.Pilon

1
@Cam 데이터를 최종 컷으로 만들지 못했습니다 :-). (상황은 뺨에 혀가있다. 나는 두렵다.)
whuber

1
κ

5
κκχ2(1)

1
@zipzapboing 여기에 제시 한 예는 기본 이론에 의해 알려 졌기 때문에 특별합니다. 이러한 정보를 사용할 수 있으면 모델 선택에 대한 강력한 안내서가 될 수 있습니다. 그러나 많은 경우에 그러한 정보가 없거나 예상 응답이 회귀 변수에 따라 단조롭게 변할 수 있기를 희망합니다. 아마도 가장 근본적인 이유는 반응이 회귀 변수에 따라 다르고 데이터의 회귀 범위에 대해 미분의 변화가 적다는 희망 때문일 것입니다. 선형 반응이 그와 비슷할 것입니다.
whuber

9

책상 위의 죽어가는 식물을 유죄로 본다.

의견에서 @whuber는 "모델링 선택은 데이터를 생성하고 관련 분야의 이론에 의해 동기를 부여한 것에 대한 이해를 통해 정보를 얻어야한다"고 말합니다.

Michaelis와 Menten 운동학은 실제로 매우 유용한 예입니다. 이러한 방정식은 몇 가지 가정 (예를 들어, 기질이 복합체와 평형을 이루고 효소가 소비되지 않음)과 일부 알려진 원리 (질량 작용 법칙)로 시작하여 도출 할 수 있습니다. Murray의 수학적 생물학 : 서론 은 6 장의 파생 과정을 안내합니다 (다른 많은 책들도 마찬가지입니다).

보다 일반적으로, 모델과 가정의 "레퍼토리"를 구축하는 데 도움이됩니다. 귀하의 필드에는 일반적으로 인정되고 오랜 시간 테스트를 거친 모델이 있습니다. 예를 들어, 무언가가 충전 또는 방전되는 경우 시간의 함수로 전압을 모델링하는 지수에 도달합니다. 반대로, 전압 시간 플롯에서 지수와 같은 모양을 볼 경우, 첫 번째 추측은 회로의 무언가가 용량 적으로 방전되고 있으며 그것이 무엇인지 모른다면 그것을 찾으려고 할 것입니다. 이론적으로는 모델을 구축하고 새로운 실험을 제안하는 데 도움이 될 수 있습니다.

y=k(x+h)2CO2 증산이 줄어드는가?)와 홍수 (뿌리를 먹는 박테리아는?)는 각 조각에 대해 특정한 형태를 제안 할 수 있습니다.


8

나는 과학적 삶의 절반을 벤치에서, 다른 절반은 컴퓨터에서 통계를 가지고 노는 사람의 관점에서 다소 비공식적 인 반응을 보입니다. 의견을 쓰려고했지만 너무 깁니다.

내가보고있는 결과의 유형을 관찰하는 과학자라면 나는 매우 기뻐할 것입니다. 다양한 단조로운 관계는 지루하고 거의 구별 할 수 없습니다. 그러나 당신이 우리에게 보여주는 관계의 유형은 매우 특별한 효과를 제안합니다. 그것은 우리에게 관계가 무엇인지, 극단적으로 어떻게 변하는 지에 대한 가설을 제시 할 이론가를위한 훌륭한 운동장을 제공합니다. 벤치 과학자가 무슨 일이 일어나고 있는지 파악하고 조건에 대해 광범위하게 실험 할 수있는 훌륭한 놀이터를 제공합니다.

어떤 의미에서, 나는 당신이 보여주는 사례를 가지고 있고 단순한 관계를 가지고 있지만 모델링하기 쉽지만 기계적으로 조사하기가 더 어려운 것보다 간단한 모델을 맞추는 방법을 알지 못하지만 (새로운 가설을 해결할 수는 없습니다). 그러나 아직 연습에서 그런 사례가 발생하지 않았습니다.

마지막으로 한 가지 더 고려해야 할 사항이 있습니다. 전 벤치 과학자로서 검은 색이 빨간색과 다르다는 것을 보여주는 테스트를 찾고 있다면 왜 귀찮게할까요? 그림에서 충분히 명확합니다.


5

그런 데이터의 경우 아마 선형 스플라인을 고려하고있을 것입니다.

lm 또는 glm의 작업은 쉽게 수행 할 수 있습니다.

이러한 접근 방식을 취하면 문제는 매듭 수와 매듭 위치를 선택하는 것입니다. 한 가지 해결책은 공정한 수의 가능한 위치를 고려하고 올가미 또는 다른 정규화 및 선택 방법을 사용하여 작은 세트를 식별하는 것입니다. 하지만 추론에서 이러한 선택의 효과를 고려해야합니다.


그러나 스플라인 회귀 분석은 기본적으로 "응답의 형태를 설명하는 알려지지 않은 함수가 있으며 다른 변수가이 곡선을 위 / 아래로 이동하거나 기울이는 방법에 대한 가설 만 테스트 할 것"이라고 말하지 않습니까? 치료법이 형태 자체를 변경하면 어떻게 될까요?
f1r3br4nd

2
대안이 얼마나 일반적입니까? 일반적인 경우에도 별도의 함수와 동일한 비모수 함수를 가정하여 적합치를 비교할 수있는 다양한 방법이 있습니다. 가산 모델과 일반 가산 모델은 이러한 비교를 다룰 수 있습니다.
Glen_b-복지 주 모니카

논의하는 것보다 더 일반적인 경우의 예로서 (다양한 다른 접근 방법을 설명하는 참고 자료와 함께),이를 이해할 수있는 경우이 문서를 살펴보십시오. J.Roca-Pardiñas et al (2006) "부트 스트랩 기반 일반화 된 부가 모델에서 곡선 별 인자 상호 작용을 테스트하는 방법 : 의사 결정과 관련된 전두엽 피질 신경 활동의 평가 ", Statistics in Medicine , Jul 30; 25 (14) : 2483-501. 이 백서에서는 부트 스트랩 (및 계산 부담을 줄이기 위해 비닝)을 사용하지만 다른 방법이 언급되어 있습니다.
Glen_b-복지 주 모니카

보다 기본적이고 오래된 참조는 Hastie and Tibshirani (1990), Generalized Additive Models (예 : p265 참조)과 같은 것입니다. 또한 슬라이드 34의 마지막 방정식을 여기 에서 살펴보십시오. 주변 gam에서 R 패키지를 사용하여 이러한 모델을 맞추는 방법도 설명합니다 mgcv.
Glen_b-복지 주 모니카

2

나는 당신의 전체 게시물을 읽을 시간이 없었지만, 당신의 주요 관심사는 기능적인 형태의 반응이 치료와 함께 변할 수 있다는 것 같습니다. 이를 처리하는 기술이 있지만 데이터 집약적입니다.
구체적인 예를 들면 다음과 같습니다.

G는 성장 W는 물 T는 처리

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

지난 10 년 동안 반모 수 회귀 분석에 대한 수많은 연구가 진행되었으며 기능적 형태에 대한 이러한 쇠고기는 점점 더 관리하기 쉬워지고 있습니다. 그러나 하루가 끝날 무렵 스탯은 숫자를 가지고 놀고 있으며 관찰중인 현상에 대한 직관을 구축 할 때만 유용합니다. 이것은 숫자가 어떻게 연주되는지 이해해야합니다. 게시물의 색조는 아기를 목욕물로 버릴 의사가 있음을 나타냅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.