I 선형 회귀 GLM 읽어 거의 모든이 귀결 : 의 비의 증가 또는 비 감소 함수이고 및 파라미터 당신 인 가설을 추정하고 테스트합니다. 를 의 선형 함수 로 만들기 위해 수십 개의 링크 함수와 및 변환이 있습니다.
이제 대한 증가 / 감소가 아닌 요구 사항을 제거하면 파라 메트릭 선형화 모형을 적합시키기위한 삼각 함수와 다항식의 두 가지 선택 만 알고 있습니다. 둘 다 각각의 예측 된 와 전체 세트 사이에 인공 의존성을 생성 하므로 데이터가 실제로 주기적 또는 다항식 프로세스에 의해 생성된다고 믿을만한 이전의 이유가 없다면 매우 견고하지 않습니다.
이것은 일종의 난해한 사건이 아닙니다. 물과 농작물 수확량 사이의 실제적인 상식 관계 (한 번 줄거리가 수 중에서 충분히 깊어지면 작물 수확량이 줄어들 기 시작 함) 또는 아침 식사에서 소비 한 칼로리와 수학 퀴즈에서 수행 한 칼로리 또는 공장 직원 수 즉, 선형 모델이 사용되는 거의 모든 실제 사례에서 생산되는 위젯 수는 적지 만 수익률이 마이너스 수익으로 감소 할 정도로 넓은 범위의 데이터를 포함합니다.
나는 '오목', '볼록', '곡선', '비단 조적', '욕조'라는 용어를 찾으려고 노력했지만 다른 사람은 몇 명이나 잊어 버렸습니다. 관련 질문이 적고 사용 가능한 답변이 적습니다. 따라서 실제로 다음과 같은 데이터가있는 경우 (R 코드에서 y는 연속 변수 x 및 이산 변수 그룹의 함수입니다) :
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Box-Cox 변환을 먼저 시도해보고 기계적인 의미가 있는지 확인하고 실패하면 로지스틱 또는 점근선 링크 함수를 사용하여 비선형 최소 제곱 모델에 적합 할 수 있습니다.
따라서 전체 데이터 세트가 다음과 같은 것을 알 때 매개 변수 모델을 완전히 포기하고 스플라인과 같은 블랙 박스 방법으로 대체 해야하는 이유는 무엇입니까?
plot(y~x,updown,col=group);
내 질문은 :
- 이 기능 관계 클래스를 나타내는 링크 함수를 찾으려면 어떤 용어를 검색해야합니까?
또는
- 이 기능 관계 클래스에 대한 링크 함수를 디자인하거나 현재 단조로운 응답을위한 기존 관계를 확장하는 방법을 배우려면 무엇을 읽고 검색해야합니까?
또는
- 이 유형의 질문에 가장 적합한 StackExchange 태그도 있습니다!
R
코드에 구문 오류 group
가 있습니다. 인용해서는 안됩니다. (2) 줄거리가 아름답습니다. 빨간색 점은 선형 관계를 나타내는 반면 검은 점은 부분 선형 회귀 (변경점 모델로 얻은) 및 지수로도 여러 가지 방식으로 적합 할 수 있습니다. 나는 하지 데이터를 생산 무엇의 이해에 의해 통보 및 관련 분야의 이론에 의해 좌우되는 모델링 선택 해야지 때문에, 그러나, 이러한 추천. 그들은 당신의 연구를위한 더 나은 시작일 수 있습니다.