Hosmer et al.을 이용한 모델 구축 및 선택 2013. R의 로지스틱 회귀 적용


17

이것은 StackExchange에 대한 첫 번째 게시물이지만 꽤 오랫동안 리소스로 사용 해 왔으며 적절한 형식을 사용하고 적절한 편집을 위해 최선을 다할 것입니다. 또한 이것은 여러 부분으로 구성된 질문입니다. 질문을 여러 개의 다른 게시물 또는 하나의 게시물로 나눌 것인지 확실하지 않았습니다. 질문은 모두 같은 텍스트에서 한 섹션에 있기 때문에 하나의 질문으로 게시하는 것이 더 관련성이 있다고 생각했습니다.

나는 석사 논문에 큰 포유류 종의 서식지 사용을 연구하고 있습니다. 이 프로젝트의 목표는 산림 관리자 (통계학자가 아닐 것임)에게이 종과 관련하여 그들이 관리하는 토지의 서식지의 질을 평가할 수있는 실질적인 틀을 제공하는 것입니다. 이 동물은 서식지 전문가로서 비교적 애매 모호하며 외딴 지역에 있습니다. 종의 분포, 특히 계절별 분포에 관한 연구는 비교적 적다. 여러 동물에게 1 년 동안 GPS 칼라가 장착되었습니다. 각 동물의 GPS 칼라 데이터에서 100 개의 위치 (여름 50 및 겨울 50)를 무작위로 선택했습니다. 또한, "가능한"또는 "의사 부재"위치로서 역할을하기 위해 각 동물의 집 범위 내에서 50 개의 점이 무작위로 생성되었다.

각 위치에 대해 현장에서 여러 서식지 변수 (나무 지름, 수평 덮개, 거친 나무 잔해 등)를 샘플링하고 GIS (고도, 도로까지의 거리, 견고성 등)를 통해 원격으로 샘플링했습니다. 변수는 7 개의 수준을 갖는 1 개의 범주 형 변수를 제외하고는 대부분 연속적입니다.

나의 목표는 회귀 모델링을 사용하여 자원 선택 함수 (RSF)를 구축하여 자원 단위의 상대적 사용 확률을 모델링하는 것입니다. 동물 개체군 (디자인 유형 I)과 각 개별 동물 (디자인 유형 III)에 대해 계절 (겨울과 여름) RSF를 만들고 싶습니다.

통계 분석을 수행하기 위해 R을 사용하고 있습니다.

차 텍스트 내가 사용하고는 ...

  • "Hosmer, DW, Lemeshow, S. 및 Sturdivant, RX 2013. 적용되는 로지스틱 회귀. Wiley, Chicester".

Hosmer et al. STATA를 사용하면 R과 관련하여 다음 두 텍스트를 사용하고 있습니다.

  • "Crawley, MJ 2005. Statistics : RJ Wiley, Chichester, West Westssex, England를 사용한 소개."
  • "Plant, RE 2012. R. CRC Press, London, GBR을 이용한 생태 및 농업 분야의 공간 데이터 분석."

현재 Hosmer et al. 4 장의 단계를 따르고 있습니다. "공변량의 다목적 선택"에 대한 몇 가지 질문이 있습니다. 질문에 도움이되도록 아래 텍스트의 처음 몇 단계를 간략하게 설명했습니다.

  1. 1 단계 : 각 독립 변수의 일 변량 분석 (단일 변량 로지스틱 회귀 분석을 사용했습니다). 일 변량 검정의 p- 값이 0.25 미만인 변수는 첫 번째 다변량 모델에 포함되어야합니다.
  2. 2 단계 : 1 단계에서 포함되도록 식별 된 모든 공변량을 포함하고 해당 Wald 통계량의 p- 값을 사용하여 각 공변량의 중요성을 평가하는 다변량 모형을 적합시킵니다. 기존의 유의 수준에 기여하지 않는 변수는 제거하고 새로운 모델에 적합해야합니다. 부분적 우도 비 검정을 사용하여 새롭고 작은 모형을 구형의 큰 모형과 비교해야합니다.
  3. 3 단계 : 작은 모델의 추정 계수 값을 큰 모델의 해당 값과 비교합니다. 계수가 크게 변한 변수는 모델에 남아있는 변수의 효과에 필요한 조정을 제공한다는 의미에서 중요하므로 모델에 다시 추가해야합니다. 모든 중요한 변수가 모델에 포함되고 제외 된 변수가 임상 적으로 및 / 또는 통계적으로 중요하지 않을 때까지 2 단계와 3 단계를 반복하십시오. Hosmer et al. 계수의 크기 변화의 척도로서 " 델타-베타-모자 백분율 "을 사용한다. 이들은 델타-베타-모자 비율 이> 20 % 로 유의미한 변화를 제안합니다 . Hosmer et al. 가 define 델타 - 베타 - 모자 퍼센트 등을 . 여기서θ1작은 모델 계수이고,β(1)큰 모델의 계수이다.Δβ^%=100θ^1β^1β^1θ^1β^1
  4. 4 단계 : 1 단계에서 선택하지 않은 각 변수를 3 단계의 끝에서 한 번에 하나씩 얻은 모형에 추가하고 범주 형인 경우 Wald 통계량 p- 값 또는 부분 우도 비 검정으로 유의성을 확인합니다. 레벨이 2 이상인 변수. 이 단계는 결과와 크게 관련이 없지만 다른 변수의 존재에 중요한 기여를하는 변수를 식별하는 데 중요합니다. 우리는 4 단계의 마지막 모델을 예비 주요 효과 모델이라고 합니다.
  5. 5-7 단계 : 지금까지 진행하지 않았으므로 지금은이 단계를 생략하거나 다른 질문으로 저장합니다.

내 질문 :

  1. 2 단계에서 p. 값이 <.25보다 큰 <.25와 같은 전통적인 유의 수준으로 적합한 것은 무엇입니까?
  2. 2 단계에서 다시 부분 우도 테스트에 사용한 R 코드가 올바른지 확인하고 결과를 올바르게 해석하고 싶습니다. 여기에 내가 한 일이 있습니다 ... anova(smallmodel,largemodel,test='Chisq')p- 값이 유의하면 (<0.05) 변수를 모델에 다시 추가합니다. 중요하지 않은 경우 삭제를 진행합니까?
  3. 3 단계에서 델타-베타-모자-비율 과 제외 된 변수를 모델에 다시 추가하는 것이 적절한시기 에 대한 질문 이 있습니다. 예를 들어, I는 모델에서 하나 개의 변수를 제외하고는 변경 > 20 % 다른 변수. 하지만의> 20 %의 변화에 변수 Δ β %가 이 단계 2의 몇 사이클 모델에서 제외되며, 3. 어떻게 두 변수 경우 결정을 할 수있는 것처럼 사소한와 외모 것 같다 모델에 포함 또는 제외되어야합니까? 가장 중요하지 않은 변수를 먼저 삭제하여 한 번에 하나의 변수를 제외하여 진행하기 때문에 순서대로 변수를 제외하는 것이 주저합니다.Δβ^%Δβ^%
  4. 마지막으로, 나는 확실히 내가 계산하기 위해 사용하고있는 코드를 만들고 싶어 정확합니다. 다음 코드를 사용하고 있습니다. 나를 위해 이것을 할 패키지가 있거나 더 간단한 방법으로 제안을 할 수 있습니다. Δβ^%

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])


호기심에서 당신이 공부하는 종은 무엇입니까?
예측 자

답변:


23

Pβ


3
예, 도메인 지식 + 단순하게 불확실한 선량, 예를 들어 선형성을 입증하는 사전 데이터가없는 한 연속 변수가 선형으로 작동한다고 가정하지 마십시오.
Frank Harrell

6
OP는 3 판에서이 분야에 큰 공헌을 한 작가들과 함께 주류 텍스트를 인용하고 있습니다. 이 문제에 대한 다른 요점은 다른 영향력있는 텍스트 (Agresti, Gelman)에서 논의됩니다. 나는이 전략에 동의하기 때문에 이것을 제기하는 것이 아니라, 이러한 전략들이 최근의 주요 본문에서 존경받는 통계 학자들에 의해 권고된다는 점에 주목해야한다. 요컨대, 이것에 대해 조언하는 많은 문헌이 있지만 통계 커뮤니티에 의해 거부되지 않는 것 같습니다.
julieth

2
그것은 나의 겸손한 의견에 상당히 잘못 안내되어 있습니다. 일부 텍스트에서 그렇게 강력하게 추진 된 전략은 검증 된 적이 없습니다 . 시뮬레이션을 믿지 않는 저자는 광고 된대로 작동하지 않는 방법의 사용을 옹호 할 위험이 있습니다.
Frank Harrell

2
예, 알아요 나는 당신의 텍스트와 논문을 자주 언급하며, 위의 전략에 동의하지 않는 결론에 도달하기 위해 사용한 출처 중 하나입니다. 나는 단순히 적용된 사용자의 딜레마를 전달하고 있습니다. 모든 것을 테스트 할 수는 없습니다. 우리는 당신과 같은 전문가에 의존합니다.
julieth

3
@GNG : FH는 모델 선택에 대한 이러한 접근 방식이 일반적인 응용 분야에서 실제로 수행해야하는 (실제로 모델 예측의 정확도를 향상시키기 위해) 수행한다는 것을 보여주는 방법으로 시뮬레이션을 참조합니다. 귀하의 (확실한) 질문은 "전통적인"수준에서 불확정 한 수의 유의성 검정에 기반한 다소 임의적이고 임시적인 성격을 강조합니다.
Scortchi-Monica Monica 복원

5

고전적인 텍스트 Hosmer 등의 P, 단계적 회귀와 같은 통계를 사용하여 변수 선택을 위해 지정된 방법은 모든 비용을 피해야합니다.

최근에 나는 국제 예측 일기에 실린 " 예측의 환상 "이라는 제목의 기사와 Keith ord 의이 기사에 대한 논평을 우연히 발견했습니다 . 나는 회귀 통계를 사용하는 것이 종종 오도하는 것을 분명히 보여주기 때문에이 기사를 강력히 추천합니다. Follwoing은 Keith Ord의 기사의 스크린 샷으로 변수 선택에 대한 단계별 현명한 회귀 (p 통계 사용)가 왜 나쁜지를 보여줍니다.

여기에 이미지 설명을 입력하십시오

같은 저널에 실린 Scott Armstrong의 또 다른 멋진 기사 는 사례 연구에서 실험적이지 않은 데이터에 대한 회귀 분석을 사용하는 데 매우 신중해야하는 이유를 보여줍니다. 이 기사를 읽은 이후로 실험적이지 않은 데이터에 대한 인과 추론을 도출하기 위해 회귀 분석을 사용하지 않습니다. 실무자로서 나는 수년 동안 나쁜 결정을 내리고 값 비싼 실수를 피하는 데 도움이되는 기사를 읽었 으면 좋겠다.

특정 문제에 대해서는 귀하의 경우 무작위 실험이 가능하지 않다고 생각하므로 교차 유효성 검사 를 사용하여 변수를 선택 하는 것이 좋습니다 . 이 무료 온라인 서적 에는 예측 정확도를 사용하여 변수를 선택하는 방법에 대한 유용한 예제가 있습니다 . 또한 다른 많은 변수 selction 방법도 있지만 교차 검증으로 제한합니다.

저는 개인적으로 암스트롱의 인용문을 좋아합니다. "어딘가에서 통계가 의사 소통에 도움이된다는 생각이 들었습니다. 복잡한 회귀 분석법과 진단 통계의 무리가 우리를 다른 방향으로 이끌었습니다."

아래는 내 의견이다. 저는 통계학자가 아닙니다.

  • 생물 학자로서 나는 당신이이 점에 감사 할 것이라고 생각합니다. 물류 기능을 가정 하고 변수간에 상호 작용이 발생하지 않는다고 가정하면 자연은 매우 복잡 합니다. 또한 로지스틱 회귀 분석에는 다음과 같은 가정이 있습니다 .

  • 진정한 조건부 확률은 독립 변수의 로지스틱 함수입니다.

  • 중요한 변수는 생략하지 않습니다. 외부 변수는 포함되지 않습니다.

  • 독립 변수는 오류없이 측정됩니다.
  • 관찰은 독립적입니다.
  • 독립 변수는 서로 선형 조합이 아닙니다.

분류 및 회귀 트리 (CART (r))를 이러한 유형의 분석에 대한 로지스틱 회귀에 대한 대안으로 추천합니다.

  1. 비모수 / 데이터 중심 / 출력 확률이 로지스틱 함수를 따르는 것으로 가정하지 않습니다.
  2. 비선형
  3. 복잡한 변수 상호 작용을 허용합니다.
  4. 산림 관리자와 같은 비 통계학자가 이해할 수있는 해석하기 쉬운 시각적 트리를 제공합니다.
  5. 결 측값을 쉽게 처리합니다.
  6. CART를 사용하기 위해 통계학 자일 필요는 없습니다 !!
  7. 교차 검증을 사용하여 변수를 자동으로 선택합니다.

CART는 Salford Systems의 상표입니다. CART의 소개와 역사는 이 비디오 를 참조하십시오 . 같은 웹 사이트에 장바구니-물류 등록 하이브리드와 같은 다른 비디오도 있습니다. 확인하겠습니다. R에서 오픈 소스 함침을 Tree 라고하며 R에서 딸랑이와 같은 다른 패키지가 많이 있습니다. 시간을 찾으면 CART를 사용하여 Homser의 텍스트에 첫 번째 예제를 게시합니다. 로지스틱 회귀 사용을 고집한다면 적어도 CART와 같은 방법을 사용하여 변수를 선택한 다음 로지스틱 회귀를 적용합니다.

앞서 언급 한 장점 때문에 로지스틱 회귀보다 CART를 선호합니다. 그러나 여전히 로지스틱 회귀와 CART 또는 CART-Logistc Regression Hybrid를 모두 시도해보고 더 나은 예측 정확도 와 더 중요한 해석 가능성을 제공 하고 데이터를보다 명확하게 "통신"한다고 ​​생각하는 것을 선택합니다.

또한 FYI CART는 주요 통계 저널에 의해 거부되었으며 CART의 발명가는 논문을 발표했습니다. CART는 랜덤 포레스트 (Random Forest), 그라디언트 부스팅 머신 (GBM), 다변량 적응 형 회귀 스플라인 (Multivariate Adaptive Regression Splines)과 같은 현대적이고 고도로 성공적인 머신 러닝 알고리즘을 구현했습니다. Randomforest 및 GBM은 CART보다 정확하지만 CART보다 해석하기 어렵습니다 (예 : 블랙 박스).

희망적으로 이것은 도움이됩니다. 이 게시물이 유용하다고 생각되면 알려주십시오.


8
Y

3
이 답변은 적어도 나에게는 논쟁의 여지가없는 일반적인 의견에서 선택 방법으로 CART에 대한 매우 구체적이고 개인적으로 보증하는 것으로 넘어갑니다. 다른 사람들은 그들의 반대에 대한 권리를 갖기 때문에 당신은 당신의 견해에 대한 권리가 있습니다. 내 제안은 대답의 두 가지 맛을보다 명확하게 표시하는 것입니다.
Nick Cox

2
로지스틱 회귀는 일반화 된 선형 모형이지만, 그렇지 않은 경우 자연적으로 비선형 모형 (일반 공간에서 직선 또는 등가가 아닌 곡선 또는 등가에 적합하다는 의미에서)에 적합하기 때문에 실제로 동기가 부여됩니다. 이진 반응. 여기서 생물학에 대한 호소는 양날이다. 이진 반응에 대한 역사적으로 로지스틱 모델은 생물학에서 로지스틱 성장 (예 : 모집단) 모델에서 영감을 받았습니다!
Nick Cox

Soyer et al. 종이, 암스트롱 종이 및 주석은 모두 매우 좋습니다. 나는 이번 주말에 그것들을 읽었습니다. 제안 해 주셔서 감사합니다. 통계학자가 아니기 때문에 로지스틱 회귀 분석에 CART를 사용하는 것에 대해서는 언급 할 수 없습니다. 그러나 귀하의 답변은 매우 잘 작성되고 도움이되며 통찰력있는 의견을 받았습니다. 나는 CART, MaxEnt, 부스트 회귀 트리와 같은 머신 러닝 방법에 대해 읽고 있으며, 그것들을 통찰력을 얻기 위해위원회와 논의 할 계획입니다. 여유 시간이 생기면 CART 비디오도 흥미로워 야합니다.
GNG

3
미소로 우리는 선형 모델에 대한 귀하의 의견을 되돌릴 수 있다고 가정하고 가정이 없거나 가정과는 거리가 멀다고 주장합니다. CART는 현실이 나무와 같다고 가정합니다 (다른 무엇입니까?). 자연이 매끄럽게 변화하는 연속체라고 생각한다면 반대 방향으로 진행해야합니다.
Nick Cox

3

나는 당신이 존재 / 배경 접근법을 가진 종의 존재를 예측하려고 노력하고 있다고 생각합니다.이 방법은 생태학 및 진화론, 생태학 등의 저널에 잘 정리되어 있습니다. 아마도 R 패키지 디스 모가 문제에 유용 할 것입니다. 멋진 소품이 포함되어 있습니다. dismo 또는 다른 유사한 패키지를 사용하면 문제에 대한 접근 방식이 변경된다는 것을 의미하지만, 살펴볼 가치가 있다고 생각합니다.


2
모델을 지정하지 않아도되는 것은 무엇입니까? 모델에 무엇이 있어야 하는가에 대한 불확실성이 큰 이유는 무엇입니까? GLM을 사용하여 모델을 선택해야하는 이유는 무엇입니까?
Frank Harrell

1
몇 가지 개념을 혼합하는 것이 두렵습니다. (1) 실제로 maxent는 존재 / 배경 데이터 또는 존재 / 의사 부재 데이터입니다. 따라서 maxent는 현재 상태 전용 데이터를 사용하고 풍경의 일부 지점, 즉 배경 / 의사 부재를 추가합니다. 따라서 귀하의 경우에 사용할 수 있습니다. (2) GLM은 '실제'부재로 사용하도록 설계되었습니다. 그러나 GLM은 존재 / 의사 부재 데이터에 맞게 조정되었습니다. (3) dismo 패키지는 강화 된 회귀 트리를 제공 할뿐만 아니라 패키지의 비 네트 중 하나를 따라 GLM을 장착 할 수도 있습니다 (2 개가 있습니다).
Hugo Hugo

1
예측 변수로 어떤 변수를 포함시켜야하는지에 관한 질문이있는 경우 다음 문서를 살펴보십시오 : Sheppard 2013. 기후 변수 선택이 종 분포 예측에 어떤 영향을 줍니까? 뉴질랜드에서 3 개의 새로운 잡초에 대한 사례 연구. 위드 리서치; 해리스 등. 2013. 존재 하는가 아닌가? 변수 선택은 미래 기후 하에서 멸종 위기 종의 예상 운명을 바꿀 수 있습니다. 에콜. 관리. 복원
Hugo Hugo

2
변수 선택 기술이 어떻게 든 과적 합을 줄인다는 생각은 이상합니다. 모형 축소로 인한 변수의 명백한 절약은 축소가 데이터 자체에서 비롯 될 때 완전히 환상입니다.
Frank Harrell

1
@GNG "모델의 모든 변수를 떠나에 대한 내 불확실성 내가 공선 이상 피팅에 대해 배운 모든 것을에서 온다"- 않는 모델은 매우 동일 선상 예측을 포함? 되어 모델은 오버 피팅?
Scortchi-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.