이것은 StackExchange에 대한 첫 번째 게시물이지만 꽤 오랫동안 리소스로 사용 해 왔으며 적절한 형식을 사용하고 적절한 편집을 위해 최선을 다할 것입니다. 또한 이것은 여러 부분으로 구성된 질문입니다. 질문을 여러 개의 다른 게시물 또는 하나의 게시물로 나눌 것인지 확실하지 않았습니다. 질문은 모두 같은 텍스트에서 한 섹션에 있기 때문에 하나의 질문으로 게시하는 것이 더 관련성이 있다고 생각했습니다.
나는 석사 논문에 큰 포유류 종의 서식지 사용을 연구하고 있습니다. 이 프로젝트의 목표는 산림 관리자 (통계학자가 아닐 것임)에게이 종과 관련하여 그들이 관리하는 토지의 서식지의 질을 평가할 수있는 실질적인 틀을 제공하는 것입니다. 이 동물은 서식지 전문가로서 비교적 애매 모호하며 외딴 지역에 있습니다. 종의 분포, 특히 계절별 분포에 관한 연구는 비교적 적다. 여러 동물에게 1 년 동안 GPS 칼라가 장착되었습니다. 각 동물의 GPS 칼라 데이터에서 100 개의 위치 (여름 50 및 겨울 50)를 무작위로 선택했습니다. 또한, "가능한"또는 "의사 부재"위치로서 역할을하기 위해 각 동물의 집 범위 내에서 50 개의 점이 무작위로 생성되었다.
각 위치에 대해 현장에서 여러 서식지 변수 (나무 지름, 수평 덮개, 거친 나무 잔해 등)를 샘플링하고 GIS (고도, 도로까지의 거리, 견고성 등)를 통해 원격으로 샘플링했습니다. 변수는 7 개의 수준을 갖는 1 개의 범주 형 변수를 제외하고는 대부분 연속적입니다.
나의 목표는 회귀 모델링을 사용하여 자원 선택 함수 (RSF)를 구축하여 자원 단위의 상대적 사용 확률을 모델링하는 것입니다. 동물 개체군 (디자인 유형 I)과 각 개별 동물 (디자인 유형 III)에 대해 계절 (겨울과 여름) RSF를 만들고 싶습니다.
통계 분석을 수행하기 위해 R을 사용하고 있습니다.
차 텍스트 내가 사용하고는 ...
- "Hosmer, DW, Lemeshow, S. 및 Sturdivant, RX 2013. 적용되는 로지스틱 회귀. Wiley, Chicester".
Hosmer et al. STATA를 사용하면 R과 관련하여 다음 두 텍스트를 사용하고 있습니다.
- "Crawley, MJ 2005. Statistics : RJ Wiley, Chichester, West Westssex, England를 사용한 소개."
- "Plant, RE 2012. R. CRC Press, London, GBR을 이용한 생태 및 농업 분야의 공간 데이터 분석."
현재 Hosmer et al. 4 장의 단계를 따르고 있습니다. "공변량의 다목적 선택"에 대한 몇 가지 질문이 있습니다. 질문에 도움이되도록 아래 텍스트의 처음 몇 단계를 간략하게 설명했습니다.
- 1 단계 : 각 독립 변수의 일 변량 분석 (단일 변량 로지스틱 회귀 분석을 사용했습니다). 일 변량 검정의 p- 값이 0.25 미만인 변수는 첫 번째 다변량 모델에 포함되어야합니다.
- 2 단계 : 1 단계에서 포함되도록 식별 된 모든 공변량을 포함하고 해당 Wald 통계량의 p- 값을 사용하여 각 공변량의 중요성을 평가하는 다변량 모형을 적합시킵니다. 기존의 유의 수준에 기여하지 않는 변수는 제거하고 새로운 모델에 적합해야합니다. 부분적 우도 비 검정을 사용하여 새롭고 작은 모형을 구형의 큰 모형과 비교해야합니다.
- 3 단계 : 작은 모델의 추정 계수 값을 큰 모델의 해당 값과 비교합니다. 계수가 크게 변한 변수는 모델에 남아있는 변수의 효과에 필요한 조정을 제공한다는 의미에서 중요하므로 모델에 다시 추가해야합니다. 모든 중요한 변수가 모델에 포함되고 제외 된 변수가 임상 적으로 및 / 또는 통계적으로 중요하지 않을 때까지 2 단계와 3 단계를 반복하십시오. Hosmer et al. 계수의 크기 변화의 척도로서 " 델타-베타-모자 백분율 "을 사용한다. 이들은 델타-베타-모자 비율 이> 20 % 로 유의미한 변화를 제안합니다 . Hosmer et al. 가 define 델타 - 베타 - 모자 퍼센트 등을 . 여기서θ1작은 모델 계수이고,β(1)큰 모델의 계수이다.
- 4 단계 : 1 단계에서 선택하지 않은 각 변수를 3 단계의 끝에서 한 번에 하나씩 얻은 모형에 추가하고 범주 형인 경우 Wald 통계량 p- 값 또는 부분 우도 비 검정으로 유의성을 확인합니다. 레벨이 2 이상인 변수. 이 단계는 결과와 크게 관련이 없지만 다른 변수의 존재에 중요한 기여를하는 변수를 식별하는 데 중요합니다. 우리는 4 단계의 마지막 모델을 예비 주요 효과 모델이라고 합니다.
- 5-7 단계 : 지금까지 진행하지 않았으므로 지금은이 단계를 생략하거나 다른 질문으로 저장합니다.
내 질문 :
- 2 단계에서 p. 값이 <.25보다 큰 <.25와 같은 전통적인 유의 수준으로 적합한 것은 무엇입니까?
- 2 단계에서 다시 부분 우도 테스트에 사용한 R 코드가 올바른지 확인하고 결과를 올바르게 해석하고 싶습니다. 여기에 내가 한 일이 있습니다 ...
anova(smallmodel,largemodel,test='Chisq')
p- 값이 유의하면 (<0.05) 변수를 모델에 다시 추가합니다. 중요하지 않은 경우 삭제를 진행합니까? - 3 단계에서 델타-베타-모자-비율 과 제외 된 변수를 모델에 다시 추가하는 것이 적절한시기 에 대한 질문 이 있습니다. 예를 들어, I는 모델에서 하나 개의 변수를 제외하고는 변경 > 20 % 다른 변수. 하지만의> 20 %의 변화에 변수 Δ β %가 이 단계 2의 몇 사이클 모델에서 제외되며, 3. 어떻게 두 변수 경우 결정을 할 수있는 것처럼 사소한와 외모 것 같다 모델에 포함 또는 제외되어야합니까? 가장 중요하지 않은 변수를 먼저 삭제하여 한 번에 하나의 변수를 제외하여 진행하기 때문에 순서대로 변수를 제외하는 것이 주저합니다.
마지막으로, 나는 확실히 내가 계산하기 위해 사용하고있는 코드를 만들고 싶어 정확합니다. 다음 코드를 사용하고 있습니다. 나를 위해 이것을 할 패키지가 있거나 더 간단한 방법으로 제안을 할 수 있습니다.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])