이 질문은 일반적이고 오래 걸리는 것이지만 나와 함께 견뎌주십시오.
내 응용 프로그램에는 ~ 50 개의 기능과 단일 종속 이진 변수가있는 ~ 20,000 개의 데이터 포인트로 구성된 많은 데이터 세트가 있습니다. 정규화 된 로지스틱 회귀를 사용하여 데이터 세트를 모델링하려고합니다 (R 패키지 glmnet )
분석의 일부로 다음과 같이 잔차 그림을 만들었습니다. 각 기능에 대해 해당 기능의 값에 따라 데이터 포인트를 정렬하고 데이터 포인트를 100 버킷으로 나눈 다음 각 버킷 내의 평균 출력 값과 평균 예측 값을 계산합니다. 나는 이러한 차이점을 꾸 plot 다.
잔차 그림의 예는 다음과 같습니다.
위 그림에서 피처의 범위는 [0,1]입니다 (1의 농도가 높음). 보시다시피, 피처 값이 낮 으면 모델은 1- 출력의 가능성을 과대 평가하는쪽으로 편향되어있는 것으로 보입니다. 예를 들어, 가장 왼쪽 버킷에서 모형은 확률을 약 9 % 초과합니다.
이 정보를 바탕으로이 편향을 대략적으로 수정하기 위해 기능 정의를 간단한 방식으로 변경하고 싶습니다. 교체와 같은 변경
또는
어떻게해야합니까? 나는 인간이 ~ 50 플롯을 빠르게 스크롤하고 변경하고 모든 데이터 세트에 대해이 작업을 수행하고 시간이 지남에 따라 데이터가 발전함에 따라 모델을 최신 상태로 유지하기 위해 반복 할 수 있도록 일반적인 방법론을 찾고 있습니다.
일반적인 질문으로, 이것이 올바른 접근 방법입니까? "논리 회귀 잔차 분석"에 대한 Google 검색은 실질적인 조언과 함께 많은 결과를 반환하지 않습니다. 그들은 "이 모델이 잘 맞습니까?"라는 질문에 대한 답변으로 고쳐진 것 같습니다. Hosmer-Lemeshow와 같은 다양한 테스트를 제공합니다. 그러나 나는 내 모델이 좋은지 신경 쓰지 않고 더 나은 방법을 알고 싶습니다!