내 데이터에서 매우 정확한 로지스틱 회귀 분류기를 만들었습니다. 이제 왜 그것이 잘 작동하는지 더 잘 이해하고 싶습니다. 특히, 어떤 기능이 가장 큰 기여를하고 있는지 (어떤 기능이 가장 중요한지) 순위를 매기고, 이상적으로는 각 기능이 전체 모델 (또는이 맥락에서)의 정확성에 기여하는 정도를 수량화하고 싶습니다. 어떻게해야합니까?
내 첫 번째 생각은 계수를 기준으로 순위를 매기는 것이었지만 이것이 옳지 않다고 생각합니다. 똑같이 유용한 두 가지 특징이 있지만 첫 번째의 확산이 두 번째보다 10 배 큰 경우 첫 번째가 두 번째보다 낮은 계수를받을 것으로 기대합니다. 기능의 중요성을 평가하는보다 합리적인 방법이 있습니까?
기능의 작은 변화가 결과의 확률에 얼마나 영향을 미치는지 이해하려고 노력하지 않습니다. 오히려 분류자를 정확하게 만드는 관점에서 각 기능의 가치를 이해하려고합니다. 또한 필자의 목표는 기능 선택을 수행하거나 기능이 더 적은 모델을 구성하는 것이 아니라 학습 된 모델에 대해 "설명"을 제공하는 것이므로 분류기는 불투명 한 블랙 박스가 아닙니다.