우리는 두 집단에서 샘플을 가지고 말 : A
와 B
. 이 모집단이 개인으로 구성되어 있다고 가정하고 특성 측면에서 개인을 설명하기로 결정했습니다. 이러한 기능 중 일부는 범주 형 (예 : 작동하도록 운전합니까?)이고 일부는 숫자 (예 : 높이)입니다. 이러한 기능을 합니다. 우리는 수백 가지 기능 (예 : n = 200)을 수집합니다. 모든 개인에게 오류나 소음이없는 단순성을 가정 해 봅시다.
우리는 두 집단이 다르다는 가설을 세웁니다. 우리의 목표는 다음 두 가지 질문에 답하는 것입니다.
- 그들은 실제로 크게 다른가?
- 그들 사이의 차이점은 무엇입니까?
의사 결정 트리 (예 : 임의 포리스트) 및 선형 회귀 분석과 같은 방법이 도움이 될 수 있습니다. 예를 들어 랜덤 포레스트 또는 선형 회귀 분석에서 적합 계수의 중요성을 살펴보고 이러한 그룹을 구별 할 수있는 것을 이해하고 특성과 모집단 간의 관계를 탐색 할 수 있습니다.
이 길을 가기 전에 여기에 내 옵션에 대한 이해가 필요합니다. 좋고 현대적인 것과 나쁜 연습이 무엇입니까? 내 목표는 예측 자체가 아니라 그룹 간의 중요한 차이점을 테스트하고 찾는 것입니다.
이 문제를 해결하기위한 원칙적인 접근 방법 은 무엇입니까 ?
내가 가진 몇 가지 우려 사항은 다음과 같습니다.
선형 회귀 분석과 같은 방법이 완전히 대답하지 못할 수도 있습니다 (2). 예를 들어 단일 적합은 일부 차이점을 찾는 데 도움이 될 수 있지만 모든 중요한 차이점은 아닙니다 . 예를 들어, 다중 공선 성은 모든 기능이 그룹에 따라 (최소한 단일 적합에서) 어떻게 다른지 찾지 못하게 할 수 있습니다. 같은 이유로, ANOVA는 (2)에 대한 완전한 답변을 제공 할 수 없을 것으로 기대합니다.
예측 접근법이 어떻게 대답 할 것인지는 명확하지 않습니다 (1). 예를 들어 어떤 분류 / 예측 손실 함수를 최소화해야합니까? 그리고 일단 적합 해지면 그룹이 크게 다른지 여부를 어떻게 테스트합니까? 마지막으로, 나는 (1)에 대한 답변이 내가 사용하는 특정 분류 모델 세트에 달려 있다고 걱정합니다.