모집단 간의 차이 조사


9

우리는 두 집단에서 샘플을 가지고 말 : AB. 이 모집단이 개인으로 구성되어 있다고 가정하고 특성 측면에서 개인을 설명하기로 결정했습니다. 이러한 기능 중 일부는 범주 형 (예 : 작동하도록 운전합니까?)이고 일부는 숫자 (예 : 높이)입니다. 이러한 기능을 합니다. 우리는 수백 가지 기능 (예 : n = 200)을 수집합니다. 모든 개인에게 오류나 소음이없는 단순성을 가정 해 봅시다.X1Xn

우리는 두 집단이 다르다는 가설을 세웁니다. 우리의 목표는 다음 두 가지 질문에 답하는 것입니다.

  1. 그들은 실제로 크게 다른가?
  2. 그들 사이의 차이점은 무엇입니까?

의사 결정 트리 (예 : 임의 포리스트) 및 선형 회귀 분석과 같은 방법이 도움이 될 수 있습니다. 예를 들어 랜덤 포레스트 또는 선형 회귀 분석에서 적합 계수의 중요성을 살펴보고 이러한 그룹을 구별 할 수있는 것을 이해하고 특성과 모집단 간의 관계를 탐색 할 수 있습니다.

이 길을 가기 전에 여기에 내 옵션에 대한 이해가 필요합니다. 좋고 현대적인 것과 나쁜 연습이 무엇입니까? 내 목표는 예측 자체가 아니라 그룹 간의 중요한 차이점을 테스트하고 찾는 것입니다.

이 문제를 해결하기위한 원칙적인 접근 방법 은 무엇입니까 ?

내가 가진 몇 가지 우려 사항은 다음과 같습니다.

  • 선형 회귀 분석과 같은 방법이 완전히 대답하지 못할 수도 있습니다 (2). 예를 들어 단일 적합은 일부 차이점을 찾는 데 도움이 될 수 있지만 모든 중요한 차이점은 아닙니다 . 예를 들어, 다중 공선 성은 모든 기능이 그룹에 따라 (최소한 단일 적합에서) 어떻게 다른지 찾지 못하게 할 수 있습니다. 같은 이유로, ANOVA는 (2)에 대한 완전한 답변을 제공 할 수 없을 것으로 기대합니다.

  • 예측 접근법이 어떻게 대답 할 것인지는 명확하지 않습니다 (1). 예를 들어 어떤 분류 / 예측 손실 함수를 최소화해야합니까? 그리고 일단 적합 해지면 그룹이 크게 다른지 여부를 어떻게 테스트합니까? 마지막으로, 나는 (1)에 대한 답변이 내가 사용하는 특정 분류 모델 세트에 달려 있다고 걱정합니다.

답변:


5

다음과 같이 문제를 생각해 봅시다.

말 및 모집단 서 진 변수이다 : 수단 제 인구, 수단은 제 인구. 귀무 가설은 몇 가지 동등한 방법으로 표현 될 수 있습니다.X=(X1,X2,..Xn)YY=0Y=1

  • H0 : 인구가 같다
  • H0 : 분배 주어진 의 분포와 동일한 주어진XY=0XY=1
  • H0 : 와 는 독립적입니다XY
  • H0 : 모든 기능에 대해 로 , 및 독립적f{0,1}f(X)Y

나는 임의의 숲에 대해 많이 알지 못하지만 과적 합을 피하는 다목적 예측 자로 생각 될 수 있습니다. 우리가 그것들을 꽤 이상화한다면 : 그것은 과적 합없이 와 어떤 종류의 특징 사이의 어떤 종류의 관계를 감지 할 수있는 것입니다 .YX

이것을 기반으로 무언가를 시도하는 것이 가능합니다. 원본 데이터 세트를 학습 세트와 테스트 세트로 나눕니다. 그때:

  • 훈련 세트 에서 에서 를 예측 하는 임의의 숲 를 훈련시킵니다.fYX
  • 테스트 세트에서 와 사이에 간단한 카이 제곱 독립 테스트 (위험 )를 만듭니다.αf(X)Y

이 테스트는 상당히 보수적입니다. 랜덤 포레스트가 좋지 않은 방법이라면, 벙어리 출력이 최악 일 경우 , 어쨌든 보다 작은 확률로 을 거부 합니다 ( 이 참인 경우). 테스트와 훈련 세트를 사용하기 때문에 과적 합은 문제가되지 않습니다. 그러나 검정의 검정력은 임의 포리스트 방법 (또는 사용 된 예측 변수)의 지능에 직접적으로 의존합니다.f(X)H0αH0

몇 가지 가능한 예측 변수를 사용할 수 있습니다. 평범한 오래된 로지스틱 회귀 분석, 일부 교차 피처로 로지스틱 회귀 분석, 몇 가지 의사 결정 트리, 임의의 포리스트 ... 그러나 그렇게하려면 를 숫자로 조정해야합니다. "거짓 발견"을 피하기위한 테스트 참조 : 여러 테스트를위한 알파 조정α


감사합니다 Benoit (+1). 이것은 질문 (1)에 적용됩니다. 이 방법이나 다른 방법으로 문제를 해결하는 방법에 대한 아이디어가 있습니까?
Amelio Vazquez-Reina

DJohnson이 지적한 것처럼 RF는 해석 할 수 없습니다. 로지스틱 회귀는 (단일 특징을 갖는) 것일 수 있습니다. 실제로 예측 변수에 따라 다릅니다. RF에 가까운 아이디어에 따라 많은 (임의의) 의사 결정 트리 (잘 조정 된 )를 사용하고 가장 작은 (= 최상의) p- 값으로 트리를 표시 할 수 있습니다. α
Benoit Sanchez

감사. 무작위 DT를 피팅하고 카이 제곱 같은 테스트에서 가장 중요한 결과를 찾는 제안을 좋아합니다. 잘 조정 된 사용을 언급했을 때 Bonferroni 수정을 참조한다고 가정합니다 . 이것은 RF를 사용하고 각 트리를 테스트하는 것과 어떻게 다릅니 까? α
Amelio Vazquez-Reina

또한, RF에 대한 나의 희망은 차이점을 포착하는 기능을 식별하는 것입니다 (즉, 적어도 부분적으로 (2)에 대한 답을 얻음). 그것들은 해석 가능성에 이상적이지 않습니다 (높이를 제한하여 그렇게 할 수 있다고 가정하지만). 두 경우 모두 DT에 대해 동일하게 말할 수 있습니까? 귀하의 의견을 잘 이해하고 있는지 확인하십시오.
Amelio Vazquez-Reina

예, Bonferroni를 참조하십시오. RF를 사용하면 많은 DT를 평균하여 단일 예측 변수를 만듭니다. 그런 다음 각 DT가 아닌이 평균으로 단일 테스트를 수행하여 위험을 초래합니다. 여러 DT를 사용하면 테스트를 수행하여 위험을 초래합니다 (Bonferroni를 사용하지 않는 경우). 다수의 DT를 평균화하는 (단일) RF는 단일 테스트 인 반면 이것은 다중 테스트로 간주해야합니다. αn1(1α)n
Benoit Sanchez

3

데이터에서 몇 개의 기능을 사용할 수 있는지 말하지 않습니다. 많은 사람들이 많습니까? 우리는 이들이 동일한 도구, 방법 및 양식을 사용하여 측정 된 모집단간에 동일한 기능이라고 가정 할 수 있습니까? 그렇지 않은 경우 변수 오류 측정 모델이 작동 할 수있는 더 큰 문제 가 있습니다.

@benoitsanchez는 질문 # 1에 답변 한 것으로 보입니다.

Wrt # 2), 나는 RF가 도움이 될지 확신하지 못한다. 한 번에 한 피처에 적용되는 일원 분산 분석과 같은보다 공식적인 모델을 사용하여 피처의 모집단 간 차이에 대한 테스트를 개발할 수 있습니다. 테스트의 규모와 그 중요성에 따라 해당 테스트 결과를 요약하면, 모집단이 기능에 따라 어떻게 다른지에 대한 설명이 가능해집니다. 이것은 당신의 취향, 선호도 및 훈련을 위해 충분히 엄격하지 않을 수있는 독창적이고 임시적 인 휴리스틱 솔루션입니다.

라텍스 타입 표기법에 능숙하지 않은 경우, 이러한 테스트가 어떻게 작동하는지 간단히 설명하겠습니다. 먼저 모든 기능을 한 번에 하나씩 통과하는 매크로 루프를 구성하십시오. 루프의 각 패스와 함께 새로운 기능은 대상에 대한 DV가되고 인구에 대한 더미 변수와 적절한 제어 변수로 구성된 X 가 포함됩니다. 기본 데이터가 모든 분산 분석에 대해 정확히 동일 할뿐만 아니라 각 기능에 동일한 컨트롤이 사용되는지 확인하여 유한 데이터 샘플의 편차로 인한 변동을 제거하십시오. 각 피처의 더미 변수에 대한 F- 검정 값을 집계합니다. 이는 여러 기능을 비교할 수있는 표준화 된 메트릭을 제공합니다. F-시험 장착하는 것이 바람직하다 베타 사람 베타각 개별 기능의 단위 및 표준 개발자로 표현되는 표준화되지 않았습니다.

마지막 의견은 "(1)에 대한 답변이 내가 사용하는 특정 분류 / 회귀 모델에 따라 달라질 수 있다는 점입니다."는 항상 사실입니다. 답변은 사용 된 모델의 기능에 따라 달라질 수 있습니다. 이는 또한 적용된 통계적 모델링의 비결정론 적 특성에 익숙하지 않거나 인정하기 어려운보다 강력하고 이론적이고 고전적으로 훈련 된 통계 학자들 사이에서 일반적으로 관찰되는 불쾌감을 표현한 것입니다. 이러한 증상에 대한 훌륭한 해독제는 Efron과 Hastie의 최근 저서 Computer Age Statistical Inference 입니다. 그들은 솔직하게의, 발견 적 성격에 가까운, 반복을 인정하여, 21의 C에 데이터 과학 및 기계 학습의 시대를 통계 모델링을 가지고 모든오차항을 갖는 모델. 이 관찰에 내재 된 진실을 인식하기 위해 베이지안 일 필요는 없습니다. 그것들은 예를 들어 교차 제품 매트릭스가 뒤집 히지 않거나 일부 pedantic 모델 가정이 충족되지 않을 때 손을 던진 고전적인 20 번째 통계 실습의 엄격한 결정론과 다른 상쾌한 관점입니다.


@DJohnson에게 감사합니다. "각 기능에 대한 더미 변수에 대한 F- 검정 값을 집계하십시오"라고 말했을 때 정확히 무엇을 의미합니까? 즉,이 결과로 정확히 무엇을 하시겠습니까? 또한이 맥락에서 베타가 무엇을 의미합니까? 마지막으로이 반복적 접근 방식이 상호 작용이없는 것으로 제한되지 않습니까? 예를 들어, 원래의 예를 사용하여 "근무를하는 개인의 키"에 큰 차이가 있다면 어떻게해야합니까?
Amelio Vazquez-Reina

또한 다원 분산 분석을 수행하는 것이 아니라 일련의 일원 분산 분석 테스트를 진행해야하는 이유는 무엇입니까?
Amelio Vazquez-Reina

2
좋은 질문입니다. 결과 설명 프로파일 측면에서, 나는 단순히 각 특징에 대한 F- 검정과 관련된 유의성 또는 p- 값을 기록한 다음 그것들을 높은 것에서 낮은 것까지 순위를 매기는 것을 생각하고있었습니다. F- 검정은 카이 제곱의 비율이므로 대칭이 아니므로 결과의 방향성을 이해하는 데 도움이되도록 모집단 평균을 보고서에 추가 할 수 있습니다. 대안으로, t- 검정은 이러한 이해를 도울 수 있습니다. 이 프로파일은 기본 모집단의 함수로서 특징의 크기 또는 강도를 이해하는 데 도움이됩니다.
마이크 헌터

언급 한대로 제어 변수를 적절하게 추가해야합니다. 모든 모델에서 일관되게 사용되는 한 여기에는 상호 작용이 포함될 수 있습니다. 추가 요인을 도입하면 정의에 따라 모형을 단방향에서 다중 회귀 또는 분산으로 확장 할 수 있습니다.
마이크 헌터
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.