통계 및 기계 학습에서 두 그룹 간 구별 : 가설 검정 vs. 분류 대 군집


29

A와 B라는 레이블이 붙은 두 개의 데이터 그룹 (예 : 200 개의 샘플과 1 개의 기능을 포함)이 있고 서로 다른지 알고 싶습니다. 나는 할 수 있었다 :

  • a) 통계 테스트 (예 : t- 테스트)를 수행하여 통계적으로 다른지 확인하십시오.

  • b) 감독 머신 러닝 (예 : 지원 벡터 분류기 또는 임의 포리스트 분류기)을 사용합니다. 내 데이터의 일부에서 이것을 훈련시키고 나머지에서 확인할 수 있습니다. 기계 학습 알고리즘이 나머지를 올바르게 분류하면 샘플이 차별화되는지 확인할 수 있습니다.

  • c) 감독되지 않은 알고리즘 (예 : K-Means)을 사용하고 모든 데이터를 두 샘플로 나눕니다. 그런 다음이 두 개의 발견 된 샘플이 레이블 A 및 B와 일치하는지 확인할 수 있습니다.

내 질문은 :

  1. 이 세 가지 방법이 어떻게 중복 / 배타적입니까?
  2. b)와 c)는 과학적 주장에 유용합니까?
  3. 방법 b)와 c)에서 샘플 A와 B의 차이에 대해 어떻게“의의”를 얻을 수 있습니까?
  4. 데이터에 하나의 기능이 아닌 여러 기능이있는 경우 어떻게 변경됩니까?
  5. 100과 300과 같이 다른 수의 샘플이 포함 된 경우 어떻게됩니까?

3
(a)와 (b) 의 차이점 통계적 테스트 차이 있는지 여부에 초점을 맞추고 분류 방법은이 차이의 크기에 초점을 둔다는 것입니다. 임의 포리스트를 사용하는 경우 교차 검증 된 정확도를 알고 싶습니다. 아마 78 % 일 것입니다. 그것은 당신이 관심있는 숫자이며, 50 %와 같지 않다는 진술을 하지는 않습니다 .
amoeba는

4
a / b / c가 일반적인 신호 대 잡음비에서 다른 IMHO 상황은 (a)에서 (b)로 (c)로 증가하고 있습니다. t- 검정의 일반적인 적용에서 높은 노이즈가 있습니다. 그룹이 같지 않다는 것을 보여주고 싶습니다. 그룹이 분명히 같지 않으면 (소음이 적 으면) 더 이상 테스트가 필요하지 않습니다. 대신 우리는 그룹이 얼마나 다른지 정량화하려고하며, 표본 외부 분류 정확도가 여기에 도움이 될 수 있습니다. 노이즈가 적고 분류 정확도가 ~ 100 % 인 경우 그룹이 너무 구별되어 클러스터링 알고리즘으로 선택할 수 있는지 여부를 요청할 수 있습니다.
amoeba는 Reinstate Monica가

1
@amoeba, 질문 제목 등을 수정했기 때문에 귀하에게 연락을 드리고 있습니다. 한 번 더 생각해 보도록하겠습니다. "분류"및 "클러스터링": 기계 학습의 (단독) 소유 가 아닙니다 . 이러한 작업은 처음 m 전에 통계 / 데이터 분석에서 일상적으로 수행되었습니다. 학습자가 태어났다. ML로 인해 그리고 ML 내에서 진화 한 SVM과 같은 최근의 기술에는 거의 해당되지 않습니다. 분류 / 클러스터링 / 트리를 ML에만 연결하는 것은 적절하지 않습니다. 그러나 ML은 훈련 / 테스트를 많이 사용한다는 점에서 통계 데이터 분석과 다릅니다.
ttnphns 2012

@ttnphns 물론, 맞습니다. 그러나 원래 제목은 "샘플 구별 : 기계 학습 vs. 통계 테스트 (예 : t- 테스트)"였으며, 실제로 t- 테스트에 대해 질문하기 때문에 정확도를 추가하고 싶었습니다. vs 분류 vs 군집 (이 특정 과학적 목적을 위해). 제목의 가능한 개선에 대해 생각할 것입니다.
amoeba는 Reinstate Monica가

@ttnphns 제목을 편집했습니다. 더 좋아하는지 확인하십시오.
amoeba는 Reinstate Monica가

답변:


15

좋은 질문입니다. 목표가 무엇인지 (그리고 아마도 상황의 본질에 따라) 무엇이든지 좋고 나쁘거나 유용하거나 그렇지 않을 수 있습니다. 대부분의 경우 이러한 방법은 서로 다른 목표를 만족 시키도록 설계되었습니다.

  • 검정 과 같은 통계 검정 을 통해 과학적 가설을 검정 할 수 있습니다. 사람들이 다른 도구에 익숙하지 않기 때문에 종종 다른 목적으로 사용되지만 일반적으로 사용해서는 안됩니다. 두 그룹이 정규 분포 변수에 대해 다른 평균을 가짐에 대한 사전 가설이있는 경우 t- 검정을 통해 해당 가설을 테스트하고 장기 유형 I 오류율을 제어 할 수 있습니다 (여러분은 알 수 없지만 이 특정 경우에 제 1 종 오류율을 만들었습니다.
  • SVM과 같은 기계 학습의 분류기 는 패턴을 알려진 클래스 세트 중 하나에 속하는 것으로 분류하도록 설계되었습니다. 일반적인 상황은 일부 알려진 인스턴스가 있고 나중에 실제 클래스를 알 수없는 다른 패턴이있을 때 가장 정확한 분류를 제공 할 수 있도록이를 사용하여 분류기를 학습하려는 경우입니다. 여기서 강조 는 샘플 정확도 를 벗어난 것입니다 . 가설을 테스트하지 않습니다. 확실히 미래의 분류 도움이 불가능할 것이기 때문에 예측 변수 / 특성의 분포가 클래스마다 다르기를 희망하지만 Y의 평균이 X에 따라 다르다는 믿음을 평가하려고하지는 않습니다. Y가 알려진 미래의 X.
  • 클러스터링 과 같은 비지도 학습 알고리즘 은 데이터 세트에서 구조를 감지하거나 부과하도록 설계되었습니다. 이 작업을 수행 할 수있는 많은 이유가 있습니다. 때로는 데이터 세트에 잠재 된 잠재 그룹이있을 것으로 예상하고 클러스터링 결과가 사용자의 목적에 따라 합리적이고 유용하게 보이는지 확인하고자 할 수 있습니다. 다른 경우에는 데이터 축소를 가능하게하기 위해 데이터 세트에 구조를 적용 할 수 있습니다. 어느 쪽이든, 당신은 어떤 것에 대한 가설을 테스트하려고 시도하지 않으며, 미래에 무엇이든지 정확하게 예측할 수 있기를 희망하지 않습니다.

이를 염두에두고 질문을 해결하십시오.

  1. 세 가지 방법은 목표에 따라 근본적으로 다릅니다.
  2. b와 c는 과학적 논증에 유용 할 수 있으며, 논증의 본질에 달려 있습니다. 과학에서 가장 일반적인 유형의 연구는 가설 검정에 중점을두고 있습니다. 그러나 합법적 인 목표 인 예측 모델을 형성하거나 잠재적 패턴을 감지하는 것도 가능합니다.
  3. 일반적으로 방법 b 또는 c에서 '의미'를 얻으려고 시도하지 않습니다.
  4. 기능이 사실상 범주 형이라고 가정하면 (여기서 수집 한 것이 마음에 드는 것임) 계승 분산 분석을 사용하여 가설을 테스트 할 수 있습니다. 기계 학습에는 다중 레이블 분류에 대한 하위 주제가 있습니다. 여러 멤버쉽 / 겹치는 클러스터에 대한 방법도 있지만, 덜 일반적이며 다루기 어려운 문제를 구성합니다. 이 주제에 대한 개요는 Krumpleman, CS (2010) 겹치는 클러스터링을 참조하십시오. 논문, UT Austin, 전기 및 컴퓨터 공학 ( pdf ).
  5. 일반적으로 말해서, 세 가지 유형의 방법 모두 범주에 걸쳐 사례 수가 다양할수록 더 큰 어려움이 있습니다.

2
Re # 4 : OP에서 "feature"라는 단어를 잘못 이해했다고 생각합니다. 기계 학습에서 "기능"은 단순히 변수를 의미합니다. 따라서 "다중 특징"은 요인 분산 분석이 아닌 다변량 버전의 t- 검정 (예 : Hotelling 's T)을 사용한다는 것을 의미합니다.
amoeba는

11

다른 답변으로 해결되었으므로 클러스터링을 해결하지는 않지만 다음을 수행하십시오.

일반적으로 두 샘플의 의미가 다른지 테스트하는 문제를 2- 샘플 테스트라고 합니다.

예를 들어 Lopez-Paz and Oquab (2017)에서 최근 제안한 것처럼 분류기에서 2 샘플 테스트를 구성하는 경우 이러한 문제 중 일부에 대해 더 쉽게 생각할 수 있습니다 . 절차는 다음과 같습니다.

  • 엑스와이엑스기차엑스테스트와이기차와이테스트
  • 엑스기차와이기차
  • 엑스테스트와이테스트
  • ^=121212

학습 된 분류기를 검사하여 분포 간의 차이를 반 의미 한 방식으로 해석 할 수도 있습니다. 고려하는 분류 기준 군을 변경하면 특정 종류의 차이점을 찾도록 테스트를 안내 할 수 있습니다.

train-test split을 수행하는 것이 중요합니다. 그렇지 않으면 입력을 암기 한 분류 기가 항상 완벽한 판별력을 갖습니다. 훈련 세트의 점수 부분을 늘리면 좋은 분류기를 배울 수있는 더 많은 데이터가 제공되지만 분류 정확도가 실제로 확률과 다른지 확인할 수있는 기회는 줄어 듭니다. 이 장단점은 문제와 분류 자 ​​가족에 따라 달라 지지만 아직 잘 이해되지 않은 것입니다.

Lopez-Paz와 Oquab는 몇 가지 문제에서이 접근 방식의 실증적 성능을 보여주었습니다. Ramdas et al. (2016) 은 이론적으로 밀접하게 관련된 접근법이 하나의 특정 간단한 문제에 대해 속도 최적화적임을 보여 주었다. 이 설정에서 수행해야 할 "올바른"작업은 활발한 연구 분야이지만이 방법은 상용 표준 테스트를 적용하는 것보다 약간 더 유연하고 해석하기를 원할 경우 많은 설정에서 적어도 합리적입니다.


(+1) 또한 중첩 교차 검증이 진행됩니다. 그런 다음 정보가없는 모델 성능에 대해 외부 리샘플링 루프에서 얻은 성능 추정치를 테스트하십시오. 임의 확률로 예상보다 상당히 높은 경우 데이터가 다소 구별됩니다.
Firebug

@Firebug "정보가없는 모델 성능"이란 무엇입니까? 나는 당신의 제안 된 절차를 얻지 못했습니다.
Dougal

2
@Firebug 중요하지만 미묘한주의 사항은 분류 정확도가 CV를 통해 추정되면 이항 테스트를 사용할 수 없다는 것입니다.
amoeba는 Reinstate Monica가

2
@Firebug 내 요점은 여전히 ​​존재합니다. 이러한 추정치가 독립적이지 않기 때문에 다른 접힘, 특히 반복 CV의 AUC에 어떤 종류의 단일 샘플 테스트를 적용 할 수 없습니다 . 이것은 잘 알려진 문제입니다.
amoeba는 Reinstate Monica가

2
재 순열 테스트 : 나는 그것을 스스로했다. CV를 실행하여 예상 성능을 얻은 다음 레이블을 섞고 전체 CV 파이프 라인을 다시 실행합니다 (그리고 널 분포를 얻기 위해이 작업을 100 번 또는 1000 번 섞습니다). 그래도 시간이 많이 걸리는 경향이 있습니다. Cc에서 @Firebug로
amoeba는 Reinstate Monica가

3

접근법 (a)만이 가설 검정의 목적으로 사용됩니다.

감독 된 머신 러닝 알고리즘 (b)을 사용하는 경우 그룹의 분산에 대한 가설을 입증하거나 반증 할 수 없습니다. 기계 학습 알고리즘이 그룹을 올바르게 분류하지 않으면 문제에 대해 "잘못된"알고리즘을 사용했거나 충분히 조정하지 않았기 때문에 발생할 수 있습니다. 반면에, "랜덤"데이터를 오래 "고문"할 수 있습니다. 좋은 예측을하는 과적 합 모델을 생성하기에 충분합니다. 또 다른 문제는 알고리즘이 "좋은"예측을한다는 것을 언제 그리고 어떻게 알 수 있을까요? 분류 정확도가 100 %를 목표로하는 경우는 거의 없습니다. 따라서 분류 결과가 무언가를 증명한다는 것을 언제 알 수 있습니까?

군집 알고리즘 (c)은지도 학습을 위해 설계되지 않았습니다. 레이블을 다시 만드는 것이 아니라 데이터를 유사성으로 그룹화하는 것입니다. 이제 결과는 사용하는 알고리즘과 찾고있는 유사성에 따라 다릅니다. 데이터는 서로 다른 종류의 유사점을 가질 수 있으며, 남학생과 여학생 간의 차이점을 찾고 싶을 수도 있지만 알고리즘은 대신 가난하고 부유 한 어린이 그룹 또는 지능적이지 않은 지적, 오른쪽 및 왼손잡이 등을 찾을 수 있습니다. 의도 한 그룹화는 그룹화가 의미가 없다는 것을 증명하는 것이 아니라 다른 "의미있는"그룹화를 찾았다는 것만 증명합니다. 이전의 경우와 같이 결과는 사용 된 알고리즘과 매개 변수에 따라 달라질 수 있습니다. 알고리즘 / 설정 10 개 중 하나가 "귀하의"를 발견 한 경우 라벨? 그것이 백에서 하나라면 어떨까요? 중지하기 전에 얼마나 오래 검색 하시겠습니까? 대부분의 경우 기계 학습을 사용할 때 기본 설정으로 하나의 알고리즘을 사용한 후에는 중단되지 않으며 결과는 사용한 절차에 따라 달라질 수 있습니다.


2
접근 (b)의 경우 : 결과에 의미가 있는지 아는 문제를 해결하기 위해 내 대답 에 명시된 가설 테스트를 구성 할 수 있습니다 (이 문제에 대해 분류기를 순진하게 사용하고 있음). 주어진 가설 검정은 분류기에서와 동일한 방식으로 문제에 대한 "잘못된"검정이기 때문에 널을 거부하지 못할 수도 있습니다. 과적 합 문제는 데이터 분할을 통해 완전히 해결됩니다.
Dougal

@Dougal의 좋은 점 (+1)이지만 나의 주요 주장은 기계 학습을 사용하여 알고리즘을 선택하고, 사용하고, 테스트하고 결과를 평가하는 방법에 따라 결과가 달라진다는 것입니다. 따라서 그러한 시험의 결과는 귀하의 행동에 달려 있습니다. 이는이 방법을 사용하는 동안 잠재적으로 두 명의 다른 통계학자가 다른 결과를 얻을 수 있음을 의미합니다. 반면에, 기존의 가설 검정에서는 검정 선택에만 의존합니다.
Tim

또한 적용 할 수있는 "올바른"방법은 없으며 예상 한 결과를 얻기 위해이를 쉽게 조작 할 수 있습니다 (의도적이든 아니든).
Tim

원하는 결과를 얻을 때까지 백만 가지를 시도하고 있다면 가능합니다. 자체 분석을 포함하여 적절한 데이터 분할을 수행하면 테스트 절차가 완벽하게 유효합니다. 더 많은 옵션을 사용하면 악용 방법을 알고있는 상황에서 더 큰 힘을 얻을 수 있지만, 조심하지 않으면 부정직하게 또는 부정 행위를 할 수있는 더 많은 기회가 있습니다.
Dougal

@Dougal 예. 그러나 결과는 교차 유효성 검사에 사용되는 절차와 분할 자체 (예 : 테스트 그룹의 크기)에 따라 달라집니다. 따라서 각 단계에서 결과는 절차에 따라 다릅니다. 또한 학습을 ​​중단하고 더 나은 결과를 얻으려고 할 때의 결정입니다 (기본 설정, 단일 알고리즘 및 단일 알고리즘 및 매개 변수 조정, 다중 알고리즘-수의 단일 알고리즘). 이 절차는 아마도 (정확히하지만?) 약간의 여러 테스트를 위해 수정해야 할 수있는 계정에 사용 된 절차 - 기본 설정으로 하나의 알고리즘에 좋은 결과가 보인다

2
  1. a) 분포가 다른지 여부에 대한 질문에만 대답하지만 구별하는 방법은 아닙니다. b) 또한 두 분포를 구별하기위한 최상의 가치를 찾을 것입니다. c) 두 분포에 특정 특성이있는 경우 작동합니다. 예를 들어, 정규 분포에서는 작동하지만 두 개의 모달 분포에서는 작동하지 않습니다.이 방법은 두 개의 다른 그룹 대신 동일한 그룹의 두 가지 모드를 구별 할 수 있기 때문입니다.

  2. c) 두 개의 모달 분포 때문에 과학적 주장에는 유용하지 않다. b) 유의성을 계산할 수 있기 때문에 두 분포를 구별하는 데 사용할 수 있습니다 (3 참조).

  3. 부트 스트랩 랜덤 서브 샘플을 기준으로 1000 번 모델을 계산합니다. 예를 들어 알파 및 베타 오류의 최소 합과 같은 점수를 얻습니다. 점수를 오름차순으로 정렬합니다. 5 % 신뢰를 위해서는 950 번째 값을 선택하십시오. 이 값이 50 %보다 낮 으면 (그룹 A 및 B의 동일한 수의 포인트에 대해) 95 % 신뢰도로 분포가 동일하다는 귀무 가설을 무시할 수 있습니다. 문제는 분포가 모두 정규이고 평균이 같지만 변형이 다르면 ML 기술에 따라 다르다는 것을 이해할 수 없다는 것입니다. 반면에 두 분포를 구별 할 수있는 변형 검정을 찾을 수 있습니다. ML이 통계 테스트보다 강력하고 분포를 구별 할 수있는 다른 방법이 될 수 있습니다.

  4. ML에 기능이 하나만 있으면 분포를 구별하기 위해 하나의 값만 찾으면됩니다. 두 가지 특징으로 경계는 부비동이 될 수 있고 다차원 공간에서는 정말 이상 할 수 있습니다. 따라서 올바른 경계를 찾는 것이 훨씬 어려울 것입니다. 반면에 추가 기능은 추가 정보를 제공합니다. 따라서 일반적으로 두 분포를 더 쉽게 구별 할 수 있습니다. 두 변수가 모두 정규 분포이면 경계는 선입니다.

  5. 중앙 한계 정리를 적용 할 수 없으므로 더 작은 샘플은 비정규 적으로 작동 할 수 있습니다. 중앙 한계 정리 (Central Limit Theorem)가 작동하기 때문에 더 큰 샘플이 더 정상적으로 작동하기 시작합니다. 예를 들어 표본이 충분히 크면 두 그룹의 평균이 거의 정규 분포를 따릅니다. 그러나 일반적으로 100 대 300이 아니라 1000 개의 관측치에 대한 10 개의 관측치입니다. 따라서이 사이트 에 따르면 관측치 수가 40보다 크고 특이 치가없는 경우 분포에 관계없이 평균 차이에 대한 t- 검정이 작동합니다.


0

통계 테스트 는 데이터를 추론하기위한 것이며 사물이 어떻게 관련되어 있는지 알려줍니다. 결과는 실제 의미를 갖는 것입니다. 예를 들어 흡연이 방향과 규모면에서 폐암과 어떤 관련이 있는지. 여전히 왜 일이 일어 났는지는 알려주지 않습니다. 왜 일이 일어 났는지에 답하기 위해, 다른 변수들과의 상호 관계를 고려하고 적절히 조정해야합니다 (Pearl, J. (2003) 원인 : 모델, 이유 및 추론 참조).

지도 학습 은 예측을하기위한 것이며, 어떻게 될지 알려줍니다. 예를 들어 사람의 흡연 상태를 고려하면 폐암에 걸릴지 여부를 예측할 수 있습니다. 간단한 경우에도, 예를 들어 알고리즘으로 식별 된 흡연 상태의 컷오프를보고 "방법"을 알려줍니다. 그러나 더 복잡한 모델은 해석하기 어렵거나 불가능합니다 (많은 기능으로 딥 러닝 / 증폭).

비지도 학습 은 종종 위의 두 가지를 촉진하는 데 사용됩니다.

  • 통계 테스트의 경우 데이터의 일부 알려지지 않은 하위 그룹을 발견하여 (클러스터링) 변수 간의 연관에서 이질성을 유추 할 수 있습니다. 예를 들어 흡연은 B 군이 아닌 A 군의 폐암에 걸릴 확률을 높입니다.
  • 지도 학습을 위해 예측 정확도와 견고성을 향상시키는 새로운 기능을 만들 수 있습니다. 예를 들어 폐암에 걸릴 확률과 관련된 하위 군 (클러스터링) 또는 특징의 조합 (치수 감소)을 식별합니다.

기능 / 변수 수가 더 많아지면 통계 테스트와지도 학습의 차이가 더 커집니다. 통계 테스트는 반드시 이것으로부터 이익을 얻지 못할 수도 있습니다. 예를 들어 위에서 언급 한 것처럼 다른 요소를 제어하거나 연관에서 이질성을 식별하여 인과 추론을 할 것인지에 따라 다릅니다. 기능이 관련되어 있으면 학습 학습이 더 잘 수행되며 블랙 박스처럼 될 것입니다.

표본 수가 많아지면 통계 테스트에 대한보다 정확한 결과,지도 학습에 대한보다 정확한 결과,지도되지 않은 학습에 대한보다 강력한 결과를 얻을 수 있습니다. 그러나 이것은 데이터의 품질에 달려 있습니다. 품질이 좋지 않은 데이터는 결과에 치우침이나 노이즈가 발생할 수 있습니다.

때때로 우리는 흡연이 폐암을 유발한다는 것을 식별함으로써 개입 조치에 정보를 제공하는“어떻게”와“왜”를 알고 싶어합니다. 때로 폐암에 걸릴 가능성이있는 사람을 찾아 조기 치료를하는 등 의사 결정에 도움이되는“무엇”을 알고 싶을 수도 있습니다. 과학에 대한 예측과 그 한계에 관한 특별한 문제가 있습니다 ( http://science.sciencemag.org/content/355/6324/468). "테라 바이트의 데이터를 처리 할 수있는 알고리즘 능력으로 컨텍스트에 대한 인간의 이해를 결합시키는 여러 분야의 노력을 통해 문제가 해결 될 때 성공은 가장 일관된 것으로 보입니다." 처음에 수집해야 할 데이터 / 기능 반면에지도 학습은 어떤 변수를 알려 가설을 생성하는 데 도움이 될 수 있습니다

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.