데이터 세트를 분류 할 수 없다고 언제 말합니까?


11

나는 실제로 어떤 종류의 분류도 할 수없는 데이터 세트를 분석했습니다. 분류자를 얻을 수 있는지 확인하려면 일반적으로 다음 단계를 사용했습니다.

  1. 숫자 값에 대한 레이블의 상자 그림을 생성합니다.
  2. 클래스가 분리 가능한지 확인하기 위해 차원을 2 또는 3으로 줄이십시오. 때로는 LDA를 사용해보십시오.
  3. SVM 및 임의 포리스트에 맞게 조정하고 기능의 중요성을 살펴보고 기능이 의미가 있는지 확인하십시오.
  4. 언더 샘플링 및 오버 샘플링과 같은 클래스와 기술의 균형을 변경하여 클래스 불균형이 문제가되는지 확인하십시오.

내가 생각할 수있는 다른 많은 방법들이 있지만 시도하지는 않았습니다. 때로는 이러한 기능이 좋지 않으며 예측하려는 레이블과 관련이 없다는 것을 알고 있습니다. 그런 다음 비즈니스 직관을 사용하여 연습을 끝내고 더 나은 기능이나 완전히 다른 레이블이 필요하다는 결론을 내립니다.

내 질문은 데이터 과학자가 이러한 기능으로 분류를 수행 할 수 없다고 어떻게보고합니까? 이를보고하거나 다른 알고리즘으로 데이터를 피팅하는 통계적 방법이 있습니까? 그리고 검증 메트릭을 보는 것이 최선의 선택입니까?


이 질문에 분명하고 객관적인 답변이 있다면 모든 과학적 노력은 의미가 없습니다. 과학은 예술입니다.
Mephy December

하하 맞아. 분리 가능성을 찾는 더 많은 방법을 알고 싶습니다. 일부 운동에 더 많은 시간을 투자하는 것은 쓸모가 없다는 것을 고객에게 통계적으로 보여주는 방법과 비슷합니다.
vc_dim

1
마지막 두 단락은 질문을 너무 개방적이거나 광범위하게 만들었으므로 삭제하는 것이 좋습니다. 첫 번째 부분 (비결과적인 전문가를 처리하고보고하는 방법)은 대답 할 수 있어야합니다. 개인적으로는 사이트에 이러한 유형의 데이터 과학 전문가 에티켓 질문이 더 필요하다고 생각합니다.
Neil Slater

말이 되네 Neil. 선명하게 편집합니다.
vc_dim

답변:


4

데이터에 따라 다릅니다. 사람 수준 오류라고합니다. 인쇄 된 책을 읽는 것과 같은 작업, 사람이 읽기 어려움을 겪지 않으며 인쇄 품질이 나쁘지 않은 한 실수하지 않을 수 있습니다. 손으로 쓴 원고를 읽는 것과 같이 작가의 글꼴이 독자에게 이상하다면 모든 단어를 이해하지 못하는 경우가 많습니다. 첫 번째 상황에서 휴먼 레벨 오류가 너무 낮고 학습 알고리즘이 동일한 성능을 가질 수 있지만 두 번째 예는 일부 상황에서 휴먼 레벨 오류가 너무 높고 일반적인 방식으로 (실제로 동일한 경우) 학습 알고리즘에는 너무 많은 오류 비율이 있습니다.

통계 학습에는 Bayes Error클래스 분포가 겹칠 때마다 오류 비율이 큰이라는 것이 있습니다. 기능을 변경하지 않으면 현재 배포판의 Bayes 오류가 최고 성능이며 전혀 줄일 수 없습니다.

나는 또한 당신이 여기 를 읽는 것이 좋습니다 . 지정된 지형지 물과 관련하여 많은 양의 Bayes 오류가 발생한 문제는 지형지 물 공간에서 분류 할 수 없는 것으로 간주됩니다 . 다른 예로 조명이 켜진 자동차를 분류한다고 가정 할 수 있습니다. 아침에 그렇게하려고하면 많은 오류가있을 수 있으며 학습 알고리즘을 훈련하기 위해 동일한 이미지를 사용하는 경우에도 마찬가지 일 수 있습니다.

또한 수업 분포를 변경하지 않는 것이 좋습니다. 이러한 경우 경계 근처의 분류기 결과는 완전히 임의적입니다. 머신 러닝 알고리즘 학습을위한 데이터 배포는 변경되지 않아야하며 실제 상태와 동일해야합니다.


이것은 도움이됩니다, Bayes Error에 대해 몰랐습니다. 수업의 분포를 바꾼 후 정확성을 향상시키는 데 어려움을 겪었습니다. 나는 그것이 좋은 생각이 아니라고 동의합니다. 여전히 나는 때때로 그 기능이 더 세분화되거나 추상적 인 클래스 (예 : 원숭이, 개 및 기타를 포유 동물로 변경)를 나타낼 것으로 기대하면서 클래스 계층 구조를 변경하려고했습니다. Bayes 오류가 있으면 클래스 계층 구조를 변경해도 도움이되지 않습니다.
vc_dim

@SumitSinghChauhan 실제로 Bayes 오류가 큰 상황에서는 피처 엔지니어링을 시도하는 것이 가장 좋은 솔루션입니다. 기능 자체를 찾는 딥 러닝 때문에 데이터 세트가 크지 않은 경우에는 사용할 수 없습니다.
Media

5

한 클래스의 샘플 요소와 다른 클래스의 샘플 요소를 가져옵니다. 이 두 요소가 정확히 동일한 특징 벡터를 가질 수 있습니까? 그 경우 지금까지 다음 일이 두 클래스는 (분류 결정이 주어진 요소에 대한 특징 벡터에 전적으로 기반으로하기 때문에) 현재의 특징 벡터를 사용하여 완전히 seperable 수 없습니다.

반면, 한 클래스의 * every "요소에 다른 클래스의 해당 요소가있어 두 요소가 동일한 특징 벡터를 가지면 현재 피쳐 벡터를 사용하여 두 클래스를 구별 할 수 없습니다.

또한 해당 조건이 일부 요소에만 적용되고 다른 요소에는 적용되지 않는 경우에는 그 사이에 있으며 분류 기가 현재 기능 세트를 사용하여 얼마나 잘 수행 할 수 있는지 측정하는 기준으로 사용할 수 있습니다.

이러한 모든 평가를 사용하여 더 많은 피쳐를 추출해야하는 다양한 각도로 논쟁 할 수 있습니다.


1
고마워 Robert. 이것은 친숙하고 옳은 것 같습니다. 일부 프로젝트에 대해 동일한 분석을 수행했습니다. 동일한 기능 벡터를 가진 데이터 세트에 다르게 태그가 지정되어 있으며 이것이 얼마나 정확한지에 대한 기초로 사용되었습니다. 때때로 박스 플롯을 플로팅하는 것도 도움이되었습니다. 지금까지 나는 고객을 설득하기 위해 가장 좋은 방법을 언급했습니다.
vc_dim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.