매우 작은 세트의 이상치 탐지


12

12 개의 샘플 광도 값이 주어지면 주로 안정적인 광원의 밝기 값을 최대한 정확하게 얻어야합니다. 센서가 불완전하고 빛이 때때로 "깜박 거리며"밝거나 어두워 지므로 무시할 수 있습니다. 따라서 이상치 탐지가 필요합니다.

나는 다양한 접근 방식을 읽었으며 어떤 접근 방식을 결정할 수 없습니다. 특이 치의 수는 미리 알려져 있지 않으며 종종 0입니다. 플리커는 일반적으로 안정된 밝기와의 편차가 크지 만 (큰 것이 존재하는 경우 평균을 엉망으로 만들 수는 있지만) 반드시 그렇지는 않습니다.

질문의 완성도를위한 12 가지 측정 샘플 세트는 다음과 같습니다.

295.5214, 277.7749, 274.6538, 272.5897, 271.0733, 292.5856, 282.0986, 275.0419, 273.084, 273.1783, 274.0317, 290.1837

내 직감은 292와 295가 약간 높게 보이지만 특정 세트에 특이 치가 없을 것입니다.

내 질문은, 여기서 가장 좋은 방법은 무엇입니까? 값이 0 점 (검정색)에서 빛의 RG 및 B 구성 요소의 유클리드 거리를 가져 오는 것에서 언급해야합니다. 프로그래밍 적으로 고통 스럽지만 필요한 경우 이러한 값으로 되돌릴 수 있습니다. 유클리드 거리는 색상에 관심이없고 출력의 강도에 따라 "전체 강도"의 척도로 사용되었습니다. 그러나 언급 한 깜박임이 일반적인 출력과 다른 RGB 구성을 가질 수있는 합리적인 기회가 있습니다.

현재 허용되는 측정의 안정적인 멤버쉽에 도달 할 때까지 반복되는 일종의 기능을 사용하여 놀고 있습니다.

  1. 표준 편차 찾기
  2. SD 이외의 모든 것을 SD로 무시 목록에 추가
  3. 무시 목록을 제외하고 평균 및 SD 재 계산
  4. 새로운 평균과 SD를 기준으로 무시할 사람 결정 (12 개 모두 평가)
  5. 안정 될 때까지 반복하십시오.

그 접근법에 가치가 있습니까?

모든 의견에 감사드립니다!


고통 스럽지만, 깜박임이 실제로 다른 RGB 구성 요소 (때로는 검은 색과 비슷한 거리)를 가질 수 있다고 추측하는 것이 좋습니다. 다른 옵션은 목표에 따라 평균 대신 중간 값을 사용하는 것입니다.
Wayne

답변:


7

작은 샘플의 특이 치는 항상 매우 까다로울 수 있습니다. 대부분의 경우 실제로 데이터가 무의식적으로 손상되지 않았다고 생각하면 "외국인"값에 문제가없고 해당 값의 배제가 불합리 할 수 ​​있습니다. 아마도 강력한 통계 기법을 사용하는 것이보다 합리적이고 중간 솔루션에 더 가깝습니다. 작은 샘플이 있습니다. 모든 샘플 포인트를 세어보십시오. :)

제안 된 접근 방식과 관련하여 68-95-99.7 규칙을 사용하여 데이터에 정규성 가정을 신속하게 적용하지는 않습니다 (어떻게 2SD 휴리스틱 규칙을 사용하는 것처럼 보입니다). 체비 쇼프의 불평등은 한때 75-88.9-93.8의 규칙을 가정하며, 이는 덜 엄격합니다. 다른 " 규칙 "도 존재합니다. 식별 아웃 라이어의 섹션 특이점 위키의 표제어 휴리스틱의 다발을 갖는다.

여기에 또 다른 내용이 있습니다 :이 문제에 관해 제가 접한 무료 참고 문헌 인 NIST / SEMATECH e-Handbook of Statistical Methods 는 Iglewicz와 Hoaglin (1993)의 다음 아이디어를 제시합니다. 수정 된 점수 과 같이 사용하십시오 .MZM

Mi=.6745(xix~)/MAD

여기서 는 중앙값 이고 MAD는 샘플 의 중앙값 절대 편차 입니다. 그런 다음 3.5 이상의 절대 값 이 잠재적 인 이상치 라고 가정합니다 . 이는 반모 수 제안입니다 (대부분의 매개 변수 는 ). 귀하의 예에서는 295.5를 약간 배제하지만 292.6 측정 값은 명확하게 유지합니다 ... (가치가있는 경우 귀하의 예에서는 값을 제외하지 않습니다.) M3.5x~M3.5

다시 말하지만, 표본이 아주 작다는 점을 감안할 때 표본이 명백히 손상되지 않았다고 생각되면 (인간 키 9'4 ") 데이터를 급하게 배제하지 말 것을 권합니다."의심스러운 특이 치 "는 손상되지 않은 데이터 일 수 있습니다. 실제로 사용하면 분석에 해를 끼치 지 않고 도움을 줄 수 있습니다.


1
작은 점은,하지만 매우 가능성이 하나 귀하의 문서가 부주의입니다 읽거나 인용 특히, 물린 수있는 : 나는 표기법에 대해 강력히 권장 평균에 대한 매우 일반적인 사용 주어진 중간합니다. 이상하게도 아니든 중간에 표기법이 일반적으로 사용되지는 않지만 med 또는 거의 모든 것이 보다 낫습니다 . ˉ x ~ xx¯x¯x~
Nick Cox

1
강력한 요약의 가치를 강조하기 위해 +1 이 사이트의 다른 스레드도 참조하십시오.
Nick Cox

1
@ NickCox : 좋은 지적은, 내가 처음에 무슨 생각을했는지 모르겠습니다. 지금 변경했습니다. 제안 해 주셔서 감사합니다.
usεr11852


0

첫 번째 포인트-RGB 색상으로 돌아가는 것이 좋습니다. 데이터를 버리는 것은 드물지 않으며 rgb 벡터의 크기가 밝기를 나타내는 유일한 방법은 아닙니다 . HSV의 과 마찬가지로 인식되는 밝기 는 다릅니다 .

그러나이를 한쪽에두고 가지고있는 데이터를 처리 할 때 모델링 문제 대신 분류 문제로 구성하고 일부 기계 학습을 고려한 적이 있습니까? 입력 값은 12 개의 실제 값이있는 벡터입니다 (밝기 표시 값). 12 개의 이진 값으로 구성된 벡터 (1 = inlier, 0 = outlier)가 출력됩니다. 여러 세트의 밝기 측정 값을 가져 와서 직접 손으로 레이블을 지정하여 각 세트의 밝기 측정 값이 inlier / outlier임을 나타냅니다. 이 같은:

x1 = {212.0, 209.6, 211.5, , 213.0}, y1 = {1,0,1, , 1}...

x2 = {208.1, 207.9, 211.2, , 208.2}, y2 = {1,1,0, , 1}...

x3 = {223.4, 222.9, 222.8, , 223.0}, y3 = {1,1,1, , 1}...

그런 다음 일종의 분류자를 통해 전체를 실행하십시오.

  • 12 개의 서로 다른 이진 값을 출력하는 단일 분류기를 사용할 수 있습니다. 신경망을 사용하면이를 쉽게 설정할 수 있습니다.
  • 또는 표준 이진 분류기 (예 : SVMlite )를 사용하고 12 개의 서로 다른 모델을 학습 할 수 있습니다. 하나는 출력의 각 요소가 이너 / 이탈 인지 여부를 분류합니다.

그리고 당신은 끝났습니다! 인 라이어와 아웃 라이어를 분리하는 '규칙'을 찾으려고 애 쓰지 않아도됩니다. 현명하게 보이는 몇 가지 데이터 세트를 가져 와서 기계가 당신을 위해 그렇게하십시오 :)

~~~

편집 : 우연히 가우시안에 반복적으로 적합 한 다음 각 표본을 2 표준 편차 이상으로 분류하는 제안 된 방법은 기대 최대화 알고리즘과 매우 비슷합니다. 이 같은:

  • 단일 가우스 성분 (이너 모델링)
  • 균일 한 배경 구성 요소 (이상치)
  • 가우시안의 너비 ( '2 표준 편차로 분류'규칙)에 대해 명백하지 않은 방식으로 의존하는 각각의 사전 확률.
  • 기대 단계에서의 엄격한 분류.

이 경로를 내려 가면 EM 알고리즘을 검색하고 모델에 어떤 가정을 적용하고 있는지 확인할 가치가 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.