특이 치의 Box and Whisker Plot 정의의 기초는 무엇입니까?


17

Box and Whisker 그림에 대한 특이 표준 정의는 범위를 벗어난 점입니다. 여기서 및 은 첫 번째 사 분위수 및 데이터의 3 분위입니다.{Q11.5IQR,Q3+1.5IQR}IQR=Q3Q1Q1Q3

이 정의의 기초는 무엇입니까? 점이 많으면 완전 정규 분포라도 특이 치를 반환합니다.

예를 들어 시퀀스로 시작한다고 가정합니다.

xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025)

이 시퀀스는 4000 포인트의 백분위 수 순위를 만듭니다.

qnorm이 시리즈의 정규성을 테스트하면 다음이 발생합니다.

shapiro.test(qnorm(xseq))

    Shapiro-Wilk normality test

data:  qnorm(xseq)
W = 0.99999, p-value = 1

ad.test(qnorm(xseq))

    Anderson-Darling normality test

data:  qnorm(xseq)
A = 0.00044273, p-value = 1

결과는 정확히 예상대로입니다 : 정규 분포의 정규성은 정상입니다. A를 만들기 qqnorm(qnorm(xseq))(예상대로) 데이터의 직선을 만듭니다 :

qqnorm 데이터 플롯

동일한 데이터의 상자 그림이 생성되면 boxplot(qnorm(xseq))결과 가 생성됩니다 .

데이터의 상자 그림

상자 그림 달리 shapiro.test, ad.test또는 qqnorm식별 여러 특이점 같은 점을 표본의 크기가 충분히 크기 (이 예에서와 같이).


"기준"은 무엇을 의미합니까? 이것은 약간의 정의이며, 아무도 완전 정규 분포에 특이 치가 없다고 말합니다.
Haitao Du

2
@ hxd1011에서 분포의 정의는 그 자체에서 특이 치가 될 수 없습니다. 박스 및 수염 플롯에서 특이 치를 테스트하기위한이 정의는 테스트 대상이 무엇이든 테스트의 기초가되는 결과를 제공하기 위해 / something /을 테스트합니다.
Tavrock

박스와 수염 특이 치 정의는 단지 휴리스틱이라고 생각합니다. 또한 왜 분포의 정의가 자기로부터 특이 치를 가질 수 없습니까?
Haitao Du

3
어떤 규칙을 선택하든 관계없이 "많은 점수로, 심지어 정규 분포도 이상 값을 반환합니다"라고 말하게됩니다. [정규 분포에서 표본을 추출하면 점을 기각 할 수없는 특이 치를 식별하는 방법을 생각해보십시오.]
Glen_b -Reinstate Monica

1
이 규칙을 생각 해낸 존 터키 (John Tukey)는 왜 1.5를 물었다. 1은 너무 작고 2는 너무 많을 것이라고 말했습니다. 내가 결정적인, 안구의 기준으로 잘못 읽힌 횟수를 감안할 때, 나는 그것이 사라지는 것이 더 행복 할 것입니다. 이제 우리는 모든 데이터를 보여줄 수있는 컴퓨터를 가지고 있습니다!
Nick Cox

답변:


25

상자 그림

다음은 Hoaglin, Mosteller 및 Tukey (2000) 의 관련 섹션입니다 : 강력한 탐색 데이터 분석 이해. 와일리 . John D. Emerson과 Judith Strenio가 작성한 3 장 "상자 그림 및 배치 비교"(62 페이지) :

[...] 보다 작은 데이터 값으로 특이 치에 대한 정의 에프2에프에프+2에프

에프에프dFFUFL

계속해서 가우시안 인구에게 애플리케이션을 보여줍니다 (63 페이지).

0100.67450.67451.34943322.02352±2.69822399.3%

그래서

0.7%

또한, 그들은 쓴다

[...] 따라서 우리는 얼마나 많은 포인트가 이상치 컷오프를 넘어서 가우시안보다 데이터가 더 무겁게 보이는지 판단 할 수 있습니다. [...]

이 값은 이상치 컷오프 ( "Total % Out"으로 표시됨)를 벗어나는 예상 비율을 가진 테이블을 제공합니다.

표 3-2

따라서 이러한 컷오프는 어떤 데이터 포인트가 특이 치인지 여부에 대한 엄격한 규칙으로 의도되지 않았습니다. 언급했듯이 완벽한 정규 분포조차도 상자 그림에 "이상 값"을 나타낼 것으로 예상됩니다.


특이 치

내가 아는 한, 이상치에 대한 보편적으로 허용되는 정의는 없습니다. 나는 Hawkins (1980)의 정의를 좋아합니다.

특이 치는 다른 메커니즘에 의해 생성되었다는 의심을 불러 일으키기 위해 다른 관측에서 많이 벗어난 관측입니다.

이상적으로는 데이터 포인트 가 나머지 데이터에 속하지 않는 이유 를 이해 한 후에 만 ​​데이터 포인트를 특이 치로 취급해야합니다 . 간단한 규칙으로는 충분하지 않습니다. 이상치의 적절한 처리는 Aggarwal (2013)에서 찾을 수 있습니다.

참고 문헌

Aggarwal CC (2013) : 특이 치 분석. 봄 병아리.
Hawkins D (1980) : 특이 치 식별. 채프먼과 홀.
Hoaglin, Mosteller and Tukey (2000) : 견고하고 탐색적인 데이터 분석 이해. 와일리


7

'outlier'라는 단어는 종종 '오류, 오도, 오해 또는 파손 된 데이터 값이므로 분석에서 생략해야하는 데이터 값'과 같은 것을 의미하는 것으로 간주되지만 Tukey가 그의 이상 값을 사용한 의미는 아닙니다. 특이 치는 단순히 데이터 세트의 중앙값과 먼 거리입니다.

많은 데이터 세트에서 특이 치를 기대하는 것에 대한 요점은 정확하고 중요합니다. 그리고 주제에 관한 많은 좋은 질문과 답변이 있습니다.

비대칭 데이터에서 특이 치 제거

이상 치가 문제를 유발하기 때문에 이상 치를 식별하고 제거하는 것이 적절합니까?


2

모든 이상 값 탐지 방법과 마찬가지로주의와 생각을 사용하여 진정한 값을 결정해야합니다. 박스 플롯은 단순히 데이터 분산을 잘 시각화하고 진정한 특이 치를 쉽게 잡을 수 있다고 생각합니다.


0

정규 분포의 일부로 특이 치를 얻지 않으면 걱정해야한다고 생각합니다. 그렇지 않으면 이유가없는 이유를 찾고 있어야합니다. 분명히 오류를 기록하지 않는지 검토해야하지만 그렇지 않은 경우에는 예상됩니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.