평면 또는 상위 공간에서 샘플의 중앙값에 대해 허용되는 정의가 있습니까?


33

그렇다면 무엇입니까? 그렇지 않다면 왜 안됩니까?

라인에있는 샘플의 경우 중앙값이 총 절대 편차를 최소화합니다. 정의를 R2 등으로 확장하는 것은 자연스러운 것처럼 보이지만 결코 본 적이 없습니다. 그러나 저는 오랫동안 왼쪽 필드에있었습니다.


답변:


19

다변량 중앙값에 대해 하나의 허용 된 정의가 있는지 확실하지 않습니다. 내가 친숙한 것은 Oja의 중앙값 점으로 , 점의 하위 집합에 형성된 단순화 된 볼륨의 합계를 최소화합니다. (기술 정의에 대한 링크를 참조하십시오.)

업데이트 : 위의 Oja 정의를 참조하는 사이트에는 다변량 중앙값에 대한 여러 가지 정의를 다루는 훌륭한 문서가 있습니다.


1
좋은 참조 : 감사합니다. 여기에 언급 된 모든 내용을 포괄적으로 다룹니다.
whuber

같은 웹 사이트에는 html에 대한 개요가 포함되어 있습니다 : cgm.cs.mcgill.ca/~athens/Geometric-Estimators/intro.html
Aditya

15

으로 @Ars가 말했다에는이 정의를 받아들이지 않습니다 (이 좋은 포인트입니다)된다. 아르 자형 에서 Quantile을 일반화하는 방법의 일반적인 대안이 있습니다. 가장 중요한 것은 다음과 같습니다.

  • 양자화 과정의 일반화 경험적 척도 (= A 의 관측치 비율 ) 로하자. 그런 다음에의 보렐 세트의 잘 선택된 부분 집합 R의 개발 λ 진정한 가치 측정, 당신은 경험 분위수 기능을 정의 할 수 있습니다 :(에이)에이에이아르 자형λ

    Un(t)=inf(λ(A):Pn(A)tAA)

    최소값을 제공하는 하나의 를 찾을 수 있다고 가정하십시오 . 그런 다음 집합 (또는 집합의 요소) 은 이 충분히 작을 때 중앙값을 제공합니다 . 및 사용하면 중앙값 정의가 복구됩니다 . Ars 답변은 그 프레임 워크에 속한다고 생각합니다 ... tukey의 반 공간 위치 는 및 ( , ).1 / 2 - ε1 / 2 + ε ε = ( ] - , X ] X R ) λ ( ] - , X ] ) = X ( ) = ( H (X) = ( t R d :AtA1/2ϵA1/2+ϵϵA=(],x]xR)λ(],x])=xλ ( H X ) = X X RR DA(a)=(Hx=(tRd:a,tx)λ(Hx)=xxRaRd

  • 변형 정의 및 M- 추정 여기서의 아이디어는에서랜덤 변수의 -quantile는 변형 등식을 통해 정의 될 수 있다는 것입니다.Q α Y RαQαYR

    • 가장 일반적인 정의는 Quantile 회귀 함수 (핀볼 손실이라고도 함)를 사용하는 것입니다. . 케이스 범@Srikant Answer 에서처럼 거리를 사용하여 더 높은 차원으로 일반화 할 수 있습니다 . 이것은 이론적 중앙값이지만 기대 값을 경험적 기대 값 (평균)으로 바꾸면 경험적 중간 값을 제공합니다. Q α = R g INF X R E [ ρ α ( Y - X ) ] α = 1 / 2 ρ 1 / 2 ( Y ) = | y | 1ραQα=arginfxRE[ρα(Yx)]α=1/2ρ1/2(y)=|y|l1

    • 그러나 Kolshinskii 는 Legendre-Fenchel 변환 사용을 제안합니다. since 여기서 대한 . 그는 그것에 대해 많은 깊은 이유를 제시합니다 (논문 참조). 더 높은 차원에이를 일반화하는 것은의 vectorial 작업이 필요합니다 및 교체 에 의해 하지만 당신이 취할 수있는 .Qα=Argsups(sαf(s))f(s)=12E[|sY||Y|+s]sRαsαs,αα=(1/2,,1/2)

  • 부분 순서 부분 순서 (등가 클래스 포함)를 만들 수있는 즉시에서 Quantile 정의를 일반화할 수 있습니다.R

분명히 다른 제형 사이에 다리가 있습니다. 그들은 모두 명백하지 않습니다 ...


좋은 대답입니다, 로빈!
ars

12

중간 개념을 더 높은 차원으로 일반화하는 뚜렷한 방법이 있습니다. 아직 언급되지 않았지만 오래 전에 제안 된 것 중 하나는 볼록 껍질을 만들고 껍질을 벗기고 가능한 한 반복하는 것입니다. 마지막 선체에 남은 것은 모두 후보가되는 점입니다. 중간 값. "

"헤드 뱅잉 (head-banging)" 은 2D 포인트 클라우드에 대한 강력한 중심을 구축하려는 또 다른 최근 시도 (1980 년)입니다. (링크는 미국 국립 암 연구소 (National Cancer Institute)에서 제공되는 설명서 및 소프트웨어에 대한 링크입니다.)

여러 가지 일반화가 있고 명백한 해결책이없는 주된 이유는 R1을 주문할 수 있지만 R2, R3, ...은 주문할 수 없기 때문입니다.


R1으로 제한 될 때 일반적인 중앙값과 일치하는 측정 값은 후보 일반화입니다. 그것들이 많이 있어야합니다.
phv3773

phv :> 중앙값의 몇 가지 흥미로운 속성을 보존하기 위해 '더 높은'일반화를 요청할 수 있습니다. 이것은 후보자 수를 심각하게 제한합니다 (아래 Srikant의 답변 후 주석 참조)
user603

@Whuber :> 그런 다음 주문 개념을 단봉 분포에 대해 R ^ n으로 일반화 할 수 있습니다 (아래 답변 참조).
user603

@ kwak : 조금 정교하게 할 수 있습니까? 공간 순서의 일반적인 수학적 정의는 모든 종류의 확률 분포와 무관하므로 암시 적으로 몇 가지 추가 가정을 염두에 두어야합니다.
whuber

1
@Whuber :> 상태 : "R1은 주문할 수 있지만 R2, R3, ...은 주문할 수 없습니다." R2, .., R3은 Rn에서 R로 매핑하여 여러 가지 방법으로 정렬 할 수 있습니다. 그러한 방법 중 하나는 터키 깊이입니다. 그것은 많은 중요한 속성 (일부 확장 성, 비모수 적, 불변성 등)을 가지고 있지만 이것들은 단봉 분포의 경우에만 유지됩니다. 더 자세한 정보가 필요하면 알려주십시오.
user603


6

Tuuy 반 공간 중앙값은 Struyf 및 Rousseeuw로 인한 알고리즘 인 DEEPLOC를 사용하여 2 차원 이상으로 확장 할 수 있습니다. 자세한 내용은 여기 를 참조하십시오.

알고리즘은 가장 큰 깊이의 지점을 효율적으로 근사화하는 데 사용됩니다. 이를 결정하려는 순진한 방법은 일반적으로 "계산의 저주"를 무시하고 통계를 계산하는 데 필요한 런타임이 공간의 차원 수에 따라 기하 급수적으로 증가하는 방식으로 실행됩니다.



0

그러한 정의가 존재하는지 모르겠지만 중간 값표준 정의 확장하려고 시도 할 것 입니다. 다음 표기법을 사용합니다.R2

, Y : 2 차원과 관련된 랜덤 변수.엑스와이

, m y : 해당 중앙값.m엑스m와이

: 랜덤 변수의 합동 pdff(엑스,와이)

중간 값의 정의를 확장 하기 위해 다음을 최소화하기 위해 m xm y 를 선택합니다 .아르 자형2엑스와이

이자형(|(엑스,와이)(엑스,와이)|

문제는 이제 우리가 의미하는 바에 대한 정의가 필요하다는 것입니다.

|(엑스,와이)(엑스,와이)|

위의 의미는 거리 측정법이며 몇 가지 가능한 후보 정의가 가능합니다.

유클리드 메트릭

|(엑스,와이)(엑스,와이)|=(엑스엑스)2+(와이와이)2

유클리드 메트릭에서 중앙값을 계산하려면 관절 밀도 에 대한 위의 예상 값을 계산해야합니다 .에프(엑스,와이)

택시 통계

|(엑스,와이)(엑스,와이)|=|엑스엑스|+|와이와이|

택시 메트릭스의 경우 중앙값을 계산 하려면 메트릭이 xy로 분리 가능하므로 Y 의 중간 값을 별도로 계산해야합니다 .엑스와이엑스와이


Srikant :> 아니요. 정의에는 일 변량 중앙값의 두 가지 중요한 기능이 있어야합니다. a) 데이터의 모노톤 변환에 불변성, b) 특이 치에 의한 오염에 강하다. 당신이 제안한 확장 중 어느 것도 이것들을 가지고 있지 않습니다. Tukey 깊이에는 이러한 특성이 있습니다.
user603

@kwak 당신의 말이 의미가 있습니다.

@Srikant :> 위의 Gary Campbell이 인용 한 R & S 논문을 확인하십시오. 최고
user603

@kwak 좀 더 생각하면, 택시 메트릭스에는 기본적으로 일 변량의 중앙값으로 줄이므로 언급 한 기능이 있습니다. 아니?

2
@Srikant :> '좋은 답변'도 없기 때문에 phv의 질문에 대한 오답이 없습니다. 이 연구 분야는 여전히 개발 중에 있습니다. 나는 왜 그것이 여전히 공개적인 문제인지 지적하고 싶었다.
user603
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.