“중간 트릭”을 더 높은 차원으로 일반화합니까?


21

실제 값을 취하는 랜덤 알고리즘 경우, "중간 트릭"은 곱하기 의 비용으로 실패 확률을 임계 값 으로 줄이는 간단한 방법입니다. 오버 헤드. 즉, 의 출력이 (적어도) 인 확률 로 "좋은 범위" 하면 독립적 인 사본 이고 출력 의 중앙값을 취하면 Chernoff / Hoeffding 경계에 의해 최소 확률로 의 값이 떨어 집니다.Aδ>0I=[,B]2/31,...,t1,...,tI1-δt=O(log1δ)AI=[a,b]2/3A1,,Ata1,,atI1δ

와 "트릭"을 더 높은 차원으로 일반화 했습니까? 좋은 범위는 이제 볼록한 세트 (또는 공 또는 충분히 좋고 구조화 된 세트)입니까? 즉, 주어진 무작위 알고리즘 의 값을 출력 , 및 "좋은 세트 ' 되도록 모든 에 대해 , 의 대수 비용만으로 성공 확률을 로 높일 수있는 방법은 무엇입니까?R D S R D P , R {(X,R)S}2 / 3X1-δ1 / δRdARdSRdPr{A(x,r)S}2/3x1δ1/δ

(표현한 다르게 : 고정 arbirary 주어진 보증, 적어도 함께 \ FRAC {2t} {3}A_I가 '에 속하는 s의 S , 절차가 S 에서 값을 출력 합니까? 그렇다면 효율적인 값 이 있습니까?)2 ta1,,atRd aiSS2t3aiSS

그리고 위의 목표를 달성하기 위해 S 에 필요한 최소한의 가정은 무엇 입니까?

이것이 사소한 것으로 판명되면 죄송합니다.이 질문에 대한 참조를 찾을 수 없습니다 ...


3
S 가 직육면체 인 특수한 경우 , 각 차원에서 중간 값 트릭을 개별적으로 사용하면 작동합니까? 따라서 여러 점을 샘플링 한 다음 1, 2, ..., d 차원에서 좌표의 중앙값을 취한 다음 \ mathbb {R} ^ d 에서 점을 얻습니다 Rd. 이 전략을 사용하는 O(log(d/ϵ)) 샘플 이 필요할 수 있습니다 .
Robin Kothari

1
한 차원 경우, 일반적으로 알 ba 아니지만 정확한 간격을 (당신이 모르는 경우에도 있지만 ba 중간 트릭은 여전히 작동). 우리는 S 를 알고 S있지만 번역까지만 가정해야합니까 ? 번역 및 스케일링까지?
Sasho Nikolov

@SashoNikolov 나는 이것이 "일반적인 일반화"라고 생각한다 (예를 들어, 우리는 S 가 "직경 \ varepsilon 의 좋은 공"이라는 것을 알고있다 ε).
Clement C.

1
토마스가 자신의 답변에 쓴 것은 훨씬 더 일반적입니다. 그는 ( 그의 답변에서 )가 알 수없는 볼록 세트 라고 가정합니다 . GSG
Sasho Nikolov

답변:


17

당신이 찾고있는 것은 강력한 중심 경향 과 거의 같습니다. 데이터 포인트 클라우드를 단일 포인트로 줄이는 방법은 많은 데이터 포인트가 일부 "지상 진실"에 가깝지만 나머지는 임의로 멀리 떨어져 있다면 출력물도 실제와 가깝습니다. 이러한 방법의 "고 장점"은 허용 할 수있는 임의로 나쁜 이상치의 비율입니다. 차이점은 귀하의 경우 "가까운"을 "볼록 껍질 안에"로 바꾸려는 것입니다.

이를 포착하는 한 가지 방법은 Tukey 깊이 개념입니다. 주어진 점을 포함하는 모든 반 공간에 최소한 데이터 점이 포함 된 경우 점은 Tukey 깊이 (주어진 데이터 점 세트와 관련하여 )를 갖습니다 . 내부에 원하는 볼록한 부분 공간이있는 경우, 내부 에 데이터 포인트가 이상 있는 한 Tukey 깊이 를 가진 점이 그 안에 있습니다. 따라서이 방법의 분석 지점은 달성 할 수 있는 가장 큰 값입니다 .n p n p ( 1 p ) n ppnpnp(1p)np

불행히도이 고 장점은 이며 1/2에 가깝지 않으며 Tukey 깊이와 문제 모두에 해당합니다. 그 이유는 다음과 같습니다. 데이터가 심플 렉스 의 정점 근처에 군집 되어 있으면 그 중 미만 이 특이 치 (그러나 어느 것을 모르는지)이면 단순은 항상 비 이상치의 볼록 껍질 안에 있으므로 선택하기에 안전합니다. 그러나 점의 이상이 특이 치가 될 수있는 경우 선택하기에 안전한 곳은 없습니다. 선택한 심플 렉스의 어느 점이든 가장 가까운 심플 렉스 정점의 모든 점이 될 수 있습니다. 당신은 이상치 않은 사람들의 선체 밖에있을 것입니다.D + 1 1 / ( D + 1 ) 1 / ( D + 1 )1/(d+1)d+11/(d+1)1/(d+1)

와 같은 더 나쁜 고 장점을 기꺼이 감내하려면 과 모두에서 다항식의 깊은 점을 찾는 무작위 방법이 있습니다. 내 논문을 참조하십시오, N (D)O(1/d2)nd

반복 라돈 점, K. Clarkson, D. Eppstein, GL Miller, C. Sturtivant 및 S.-H를 사용한 대략적인 중심점. 텡, 제 9 회 ACM 증상 Comp. 기하 , San Diego, 1993, 91–98, Int. J. Comp. 기하 & Appl. 6 (3) : 357–377, 1996, http://kenclarkson.org/center/p.pdf


네. 또한 eps-nets eps-approximations와 다양한 친구들을 사용하여 그러한 깊이 측정 값과 비슷한 작은 샘플을 얻을 수 있다고 언급합니다. 당신은 하나의 포인트를 얻지 못하지만 더 많은 정보를 얻습니다.
Sariel Har 's

논문의 용어로, 주장 된 -center에 대한 합리적인 수의 를 확인하는 효율적인 방법이 있습니까? βββ

"효율적"이라는 말이 차원에서 다항식을 의미한다면, 그런 결과를 모릅니다. 내 논문은 한 점만 발견하고, 공간의 깊이 분포에 대한 자세한 정보는 제공하지 않습니다 (예 : Sariel이 위에서 언급 한 것처럼).
David Eppstein

고맙습니다! 효율성에 대한 고려를 제외하면 (현재로서는) 임의의 볼록 세트의 일반적인 경우에는 일정한 확률을 임의의 확률로 높일 수있는 방법이 없다고 말하는 것처럼 보입니다. (좋은 점의 비율은 보다 커야하기 때문에 (또는 무언가를 놓쳤습니까? 다시 살펴보면, 두 번째 공식이 캡처하지 않은 것처럼 느껴집니다. "독립적 인 반복"에 대한 아이디어, 여기서 우리는 여러 세트의 포인트를 가질 것이며 , 각각의 포인트는 적어도 의 좋은 포인트 를 갖습니다 .) 2/311d+12/3
Clement C.

1
당신이 아는 모든 것이 볼록 세트가 있지만 어디에 있는지가 아니라고 올바른 세트에있을 확률을 d / (d + 1) 그렇다면 단순 예제를 해결하려면 좋은 점의 비율이 d / (d + 1) 이상이어야합니다. 그렇지 않으면, 대적은 당신에게 단순한 형태의 데이터를 제공 할 수 있고 볼록한 세트로 단면의 한면의 엡실론 이웃을 무작위로 선택할 수 있습니다. 심플 렉스의 꼭짓점 근처의 점을 무작위로 추측하더라도 1 / (d + 1) 이상의 확률로 잘못 선택할 수 있습니다.
David Eppstein

14

이것은 깔끔한 질문이며 이전에 생각했습니다. 우리가 생각 해낸 것은 다음과 같습니다.

출력 x 1 , output , x nR d 를 얻기 위해 알고리즘을 번 실행 하면 많은 확률의 x i 가 좋은 세트 G에 속한다 는 것을 알 수 있습니다. 당신은 G 가 무엇인지 모릅니다 . 단지 그것이 볼록하다는 것입니다. 좋은 소식은 G 에 대해 더 이상의 정보 를 얻지 못하는 방법이 있다는 것입니다 . 이 포인트 콜 F ( X 1 , , X에 N을 ) .nx1,,xnRdxiGGGf(x1,,xn)

정리. 모든 자연수를 들어 D , 함수가 존재 F : ( R에 D ) N을R (D) 이하가되도록 유지. x 1을 보자 . . . x nR dG R d1을 만족하는 볼록한 세트가되도록하십시오.ndf:(Rd)nRdx1...xnRdGRd이어서f를(X1,...,XN)G를. 또한,fnd의시간 다항식으로 계산할 수있습니다.
1n|{i[n]:xiG}|>dd+1.
f(x1,...,xn)Gfnd

은 해당주의 , 우리는 설정할 수 F를 평균한다. 따라서 이것은 d > 1 의 중앙값을 일반화하는 방법을 보여줍니다 .d=1fd>1

이 결과를 증명하기 전에 다음과 같이 조이십시오. 이고 x 1 , , x d를 표준 기본 요소로하고 x d + 1 = 0으로하십시오 . 점들 중 d 의 임의의 부분 집합은 차원 d - 1 의 아핀 공간 ( G) 에 포함된다 (이 점들에 의해 고유하게 정의 됨). 그러나 그 모든 작은 공간에는 아무런 의미가 없습니다. 따라서 n d / ( d + 를 포함 하는 볼록한 G 가 있습니다.n=d+1x1,,xdxd+1=0dGd1G 점이지만값이 무엇이든 f ( x 1 , , x n )을 포함하지 않습니다.nd/(d+1)=df(x1,,xn)

증명. 다음 결과를 사용합니다.

헬리 정리. 보자 . . . K의 m은 볼록 부분 집합 일 수 R에 D . d + 1 K i 의 교점 이 비어 있지 않은 것으로 가정하십시오 . 그리고 모두의 교차 K 내가 S를 비어 있지 않은 것입니다.K1...KmRdd+1 KiKi

Helly의 정리 증명을 보려면 여기를 클릭하십시오.

이제 우리의 정리를 증명하기 위해 :

하자 상부에없는 점의 수에 바인딩 된 G를 . 모든 닫힌 반 공백 K 1을 고려하십시오 . . . K mR에 D 적어도 함유 N - K의 그 자신의 경계는 최대 랭크의 포인트들의 세트를 함유하는 점 (이 각각 같은 halfspaces 한정된 개수 K 에 의해 정의되는 D + 1 개 의 경계 지점).k<n/(d+1)GK1...KmRdnkKid+1

각각의 보완 가장에 포함 케이 점. 합집합에 의해, 임의의 d + 1 K i 의 교점 은 적어도 n - k ( d + 1 ) > 0 포인트를 포함한다. (halfspaces 볼록 때문에) HELLY 정리함으로써, 모든 교차점에 포인트가 K . 우리가 할 수 f는 의 교차점에있는 임의의 점 계산 함수일 K 들.Kikd+1 Kink(d+1)KisfKi

모든 그 유적의 교차점 있음을 보여주는 것입니다 의가에 포함되어 G .KiG

일반성을 잃지 않으면 서 는 전체 순위를 가진 포인트의 하위 집합의 볼록 껍질입니다. 즉, G 를 포함하는 점의 볼록 껍질로 G 를 대체 할 수 있습니다. 이것이 전체 순위를 갖지 않는다면, 단순히 우리의 정리를 더 낮은 차원으로 적용 할 수 있습니다.GG

각 얼굴 halfspace 정의 G는 이들 halfspaces의 교차점이다. 이 반 공간 각각에는 G 가 포함 되므로 n - k 개 이상의 점이 포함됩니다. 이 절반 공간 중 하나의 경계는 G 의면을 포함하므로 최대 순위의 점 세트를 포함합니다. 따라서 이러한 halfspaces 각각은 인 K의 . 따라서 모든 교차점 K I 들에 포함되는 G 필요한.GGGnkGKiKiG

계산할 선형 제약 조건에 대응하는 선형 프로그램 설정 K I 모든 교차점에 포인트들 및 대응 가능한 솔루션 K 들. QEDfKiKi

불행히도,이 결과는 고차원적인 환경에서는 그리 실용적이지 않습니다. 좋은 질문은 우리가 더 효율적으로 계산할 수 있는지 여부입니다 .f

열린 문제. nd의 시간 다항식으로 계산 될 수 있다는 추가 결론으로 ​​위의 정리를 증명하십시오 . fnd

따로 : 우리는 또한 효율적인 해결책을 얻기 위해 문제를 바꿀 수 있습니다 : 이 절반 이상이 공 B ( y , ε )에 있는 성질을 가지고 있다면 , 우리는 점 z를 찾을 수 있습니다 점이다 B ( , 3 ε ) 시간 다항식의 ND . 특히 임의의 i에 대해 z = x i 를 설정 하여 점의 절반 이상이 B에있게됩니다.x1,,xnB(y,ε)zB(y,3ε)ndz=xii .B(z,2ε)


나는 데이빗 엡스타인은 : 아래의 설명대로 기본적으로 Tukey에 깊이를 재창조 생각
수레 쉬 벤 카트를

7

다양한 이름으로 알려진 고차원 및 일반 규범에서 일련의 포인트의 중앙값에 대한 개념이 있습니다. 세트의 모든 점까지의 거리의 합을 최소화하는 점입니다. 거리가 조금씩 증가하는 일반적인 중앙값과 유사한 신뢰 증폭 특성을 갖는 것으로 알려져 있습니다. 이 백서의 정리 3.1에서 자세한 내용을 확인할 수 있습니다. http://arxiv.org/pdf/1308.1334.pdf

이 백서에서 알 수있는 한 가지 좋은 점은 거리를 늘리는 요소가 임의로 높은 (그러나 일정한 <1) 신뢰도에서 증폭 될 수 있으면> 1을 일정하게 유지할 수 있다는 것입니다.

편집 : 슈하여 주제에 대한 또 다른 최근의 용지가와 사바토 http://arxiv.org/pdf/1307.1827v6.pdf 그것은 주로 분석하고 절차를 적용하는 나머지 작은 중간 거리 세트의 점 포인트 중 하나가 사용됩니다. 이 절차는 모든 메트릭과 함께 사용할 수 있지만 근사 계수는 3입니다.


Sp

1
실제로는 아닙니다. 모든 Banach 공간에 대해 결과가 표시됩니다. 중심을 중심으로 원점을 중심으로 대칭 인 모든 몸체에 대해이 몸체가 단위 공인 해당 표준이 있습니다. 귀하의 질문의 목적을 위해 볼록 바디가 원점 중심이라는 일반성을 잃지 않고 가정 할 수 있기 때문에 모든 중앙 대칭 볼록 바디에 대한 결과를 얻습니다. 아마도 약간의 노력으로 결과가 일반적인 볼록 바디로 확장 될 수 있습니다.
Vitaly

1
그러나 해당 규범에 대한 최소화기를 계산하려면 규범을 알아야합니다. 규범이 있지만 그것이 무엇인지 아는 경우 운이 없습니다.
David Eppstein

1
네 말이 맞아, 데이비드 규범을 알아야합니다. (이것은 볼록 바디를 중앙까지 알고 스케일링하는 것으로 해석됩니다).
Vitaly

X0.9(1,0)(+1,0)0.1(0,0.0001)(1,0)(1,0)(0,0.0001)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.