규범 에서 친밀감을 테스트하기위한 하한 ?


11

다음 문제로 알려진 (샘플 복잡성 측면에서) 하한이 있는지 궁금합니다.

{ 1 , , n }의 두 개의 알 수없는 분포 D1 , D2 에 대한 샘플 오라클 액세스 권한이 주어지면 테스트 여부 (whp){1,,n}

  • D1=D2
  • d2(D1,D2)=D1D22=i=1n(D1(i)D2(i))2ϵ

Batu et al. [BFR + 00] 은 샘플이 충분했지만 하한에 대한 언급을 찾지 못했습니까?O(1ϵ4)

나는 이 문제에 대해 공정한 동전 대 바이어스 동전을 구별하는 작업을 줄임으로써 항상 하한을 표시 할 수 있다고 생각 합니다 (두 개에서만 지원되는 분포 시뮬레이션) iid 코인 토스에 따라 테스터의 질문에 대답하지만 여전히 2 차 간격이 남습니다 ...ϵΩ(1ϵ2)ϵ

(내가 관심을 가질 또 다른 점은 이 거리 를 추정 할 때의 하한치입니다 (최대 첨가제 ). 다시, 나는 문헌에서 그러한 결과에 대한 언급을 찾지 못했습니다)L 2ϵL2

당신의 도움을 주셔서 감사합니다,


이 약속 문제는 Sahai와 Vadhan의 통계적 차이 라고하는 것과 매우 유사 해 보입니다. 이는 SZK (통계 제로 지식) 클래스에 대한 완전한 문제입니다. 그러나 거리 를 사용 합니다. cs.ucla.edu/~sahai/work/web/2003%20Publications/J.ACM2003.pdf . (편집 : 또한 그들은 오라클 액세스가 아닌 배포를 계산하는 회로가 있다고 가정합니다.)L1
usul

안녕하세요, 다른 의견에서 언급했듯이 와 규범 의 차이 는 실제로 여기서 중요합니다. 더 나아가 논문에서 그들은 (임의의 하나에서) 명시 적 (임의의 것이 아닌) 임계 값 을 설정했습니다. 그들은이 문턱 값이 특정한 제약을 충족시켜야한다고 설명한다). 와 를 구별하고 싶습니다. ( "정상 테스트"보다 내성 테스트 / 거리 추정에 더 가깝습니다. 여기서 대 을 테스트하려고합니다. (그러나 대한 어떤 고정 된 )). L 1 τ = 1 / 3L2L1τ=1/3d 21 τ d 2 = 0 d 2ϵ ϵd1τd21τd2=0d2ϵϵ
Clement C.

답변:


6

usul 아래에 표시된 것처럼 샘플은 테스트하기에 충분하므로 샘플 복잡도는 정확히 . 실제로, 그것은 규범에 따라 부가적인 까지 를 학습 하기에 충분한 수의 샘플을 우리에게 보여줍니다 .Θ ( 1 / ϵ 2 ) D ϵ L 2O(1/ϵ2)Θ(1/ϵ2) DϵL2


하자 드로잉하여 얻어진 경험적 밀도 함수 수 샘플 IID 및 설정 그런 다음 여기서 . m1,...,S는해요~D D (K)D^ms1,,smDD - D2 2

D^(k)=def1m=1m1{s=k},k[n]
Xk
DD^22=k=1n(1m=1m1{s=k}D(k))2=1m2k=1n(=1m1{s=k}mD(k))2=1m2k=1n(XkEXk)2
XKK[N] ED - D2 2Xk=def=1m1{s=k}Bin(m,D(k))Xk의 ( )는 독립적이지 않지만 되도록 대 , 및 Markov의 부등식 적용 k[n] m3
EDD^22=1m2k=1nE[(XkEXk)2]=1m2k=1nVarXk=1m2k=1nmD(k)(1D(k))1mk=1nD(k)=1m
ED - D 2 2ε2m3ϵ2 P{D - D2ε}1
EDD^22ϵ23
P{DD^2ϵ}13.

(저는 "이전의 반대편에 [...]"을 표시하여 이전 오류에 대해 속죄하려고합니다 . 실제로는이 위에 있습니다. 나는 이것을 기대하지 않았습니다.) 상한에서, 가장 순진한 알고리즘 (즉, 샘플을 그리고 이것을 정의한 경험적 밀도를 출력하는 알고리즘 )은 분포 를 산출한다는 것을 알 수 있습니다. 일정한 확률이며, - 닫기에 에서 거리. D ε D L 2m=O(1/ϵ2)D^ϵDL2
Clement C.

@DW 방금 답변을 편집했습니다.
Clement C.

3

내가 뭔가 반대를 표시하여 내 이전 오류를 속죄하려고 시도합니다 - 것으로 샘플은 아래의 하한 (충분한 는 거의 타이트합니다!) 당신의 생각을 참조하십시오 ....1/ϵ2Θ~(1ϵ2)1/ϵ2

주요 직관은 두 가지 관찰에서 시작됩니다. 먼저, 분포의 거리가 이 되려면 확률이 높은 점이 있어야합니다 ( ). 예를 들어, 확률 이면 입니다. ε Ω ( ε 2 ) 1 / ε 3 ε 3D (1) - D 2 2L2ϵΩ(ϵ2)1/ϵ3ϵ3D1D221ϵ3(ϵ3)2=ϵ3/2<ϵ

둘째, 거리가 균일 분포를 고려하십시오 . 우리가 있었다면 확률의 점 , 그 후에는 각각 다를 것이다 및 샘플 충분하다. 반면에 포인트가 있으면 와 다시 샘플 (상수는 포인트)면 충분합니다. 따라서 앞에서 언급 한 확률이 높은 점 중에서 가 구별하는 "충분한"점이 항상 다른 점이 있기를 바랍니다. ϵ O ( 1 ) O ( 1 ) O ( ϵ ) 1 / ϵ 2 O ( 1 / ϵ 2 ) O ( ϵ 2 ) O ( 1 / ϵ 2 ) O ( 1 / ϵ 2 )L2ϵO(1)O(1)O(ϵ)1/ϵ2O(1/ϵ2)O(ϵ2)O(1/ϵ2)O(1/ϵ2)

연산. 과 신뢰 매개 변수 주어지면 이라고하자 . 그리 각 분포로부터 샘플. 를 점 대한 각각의 더 높은, 더 적은 수의 샘플로 하자 . 및 대한 점 이있는 경우 다른 배포판. 그렇지 않으면 동일하게 선언하십시오.M X = M log ( 1 / ϵ 2 ) XϵMX=Mlog(1/ϵ2) ai,biii[n]aiXXϵ2ai,biii[n] aibiaiX8aibiaiX4

정확성과 신뢰 한계 ( )는 거리 의 모든 편차 가 확률이 따라 다른 점 에서 한다는 다음의 정리에 따라 다릅니다 . L 2 Ω ( ϵ 2 )1eΩ(M)L2Ω(ϵ2)

청구. 이라고 가정하십시오 . 하자. 하자 . 그런 다음 δ i = | D 1 ( I ) - D 2 ( I ) | S k = { i : δ i > ϵ 2D1D22ϵδi=|D1(i)D2(i)|i S k δ 2 iϵ2(12Sk={i:δi>ϵ2k}

iSkδi2ϵ2(12k).

증거 . 우리는이 두 번째 합을 결집합시다. 따라 를 최대화하고 싶습니다 . 함수 보낸 엄격 볼록하고, 우리가 어떤 취하여 목적을 높일 수 증가 및 증가 하여 감소시키면서 하여 . 따라서 목표는 최대 값에서 최대한 많은 항을 사용하고 나머지는 최대화합니다. i S k δ 2 i i S k δi2xx2δiδjδiγδjγ0 ϵ 2

iSkδi2 + iSkδi2ϵ2.
iSkδi2iSkδi2xx2δiδjδiγδjγ0. 각 기간의 최대 값은 및 기껏있다 이 값 환산 (그들은 최대 합이 때문에 ). 따라서 2kϵ2k 2iSkδ 2 i2k2kϵ22
iSkδi22kϵ2(ϵ2k)2=2ϵ2k.    

청구 . 하자 . 만약 , 적어도 하나의 포인트가 존재한다 와 및 .D (1) - D 2 2ε I [ N ] P I > ε 2pi=max{D1(i),D2(i)}D1D22ϵi[n]pi>ϵ24δiϵpi2

증거 . 먼저, 모든 포인트는 에 따라 를 ( 는 이전 청구 에서 에 대해 비어 수 없음 ).Skpiδi>ϵ2kSkk>2

둘째, 이므로 또는 재 배열, 이므로 부등식 는 에서 하나 이상의 점을 합니다. 이제 선택하십시오 . ipi2

iSkδi2ϵ2(121k)iSkpi,
iSk(δi2piϵ2(121k))0,
δi2piϵ2(121k)
Skk=4

클레임 (거짓 긍정) . 인 경우 알고리즘은 최대 확률로 다르게 선언합니다 .D1=D2eΩ(M)

스케치 . 및 두 가지 경우를 고려하십시오 . 첫 번째 경우, 의 표본 수는 두 분포에서 을 초과하지 않습니다 . 평균 표본 수는 이며 꼬리 한계는 확률이 , 의 표본은 첨가제 의한 평균을 초과하지 않습니다 . 값을 테일 바운드 로 유지하는 데주의를 기울이면 그러한 포인트가 몇 개 있든 관계없이 그 값 에 대해 결합 바운드를 결합 할 수 있습니다 (직관적으로는 가능한 포인트 수에서 기하 급수적으로 지수가 감소합니다).pi<ϵ2/16piϵ2/16iX/8<X/16eΩ(X/pi)=ϵ2eΩ(M/pi)iX/16pi

경우 , 우리는 Chernoff 바인딩 사용할 수 있습니다 : 우리가 걸릴 때, 그 말한다 샘플을 및 지점은 확률로 그려진 , 평균과는 다른 가능성 에 의해 은 최대 입니다. 여기에서 으로 설정하여 확률은 됩니다.piϵ2/16mppmcpmeΩ((cpm)2/pm)=eΩ(c2)c=X16eΩ(X)=ϵ2eΩ(M)

그래서 확률 (두 배포본)의 샘플의 개수 내 의 평균의 . 따라서 우리의 테스트는 이러한 점을 포착하지 못하고 (그들은 서로 매우 가깝습니다), 우리는 의 모든 영역에 대해 결합 된 경계를 가질 수 있습니다. 1ϵ2eΩ(M)ipiXϵ2X16piXϵ216/ϵ2

주장 (거짓 부정) . 경우 , 우리의 알고리즘은 최대 확률 그들이 동일한 선언 .D1D22ϵϵ2eΩ(M)

스케치 . 및 포인트 가 있습니다. 앞의 주장과 같은 체 르노 프는 확률 에서 의 샘플 수 는 평균 과 최대 만큼 다르다고 말합니다 . 그것은 를 갖는 (WLOG) 분포 대한 ; 그러나 분포 에서 의 샘플 수가 확률이 훨씬 낮습니다.ipi>ϵ2/4δiϵpi/21ϵ2eΩ(M)ipimpimX161pi=D1(i)=D2(i)+δii2 이 첨가량에 의해 평균과 다른 것 (평균과 분산이 더 낮기 때문에).

따라서 높은 확률 로 각 분포 의 샘플 수는 평균의 있습니다. 그러나 그 확률은 마다 다르 므로 그 수단은 ipiXϵ2X16δi

Xϵ2δiXpi2ϵ=piXϵ2X2.

따라서 높은 확률로 포인트 의 경우 샘플 수는 적어도 만큼 다릅니다 . i#samples(1)X4

스케치를 완료하려면 충분히 큰 경우 의 샘플 수가 알고리즘 이 아닌 사용할 때의 평균에 충분히 가깝다 는 것을보다 엄격하게 보여 주어야합니다. , 그것은 아무것도 변경하지 않습니다 (상황에 약간의 흔들림 공간을 남겨두면 간단해야 함).Mi#samplesmean


안녕, 덕분에이 - 나는 알고리즘 (나는 확실히 얻을 수 아니에요 몇 점에 대한) 분석에 대한 몇 가지 질문이 : 내가 마지막에만 일정한 확률로 원하는 가정하면 , 성공의 수단 것을 그 내가 정확하게 이해한다면 상수 ( 이 무엇인지 얻지 않는 한 )? 따라서이 경우 전환 하면 알고리즘에 따라 가됩니다. 맞습니까? 2/3MMXΘ(log1ϵ)
Clement C.

@ClementC. 미안하지만 명확하지 않았습니다! 우리가 샘플 을 그리면 잘못된 확률은 이므로 일정 확률이 잘못되어 샘플입니다. 1ϵ2Mlog(1/ϵ2)O(eM)O(1ϵ2log(1/ϵ2))
usul

좋아, 내가 모은거야. 이를 염두에두고 증거를 살펴 보겠습니다. 시간을내어 다시 한 번 감사드립니다!
Clement C.

1

경우 대해이 문제를 해결하려고 시도 할 수 있습니다 . 이 경우 샘플이 필요하고 충분할 것이라고 확신합니다.n=2Θ(1/ϵ2)

거리와 거리 (총 변동 거리) 사이의 변환을 보는 것이 도움이 될 수 있습니다 .L2L1

  • 분포가 알려진 경우 하나 개의 샘플로, 총 변동 거리가 완벽하게 하나가 구별 할 수있는 장점이 특징 인 것으로 알려져 에서 . 따라서 총 변동 거리가 크고 분포를 알고 있으면 확률이 높은 정확한 검정을 구축 할 수 있습니다. 총 변동 거리가 작 으면 불가능합니다. 총 변동 거리가 크지 만 분포를 알 수없는 경우에 대해 무엇을 말할 수 있는지 모르겠습니다.D1D2

  • 다음으로 제품 분포 및 살펴볼 수 있습니다 . 총 변동 거리 ( 거리)를 사용하면 ~ 과 관련된 적절한 경계가없는 것 같습니다 . 그러나 거리를 사용할 때 의 함수로 추정치가 있다고 생각 합니다. (내가 misremembering 아니에요 희망 불행하게도, 나는 그 견적 / 경계에 특정 참조를 발굴 할 수없는 것.) 당신은 추정 할 수 알려진 경계도있다 의 기능으로 거리를 거리 .D1nD2nL1||D1nD2n||1||D1D2||1L2||D1nD2n||2||D1D2||2L1L2

  • 따라서 바인딩 한 다음 바인딩하는 방법 중 하나를 시도 할 수 있습니다 .||D1nD2n||2||D1nD2n||1

나는 이것이 어디에서나 선을 이룰 수 있는지 모르겠다. 아이디어 일뿐입니다. 아마 당신이 인용 한 논문의 저자들은 이미 이와 같은 것을 시도하거나 고려했을 것입니다.

아마도 유용한 참고 문헌 :


안녕, 답변 주셔서 감사합니다! 그러나 일 때 점근 적 하한에 관심이 있습니다. 특히, 와 규범 사이의 관계 는 요소를 포함합니다. 이는 상수에 대해 동일 하지만 무의식적으로 매우 다릅니다. 사용 프록시에 친밀감을 테스트로 내가 (말할 수있는 지금까지, 옵션이 아닙니다으로 dstance을 정확한 복잡성 것으로 알려져 거리 [BFR + 10 , Val11 ]nL2L1nnL1L1Θ(n2/3/poly(ϵ))
클레멘트 C.

0

편집 : 이것은 올바르지 않습니다! 의견의 토론을 참조하십시오-아래 결함을 지적합니다.

이 (가) 필요 하다고 말할 수 있습니다 .1ϵ4

집합 . 하자 균일 분포 수 (각 점의 확률 ) 및하자 첨가제 양만큼 균일 다를 각 점. 거리가 확인하십시오 .n=Θ(1ϵ2)D1=Θ(ϵ2)D2±Θ(ϵ2)L2ϵ

우리는 구별 할 필요가 그래서 에서 양면 공정한 동전을 양면 -biased 동전. 나는이 하드로 적어도 이야기로해야한다고 생각 A로부터 양면 공정 동전 양면 필요 -biased 동전, 샘플입니다. 편집 : 이것은 올바르지 않습니다! 동전은 부가 적으로 바이어스되지만, 상수 인자에 의해 곱하여 바이어스됩니다. DW 지적한 바와 같이, 포인트 당 샘플의 수단 일정한 번호를 구분 으로부터 .nnΘ(ϵ2)22Θ(ϵ2)Θ(1(ϵ2)2)=Θ(1ϵ4)ϵ2D1D2


공지 사항 것을 지금까지 우리는 인수의이 라인을 밀어 수 있습니다. 구체적으로, 우리가 을 으로 증가 시키려고했다고 가정하자 . 균일 분포에서 각 점의 확률은 입니다. 그러나 에서 각 포인트는 만큼 균일해야합니다 . 이후로는 불가능합니다 .1ϵ4n1ϵ3ϵ3D2ϵ2.5ϵ2.5ϵ3

보다 추상적으로, 각 포인트가 의해 uniform과 달라지기를 원한다고 가정하십시오 . 그런 다음 을 설정할 수있는 최대 값 은 입니다. 거리 을 얻으려면 거리 합의 제곱근이 이므로 이므로 이므로 이고 입니다.ϵkn1ϵkL2ϵϵn(ϵk)2=ϵϵk/2=ϵk=2n=1ϵ2

또한 같은 주장에 따르면 인 거리에 관심이 이 필요하므로 이므로 샘플 수는 됩니다. 나는 이것이 독립적 인 경계로 의미가 있다고 생각합니다 . 로 무한대에 접근합니다 . 에서 거리 에 대한 경계가없는 두 분포를 구별하려고 하면 무한대로 크게하고 차이를 임의로 얇게 분산시켜 결코 구별 할 수 없습니다 (Lpp>1k=pp1n=1/ϵpp11/ϵ2pp1np1L1ϵnn , 고정 된 개수의 샘플이 모든 충분하지 않음 ). 또한 로 접근합니다 . 이것은 규범에 대해 설정할 수 있고 모든 점이 의해 다를 수 있기 때문에 바운드로 의미 가 있습니다 . 균일 한 점과 다른지 확인하려면 번 포인트를 샘플링해야합니다. 샘플이 필요합니다.n1ϵ3pLn=1ϵΘ(ϵ)1ϵ21ϵ3


1. 가 각 지점 에서 균일하게 만큼 다르다는 것을 의미 합니까? 나는 그것이 오타라고 생각하며 을 의미했습니다 . D2±1/ϵ2±ϵ2
DW

1
2. 나는 구별 것을 구입하지 않는 에서 필요 샘플을. 같은 나에게 외모 샘플은 충분합니다. 설명 (직관) : 샘플을 수집하고 가능한 각 값이 몇 번 발생하는지 계산 한다고 가정 합니다. 이들이 에서 온 경우 각각 100 번 발생해야합니다 (std dev 10 사용). 에서 온 경우 각각 절반 씩 200 번 (std dev 14), 나머지 절반은 0 번 (std dev 0) 발생해야합니다. 또는 다루는 것을 알고 있다면 두 가지를 쉽게 구별 할 수 있습니다 . D1D21/ϵ4Θ(1/ϵ2)m=100/ϵ2D1D2D1D2
DW

@DW (1) 당신이 맞아요! 결정된. (2) 당신이 그것을 넣을 때, 나는 동의하지만, 다른 상수를 선택하면 더 어렵다고 생각합니다. :이 같은 떠올하고 , 그래서 풋 확률 각 지점에 있습니다. 그런 다음 는 각 포인트마다 씩 ( 거리가 확인) 각 포인트 에 확률 또는 둡니다. n=1/100ϵ2D1100ϵ2D210ϵ2L2ϵ90ϵ2110ϵ2
usul

1
나는 샘플이 여전히 충분 하다고 생각 합니다. 샘플을 수집 하고 가능한 각 값이 몇 번 발생하는지 계산합니다. 들면 각각 1,000,000 회 (성병 DEV 발생한다 ). 들어 , 각각 90 시간 (표준 편차가 발생한다 ) 또는 110 만 시간 (표준 편차 ). 1,000,000과 1,100,000의 차이가 100 표준 편차, 즉 거대하기 때문에 또는 다루는 것을 알고 있다면 두 가지를 쉽게 구별 할 수 있습니다 . m = 10 6 n D 1 1000 D 21000 1000 D 1 D 2O(1/ϵ2)m=106nD11000D210001000D1D2
DW

@DW 나는 그것에 대해 더 많이 생각했습니다. 평균 곱셈 계수가 평균이 다르면 점당 일정한 수의 샘플이 구별됩니다. 중요한 것은 부가 적이 지 않은 부가적인 요소입니다. 이 방법은 의 하한 만 제공합니다 . 1/ϵ2
usul
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.