라틴 하이퍼 큐브 샘플링 무증상


11

나는 내가 일하고있는 문제에 대한 증거를 만들려고 노력하고 있으며 내가 만들고있는 가정 중 하나는 내가 샘플링 한 포인트 세트가 전체 공간에 밀집되어 있다는 것입니다. 실제로, 전체 샘플 공간에서 내 포인트를 얻기 위해 라틴 하이퍼 큐브 샘플링을 사용하고 있습니다. 샘플 크기가 되도록 라틴 하이퍼 큐브 샘플이 전체 공간에 걸쳐 밀도가 높은지 알고 싶습니다 . 그렇다면이 사실에 대한 인용이 크게 감사하겠습니다.


4
그렇습니다. 연속 분포를 가정하면, ϵ>0 대해 모든 변수 간격이 폭 가되도록 나누기 수를 설정할 수 있습니다 <ϵ/2. 따라서 최소한 하나의 하이퍼 간격 (즉, 샘플 볼륨)은 선택한 지점 주위 의 너비 ϵ 하이퍼 큐브에 엄격하게 포함됩니다 . (댓글, 답변 아님, 내가 LHS에 대해 아는 전부는 10 분 전 위키 백과에서 온 것입니다 ...)
Creosote

이것은 사실이지만 큰 라틴 하이퍼 큐브 샘플의 밀도를 나타내는 데 쉽게 사용할 수 있다고 생각하지 않습니다. 그 이유는 LHS에서 샘플링 된 지점이 독립적이지 않기 때문입니다. 특정 하이퍼 인터벌 내에 샘플 지점이 있으면 다른 샘플 지점이 동일한 행 / 열에 나타나지 않습니다 (또는 다차원 용어가 무엇이든) .
S. Catterall 복원 모니카

@ Creosote 당신은 당신의 대답을 더 공식화 할 수 있다고 생각합니까?

@RustyStatistician은 증거가 요구하는 공식적인 방식으로 "내가 샘플링하는 포인트 세트가 전체 공간에 밀집되어 있음"이라는 의미를 설명하기 위해 오프닝 포스트를 확장하십시오. 감사.
Creosote

만약 이 너무 큰 초기 라틴 하이퍼 큐브 샘플 을 취한다면, 우리는 그것을 부정한 것으로 간주합니다. 그 샘플은 조밀합니까? ' n

답변:


6

짧은 대답 : 그렇습니다. 거리가 , 샘플 공간의 유한 서브 세트 { x 1 , , x m } 와 규정 된 '공차' δ > 0을 감안할 때 적합하게 큰 샘플 크기에 대해 다음을 확인할 수 있습니다. 샘플 거리 내의 포인트가 확률 εX 이다 > 1 - δ 모든 = 1 , ... , m .ϵ>0{x1,,xm}δ>0ϵxi>1δi=1,,m

긴 대답 : 직접적으로 관련된 인용을 알지 못합니다 (아래 참조). LHS (Latin Hypercube Sampling)에 관한 대부분의 문헌은 분산 감소 특성과 관련이 있습니다. 다른 문제는 샘플 크기가 경향이 있다는 것은 무엇을 의미 합니까? 간단한 IID 랜덤 샘플링, 크기의 샘플 N은 크기의 시료로부터 수득 할 수 N - 1 추가의 독립 샘플을 추가하여. LHS의 경우 절차의 일부로 샘플 수를 미리 지정했기 때문에이 작업을 수행 할 수 있다고 생각하지 않습니다. 따라서 1 , 2 , 3 , 크기 의 독립적 인 LHS 샘플을 연속적으로 가져 가야 할 것 같습니다 . .nn1.1,2,3,...

샘플 크기가 경향이 있으므로 한계에서 '밀도'를 해석하는 방법도 필요합니다 . 밀도는 LHS에 대해 결정적인 방식으로 유지되지 않는 것 같습니다 (예 : 2 차원 ) . 1 , 2 , 3 , 크기의 LHS 샘플 시퀀스를 선택할 수 있습니다 . . . 그들 모두가 [ 0 , 1 ) 2 의 대각선에 붙도록한다 . 그래서 어떤 종류의 확률 론적 정의가 필요해 보입니다. 하자마다 대 N , X , N = ( X n은 1 , X , N 2 , . .1,2,3,...[0,1)2nXn=(Xn1,Xn2,...,Xnn)nnϵ>0x[0,1)dn P(min1knXnkxϵ)0n

분포 ( 'IID random sampling') 에서 독립적 인 표본을 취하여 표본 을 구하면 여기서 은 반경 의 차원 공의 부피입니다 . 따라서 IID 무작위 샘플링은 무증상 밀도가 높습니다. n U ( [ 0 , 1 ) d ) P ( m i n 1 k nX n k - x ϵ ) = n k = 1 P ( X n k - x ϵ ) ( 1 v ϵ 2 d ) nXnnU([0,1)d)v ϵ d ϵ

P(min1knXnkxϵ)=k=1nP(Xnkxϵ)(1vϵ2d)n0
vϵdϵ

이제 샘플 이 LHS에 의해 획득되는 경우를 고려하십시오 . 이 노트의 정리 10.1 은 샘플 의 멤버 가 모두 로 분포되어 냅니다. 그러나 LHS의 정의에 사용 된 순열은 (다른 차원에 독립적 임에도 불구하고) 샘플 멤버간에 약간의 의존성을 유발하므로 ( ) 점근 밀도 특성이 유지되는 것은 분명하지 않습니다.X N U ( [ 0 , 1 ) D ) X N K , K NXnXnU([0,1)d)Xnk,kn

수정 및 . 정의 . 을 보여주고 싶습니다 . 이를 위해, 우리는 이들의 제안 10.3을 사용할 수있다 노트 라틴어 하이퍼 큐브 샘플링을위한 중심 극한 정리의 일종이다. 정의 에 의해 경우 반지름의 볼에 주위 , , 그렇지. 제안 10.3은 여기서 및x [ 0 , 1 ) d P n = P ( m i n 1 k nX n kx ϵ ) P n0 f : [ 0 , 1 ] dR f ( z ) = 1 z ϵ x f ( z )ϵ>0x[0,1)dPn=P(min1knXnkxϵ)Pn0f:[0,1]dRf(z)=1zϵxY n : = f(z)=0μ= [ 0 , 1 ] (D) F(Z)(D)의Z μ L H S = 1Yn:=n(μ^LHSμ)dN(0,Σ)μ=[0,1]df(z)dzμ^LHS=1ni=1nf(Xni) .

취하십시오 . 결국 충분히 큰 경우 됩니다. 결국 입니다. 따라서 여기서 는 표준 일반 cdf입니다. 은 임의적 이므로 , 필요에 따라 따른다 .n L>0nPN=P(YN=-nμ<LLIM SUP의P, NLIM SUP의P(YN<-L)=Φ( - LPn=P(Yn=nμ)P(Yn<L)ΦLPn0lim supPnlim supP(Yn<L)=Φ(LΣ)ΦLPn0

이는 iid 랜덤 샘플링 및 LHS 둘 다에 대해 (상기 정의 된 바와 같은) 점근 밀도를 입증한다. 비공식적으로, 주어진 것을이 수단 및 샘플링 공간은 샘플 내에서 얻을 수있는 확률 의 당신이 충분히 큰 표본의 크기를 선택하여 원하는대로 1에 근접 할 수있다. 유한 공간 집합의 개념을 확장하여 샘플 공간의 유한 집합에 적용 할 수 있습니다. 유한 집합의 각 지점에 이미 알고있는 내용을 적용하면됩니다. 더 공식적으로 이것은 우리가 다음을 보여줄 수 있음을 의미합니다 : 샘플 공간의 및 유한 서브 세트 ,X ε X ε > 0 { X 1 , . . . , X의 m은 } 해요 I N 1 J m P ( m I N 1 K NX N K - X J< ε ) 1 N ϵxϵxϵ>0{x1,...,xm}min1jmP(min1knXnkxj<ϵ)1 ( ).n


나는 두 가지 질문이 있습니다 당신은 단지 크기의 샘플이있는 경우 1) 여기서 크고, 그 변화는 인수합니까? 그리고 2) 라틴 하이퍼 큐브 샘플은 (0,1)만이 아닌 모든 범위의 값에있을 수 있습니다. nnn

또한, 충분한에 대한 이유를 설명하고자하는 것이다 , 우리가 가지고있는 것 ? 나는 큰 경우 가 0이 된다는 것을 의미한다고 가정합니다 . 분산에서는 ? nN μ L H S N(0,Σ)nμnμ^LHSN(0,Σ)

@RustyStatistician 모든 것은 유한 샘플, 즉 이지만 큰 것으로 정의됩니다 . 나는 무슨 일이 일어나고 있는지 설명하기 위해 끝에 추가 설명을 추가했습니다. 샘플 공간의 부피가 유한 한 한 다른 범위의 값도 쉽게 수용 할 수 있습니다 ((0,1)은 특별하지 않습니다). n<
S. Catterall 복원 모니카

짧은 답변을 자세히 설명해 주시겠습니까?

@RustyStatistician 짧은 대답은 내 대답에 대한 비공식적 인 요약입니다. 따라서 위에서 제안한 것처럼, 시도한 답변이 올바른 방향인지 (의도 한 질문에 대한 답변의 관점에서) 아닌지 알 수 있도록보다 공식적인 용어로 질문을 다시 작성할 수 있다면 좋을 것입니다.
S. Catterall Reinstate Monica

3

이것이 당신이 원하는 것이 확실하지 않지만 여기에갑니다.

당신은 에서 포인트를 LHS 샘플링하고 있습니다. 우리는 에 대해 각 차원에서 크기의 빈 (하이퍼) 입방체의 예상 개수가 로 0이 된다는 것을 매우 비공식적으로 주장 할 것 입니다.[ 0 , 1 ) d ϵ > 0 ϵ n n[0,1)dϵ>0ϵn

하자 우리가 나누면 있음 균일으로 - 작은 직육면체 microcuboids는 말할 -의 폭 그때마다 폭 - 입방 포함 하나 이상의 미세 입방체. 따라서 샘플링되지 않은 마이크로 큐브 로이드의 예상 수가 로 0이라는 것을 알 수 있다면 완료된 것입니다. ( 마이크로 큐 보이드는 규칙적인 그리드에 배치되지만 -cuboids는 어느 위치 에나있을 수 있습니다.)[ 0 , 1 ) d m d 1 / m ϵ n ϵm=2/ϵ[0,1)dmd1/mϵnϵ

완전히 제 1 샘플 포인트와 지정된 microcuboid 누락 가능성은 , 독립적 인 제 1 세트로서, 샘플 좌표 (제 1 샘플 포인트)가 자유롭게 선택 될 수있다. 처음 몇 개의 샘플 포인트가 해당 마이크로 큐브 로이드를 모두 놓친 경우, 후속 샘플 포인트는 놓치기가 더 어려워 질 것이므로 모든 포인트가 누락 될 확률은 미만입니다 . n d n ( 1 m d ) n1mdndn(1md)n

거기 에서 microcuboids 이상 묶여 놓친 예상 수 있도록 기대 부가 있기 - - 이는 인은 로 제한에서 0입니다 . [ 0 , 1 ) d m d ( 1 m d ) n n md[0,1)dmd(1md)nn


업데이트 ...

(1) 여기서 주어진 얼마나 보여주는 사진이다 , 당신이 선택할 수 있도록 충분한 내에서 적어도 하나의 microcuboid이 보장된다 "microcuboids"(이 2 차원 그림에서 사각형)의 그리드 어떤 크기의 지역. 나는 2 개의 "무작위로"선택된 지역을 주었고 그들이 포함하고있는 2 개의 마이크로 큐 보이드 를 자주색으로 채색했습니다.m m × m ϵ × ϵ ϵ × ϵϵmm×m ϵ×ϵϵ×ϵ

여기에 이미지 설명을 입력하십시오

(2) 특정 마이크로 큐 보이드를 고려하십시오. 전체 공간 의 분율 인 부피 갖습니다 . 따라서 완전히 자유롭게 선택된 유일한 LHS 샘플은 확률 누락됩니다 . 유일한 중요한 사실은이 고정 값 (우리가 줄게된다는 점이다 하지만 계속 보다 작 있다는 상수) .m d 1 m d n m 1(1/m)dmd1mdnm1

(3) 이제 샘플 포인트 수 생각해보십시오 . 그림에서 을 보여 . LHS는 이처럼 아주 작은 크기의 "nanocuboids"(더 나은 경우)가 아닌 크기의 "마이크로 큐 보이드"이지만 실제로는 증거에서 중요하지 않습니다. 증거는 더 많은 점수를 내릴 때 주어진 마이크로 큐 보이드가 누락 된 상태를 유지하기 위해 평균적으로 점차 어려워진다는 약간 손을 흔들며 말로만하면됩니다. 했다 그렇게 확률 제 LHS에 대한 누락하지만 점 이하 보다 에 대한 모든 누락 그들 : 한계로 제로있어N = 6 m N - 1 × N - 1 m - 1 × m - 1 1 - m - ( 1 - m - D ) N , N , N n>mn=6mn1×n1m1×m11md(1md)n nn .

(4)이 모든 엡실론은 증거로는 훌륭하지만 직감에는 좋지 않습니다. 여기에 가장 큰 빈 사각형 영역이 강조 표시된 및 샘플 포인트를 보여주는 몇 개의 그림이 있습니다 . (그리드는 LHS 샘플링 그리드-앞에서 언급 한 "nanocuboids"입니다.) 가장 큰 빈 영역이 샘플 포인트의 수 만큼 임의로 작은 크기로 축소되는 것은 "분명한"(약간의 직관적 인 의미)이어야합니다. .n = 50 n n=10n=50n

여기에 이미지 설명을 입력하십시오


이 인수는 일반적인 간격 동안 유지됩니까? 대신에 ? [0,1)

네, 모든 치수에 대해 증거를 수정 했으므로 더 명확 해져야합니다.
Creosote

이 증명의 1-d 또는 2-d 사진을 제공 할 수 있습니까? 나는 그것에 꽤 길을 잃었다.

끝난. 필요한 경우 추가 질문을 드리겠습니다.
Creosote

정말 고마워! 그것은 지금 직관에 도움이됩니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.