나는 내가 일하고있는 문제에 대한 증거를 만들려고 노력하고 있으며 내가 만들고있는 가정 중 하나는 내가 샘플링 한 포인트 세트가 전체 공간에 밀집되어 있다는 것입니다. 실제로, 전체 샘플 공간에서 내 포인트를 얻기 위해 라틴 하이퍼 큐브 샘플링을 사용하고 있습니다. 샘플 크기가 되도록 라틴 하이퍼 큐브 샘플이 전체 공간에 걸쳐 밀도가 높은지 알고 싶습니다 . 그렇다면이 사실에 대한 인용이 크게 감사하겠습니다.
나는 내가 일하고있는 문제에 대한 증거를 만들려고 노력하고 있으며 내가 만들고있는 가정 중 하나는 내가 샘플링 한 포인트 세트가 전체 공간에 밀집되어 있다는 것입니다. 실제로, 전체 샘플 공간에서 내 포인트를 얻기 위해 라틴 하이퍼 큐브 샘플링을 사용하고 있습니다. 샘플 크기가 되도록 라틴 하이퍼 큐브 샘플이 전체 공간에 걸쳐 밀도가 높은지 알고 싶습니다 . 그렇다면이 사실에 대한 인용이 크게 감사하겠습니다.
답변:
짧은 대답 : 그렇습니다. 거리가 , 샘플 공간의 유한 서브 세트 { x 1 , … , x m } 와 규정 된 '공차' δ > 0을 감안할 때 적합하게 큰 샘플 크기에 대해 다음을 확인할 수 있습니다. 샘플 거리 내의 포인트가 확률 ε 의 X 난 이다 > 1 - δ 모든 난 = 1 , ... , m .
긴 대답 : 직접적으로 관련된 인용을 알지 못합니다 (아래 참조). LHS (Latin Hypercube Sampling)에 관한 대부분의 문헌은 분산 감소 특성과 관련이 있습니다. 다른 문제는 샘플 크기가 경향이 있다는 것은 무엇을 의미 합니까? 간단한 IID 랜덤 샘플링, 크기의 샘플 N은 크기의 시료로부터 수득 할 수 N - 1 추가의 독립 샘플을 추가하여. LHS의 경우 절차의 일부로 샘플 수를 미리 지정했기 때문에이 작업을 수행 할 수 있다고 생각하지 않습니다. 따라서 1 , 2 , 3 , 크기 의 독립적 인 LHS 샘플을 연속적으로 가져 가야 할 것 같습니다 . ..
샘플 크기가 경향이 있으므로 한계에서 '밀도'를 해석하는 방법도 필요합니다 . 밀도는 LHS에 대해 결정적인 방식으로 유지되지 않는 것 같습니다 (예 : 2 차원 ) . 1 , 2 , 3 , 크기의 LHS 샘플 시퀀스를 선택할 수 있습니다 . . . 그들 모두가 [ 0 , 1 ) 2 의 대각선에 붙도록한다 . 그래서 어떤 종류의 확률 론적 정의가 필요해 보입니다. 하자마다 대 N , X , N = ( X n은 1 , X , N 2 , . .n → ∞
분포 ( 'IID random sampling') 에서 독립적 인 표본을 취하여 표본 을 구하면 여기서 은 반경 의 차원 공의 부피입니다 . 따라서 IID 무작위 샘플링은 무증상 밀도가 높습니다. n U ( [ 0 , 1 ) d ) P ( m i n 1 ≤ k ≤ n ” X n k - x ” ≥ ϵ ) = n ∏ k = 1 P ( ” X n k - x ” ≥ ϵ ) ≤ ( 1 − v ϵ 2 − d ) nv ϵ d ϵ
이제 샘플 이 LHS에 의해 획득되는 경우를 고려하십시오 . 이 노트의 정리 10.1 은 샘플 의 멤버 가 모두 로 분포되어 냅니다. 그러나 LHS의 정의에 사용 된 순열은 (다른 차원에 독립적 임에도 불구하고) 샘플 멤버간에 약간의 의존성을 유발하므로 ( ) 점근 밀도 특성이 유지되는 것은 분명하지 않습니다.X N U ( [ 0 , 1 ) D ) X N K , K ≤ N
수정 및 . 정의 . 을 보여주고 싶습니다 . 이를 위해, 우리는 이들의 제안 10.3을 사용할 수있다 노트 라틴어 하이퍼 큐브 샘플링을위한 중심 극한 정리의 일종이다. 정의 에 의해 경우 반지름의 볼에 주위 , , 그렇지. 제안 10.3은 여기서 및x ∈ [ 0 , 1 ) d P n = P ( m i n 1 ≤ k ≤ n ” X n k − x ” ≥ ϵ ) P n → 0 f : [ 0 , 1 ] d → R f ( z ) = 1 z ϵ x f ( z )Y n : = √μ=∫ [ 0 , 1 ] (D) F(Z)(D)의Z μ L H S = 1 .
취하십시오 . 결국 충분히 큰 경우 됩니다. 결국 입니다. 따라서 여기서 는 표준 일반 cdf입니다. 은 임의적 이므로 , 필요에 따라 따른다 .n − √PN=P(YN=- √LIM SUP의P, N≤LIM SUP의P(YN<-L)=Φ( - LΦLPn→0
이는 iid 랜덤 샘플링 및 LHS 둘 다에 대해 (상기 정의 된 바와 같은) 점근 밀도를 입증한다. 비공식적으로, 주어진 것을이 수단 및 샘플링 공간은 샘플 내에서 얻을 수있는 확률 의 당신이 충분히 큰 표본의 크기를 선택하여 원하는대로 1에 근접 할 수있다. 유한 공간 집합의 개념을 확장하여 샘플 공간의 유한 집합에 적용 할 수 있습니다. 유한 집합의 각 지점에 이미 알고있는 내용을 적용하면됩니다. 더 공식적으로 이것은 우리가 다음을 보여줄 수 있음을 의미합니다 : 샘플 공간의 및 유한 서브 세트 ,X ε X ε > 0 { X 1 , . . . , X의 m은 } 해요 I N 1 ≤ J ≤ m P ( m I N 1 ≤ K ≤ N ‖ X N K - X J ‖ < ε ) → 1 N → ∞ ( ).
이것이 당신이 원하는 것이 확실하지 않지만 여기에갑니다.
당신은 에서 포인트를 LHS 샘플링하고 있습니다. 우리는 에 대해 각 차원에서 크기의 빈 (하이퍼) 입방체의 예상 개수가 로 0이 된다는 것을 매우 비공식적으로 주장 할 것 입니다.[ 0 , 1 ) d ϵ > 0 ϵ n → ∞
하자 우리가 나누면 있음 균일으로 - 작은 직육면체 microcuboids는 말할 -의 폭 그때마다 폭 - 입방 포함 하나 이상의 미세 입방체. 따라서 샘플링되지 않은 마이크로 큐브 로이드의 예상 수가 로 0이라는 것을 알 수 있다면 완료된 것입니다. ( 마이크로 큐 보이드는 규칙적인 그리드에 배치되지만 -cuboids는 어느 위치 에나있을 수 있습니다.)[ 0 , 1 ) d m d 1 / m ϵ n → ∞ ϵ
완전히 제 1 샘플 포인트와 지정된 microcuboid 누락 가능성은 , 독립적 인 제 1 세트로서, 샘플 좌표 (제 1 샘플 포인트)가 자유롭게 선택 될 수있다. 처음 몇 개의 샘플 포인트가 해당 마이크로 큐브 로이드를 모두 놓친 경우, 후속 샘플 포인트는 놓치기가 더 어려워 질 것이므로 모든 포인트가 누락 될 확률은 미만입니다 . n d n ( 1 − m − d ) n
거기 에서 microcuboids 이상 묶여 놓친 예상 수 있도록 기대 부가 있기 - - 이는 인은 로 제한에서 0입니다 . [ 0 , 1 ) d m d ( 1 − m − d ) n n → ∞
업데이트 ...
(1) 여기서 주어진 얼마나 보여주는 사진이다 , 당신이 선택할 수 있도록 충분한 내에서 적어도 하나의 microcuboid이 보장된다 "microcuboids"(이 2 차원 그림에서 사각형)의 그리드 어떤 크기의 지역. 나는 2 개의 "무작위로"선택된 지역을 주었고 그들이 포함하고있는 2 개의 마이크로 큐 보이드 를 자주색으로 채색했습니다.m m × m ϵ × ϵ ϵ × ϵ
(2) 특정 마이크로 큐 보이드를 고려하십시오. 전체 공간 의 분율 인 부피 갖습니다 . 따라서 완전히 자유롭게 선택된 유일한 LHS 샘플은 확률 누락됩니다 . 유일한 중요한 사실은이 고정 값 (우리가 줄게된다는 점이다 하지만 계속 보다 작 있다는 상수) .m − d 1 − m − d n → ∞ m 1
(3) 이제 샘플 포인트 수 생각해보십시오 . 그림에서 을 보여 . LHS는 이처럼 아주 작은 크기의 "nanocuboids"(더 나은 경우)가 아닌 크기의 "마이크로 큐 보이드"이지만 실제로는 증거에서 중요하지 않습니다. 증거는 더 많은 점수를 내릴 때 주어진 마이크로 큐 보이드가 누락 된 상태를 유지하기 위해 평균적으로 점차 어려워진다는 약간 손을 흔들며 말로만하면됩니다. 했다 그렇게 확률 제 LHS에 대한 누락하지만 점 이하 보다 에 대한 모든 누락 그들 : 한계로 제로있어N = 6 m N - 1 × N - 1 m - 1 × m - 1 1 - m - 디 ( 1 - m - D ) N , N , N → ∞ .
(4)이 모든 엡실론은 증거로는 훌륭하지만 직감에는 좋지 않습니다. 여기에 가장 큰 빈 사각형 영역이 강조 표시된 및 샘플 포인트를 보여주는 몇 개의 그림이 있습니다 . (그리드는 LHS 샘플링 그리드-앞에서 언급 한 "nanocuboids"입니다.) 가장 큰 빈 영역이 샘플 포인트의 수 만큼 임의로 작은 크기로 축소되는 것은 "분명한"(약간의 직관적 인 의미)이어야합니다. .n = 50 n → ∞