하이퍼 큐브의 대부분의 포인트가 경계에 있다고 말할 때 무엇을 의미합니까?

50 차원 하이퍼 큐브가 있다면. 그리고 경계를 또는 여기서 는 하이퍼 큐브의 차원입니다. 그런 다음 하이퍼 큐브의 경계에서 점의 비율을 계산하는 것은 입니다. 무슨 뜻이에요? 나머지 공간이 비어 있다는 의미입니까? 경우 포인트의이 경계에있는 다음 큐브 안에 포인트가 균일하게 분포되지해야합니까? $0<x_j<0.05$ $0.95<x_j<1$ $x_j$ $0.995$ $99\%$

machine-learning math

— 로 히트 쿠마르 싱
소스

아닙니다. 주변이 더 넓고 그 효과가 차원에 비례한다는 것을 의미합니다. 다소 반 직관적입니다. 이 현상은 고차원 공간에서 가장 가까운 이웃을 군집화하거나 계산할 때 관련되는 임의의 노드 쌍 사이의 거리 분포에 영향을 미칩니다.

— Emre

선분의 포인트가 경계 근처에있는 비율을 계산합니다. 그런 다음 정사각형을 가리 킵니다. 그런 다음 큐브를 가리 킵니다. 그들에 대해 무엇을 말할 수 있습니까?

— user253751

답변:

하이퍼 큐브에 무한히 많은 포인트가 포함되어 있기 때문에 ' 하이 큐브에서 포인트 의 $99\%$ '라고 말하는 것은 약간 잘못된 것입니다. 대신 볼륨에 대해 이야기합시다.

하이퍼 큐브의 부피는 측면 길이의 곱입니다. 50 차원 단위 하이퍼 큐브의 경우

Total volume = \underset{50 times}{\underset{⏟}{1 \times 1 \times \dots \times 1}} = 1^{50} = 1.

$\text{Total volume} = \underbrace{1 \times 1 \times \dots \times 1}_{50 \text{ times}} = 1^{50} = 1.$

이제 하이퍼 큐브의 경계를 배제하고 ' 내부 '를 봅시다 ( 내부 수학 용어 는 매우 다른 의미를 갖기 때문에 따옴표 안에 넣습니다 ). 우리는 를 만족 하는 점 $x = (x_1, x_2, \dots, x_{50})$ 만 유지합니다

0.05 < x_{1} < 0.95 and 0.05 < x_{2} < 0.95 and \dots and 0.05 < x_{50} < 0.95.

$0.05 < x_1 < 0.95 \,\text{ and }\, 0.05 < x_2 < 0.95 \,\text{ and }\, \dots \,\text{ and }\, 0.05 < x_{50} < 0.95.$

0.9

$0.9$

= 0.95 - 0.05

$=0.95 - 0.05$

Interior volume = \underset{50 times}{\underset{⏟}{0.9 \times 0.9 \times \dots \times 0.9}} = {0.9}^{50} \approx 0.005.

$\text{Interior volume} = \underbrace{0.9 \times 0.9 \times \dots \times 0.9}_{50 \text{ times}} = 0.9^{50} \approx 0.005.$ 내부는 ')는

1 - {0.9}^{50} \approx 0.995.

$1 - 0.9^{50} \approx 0.995.$

이는 50 차원 하이퍼 큐브 부피의 $99.5\%$ 가 ' 경계 ' 에 집중되어 있음을 보여줍니다 .

후속 조치 : 이그나티우스 는 이것이 어떻게 확률과 관련이 있는지에 대한 흥미로운 질문을 제기했습니다. 다음은 예입니다.

50 개의 입력 매개 변수를 기반으로 주택 가격을 예측하는 (머신 러닝) 모델을 생각해 봅시다. 모든 50 개의 입력 매개 변수는 독립적 이며 과 사이에서 균일하게 분배 됩니다. $0$ $1$

$0.05$ $0.95$ $0.05$ $0.95$

$10\%$ $50$ $1 - 0.9^{50} \approx 0.995.$ $99.5\%$

경험 법칙 : 높은 차원에서 극단적 인 관찰은 예외가 아닌 규칙입니다.

— 엘리아스 스트 레
소스

OP의 인용문을 사용할 가치가있다. "다른 공간이 비어 있다는 것을 의미 하는가?" 대답 : 아니오, 나머지 공간이 상대적으로 작다 는 것을 의미합니다 . . . 또는 자신의 말로 비슷합니다. . .

— Neil Slater

"차원의 저주"라는 용어에 대한 정말 좋은 설명

— ignatius

다음이 올바른지 궁금합니다.이 예제를 사용하여 50 개의 각 치수에서 [0,1]을 따라 균일하게 분포 된 피쳐의 경우 (99.5 % -0.5 %) = 볼륨의 99 % (하이 큐브 피쳐) 공간)의 각 기능의 10 개 % 값을 포착

— 이그나티우스

"지정된 입력 매개 변수는 5 %의 확률로 극단입니다." 이 확률은 10 %라고 생각합니다.

— Rodvi

@ Rodvi : 당신은 물론 감사합니다! 고쳤다.

— Elias Strehle

더 작은 치수에서도 패턴을 명확하게 볼 수 있습니다.

1 차원. 길이 10의 선과 1의 경계를 선택합니다. 경계의 길이는 2이고 내부는 8, 1 : 4 비율입니다.

2 차원. 측면 10의 제곱과 경계 1을 다시 가져옵니다. 경계의 면적은 36, 내부 64, 9:16 비율입니다.

3 차원. 동일한 길이와 경계. 경계의 부피는 488이고 내부는 512, 61:64입니다. 이미 경계는 내부와 거의 같은 공간을 차지합니다.

4 차원, 이제 경계는 5904이고 내부는 4096입니다-이제 경계가 더 큽니다.

더 작고 더 작은 경계 길이에서도 치수가 증가함에 따라 경계 체적이 항상 내부를 추월합니다.

— HP 윌리엄스
소스

그것을 이해하는 가장 좋은 방법은 (인간에게는 IMHO 불가능하지만) n- 차원 공과 n- 차원 큐브의 부피를 비교하는 것입니다. n (치수)의 증가로 볼의 모든 부피가 "누설"되어 큐브의 모서리에 집중됩니다. 이것은 코딩 이론과 그 응용에서 기억해야 할 유용한 일반 원칙입니다.

이에 대한 가장 좋은 교과서 설명은 Richard W. Hamming의 저서 "코딩 및 정보 이론"(3.6 Geometric Approach, p 44)에 있습니다.

Wikipedia 의 짧은 기사 는 n 차원 단위 큐브의 양이 항상 1 ^ n임을 명심하면 동일한 내용을 간략하게 요약합니다.

도움이 되길 바랍니다.

— 알렉스 페도 토프
소스