어린이에게“차원의 저주”를 설명하십시오


91

나는 차원의 저주에 대해 여러 번 들었지만 어쨌든 여전히 아이디어를 파악할 수 없습니다.

누구든지 이것을 어린이에게 설명하는 것처럼 가장 직관적 인 방법으로 설명 할 수 있습니까? 그래서 나는 (그리고 다른 사람들은 혼란스러워)이 것을 잘 이해할 수 있습니까?


편집하다:

이제 아이가 어떻게 클러스터링에 대해 들었다고 가정 해 봅시다 (예 : 장난감을 클러스터링하는 방법을 알고 있습니다). 차원의 증가는 장난감을 클러스터링하는 작업을 어떻게 더 어렵게 만들까요?

예를 들어, 장난감의 모양과 장난감의 색상 (단색 장난감) 만 고려했지만 이제는 장난감의 크기와 무게도 고려해야합니다. 아이가 비슷한 장난감을 찾기가 더 어려운 이유는 무엇입니까?


편집 2

논의를 위해 나는 "아동이 비슷한 장난감을 찾기가 더 어려워지는 이유"에 의해 명확하게 설명해야한다. 또한 왜 거리 개념이 고차원 공간에서 사라지는가?


4
좋은 질문. : D 당신은 날 너무 스택 교환에 이모티콘을 사용했다 : 그리고 당신은 정말 여기에 모든 통계에 아이를 밖으로 꺼내는거야
Dawny33


6
"아이에게 차원의 저주"? 잠자리에 들기 전에
ttnphns 2016 년

답변:


78

아마도 아이는 쿠키를 먹고 싶을 것입니다. 따라서 다른 색, 다른 모양, 다른 맛, 다른 가격을 가진 쿠키가있는 트럭이 있다고 가정합시다 ...

아이가 하나의 특성, 예를 들어 맛을 선택해야하지만 단맛, 소금, 신맛, 쓴맛 등 네 가지 가능성이 있으므로 아이는 가장 좋아하는 것을 찾기 위해 네 개의 쿠키 만 시도하면됩니다.

아이가 맛과 색상의 조합을 좋아하고 4 가지 색상이있는 경우 (그는 낙관적입니다 :-)), 그는 이미 4x4 다른 유형 중에서 선택해야합니다.

그가 쿠키의 모양을 고려하고 5 개의 다른 모양이 필요한 경우 4x4x5 = 80 쿠키를 시도해야합니다.

우리는 계속할 수는 있지만,이 쿠키를 모두 먹은 후에는 이미 배꼽 통증이있을 수 있습니다 ... 그가 최선의 선택을 할 수 있기 전에 :-) 아랫배 통증 외에도 맛의 차이를 기억하기가 정말 어려울 수 있습니다 각 쿠키의.

보시다시피 (@Almo) 대부분의 (모두?) 물건은 크기가 증가함에 따라 더 복잡해집니다. 이는 성인, 컴퓨터 및 어린이에게도 적용됩니다.


이것이 올바른 개념을 설명한다면 (실제로 잘 모르겠습니다) 아이가 그것을 이해할 수 있다고 확신하기 때문에이 대답을 좋아합니다.
Almo

14
나는 당신의 대답을 좋아하지만 반쯤 있다고 느낍니다. 치수 수가 증가함에 따라 거리가 점점 덜 중요 해지는 방법을 다루는 답변을보고 싶습니다.
TrynnaDoStat

1
@TrynnaDoStat : 글쎄, 질문에 대답했지만 거리를 요구하지 않았습니까? 지금까지 게시 된 답변 중 어느 것도 거리에 대해 이야기하지 않았다고 생각합니까? 왜 나에게만 물어 보면 너무 궁금한가요?

3
당신의 대답은 하나의 내가 제일 =처럼)이기 때문에 @fcoppens
TrynnaDoStat

따라서 더 많은 차원이있는 경우 더 많은 데이터가 필요하므로 불가능할 수도 있습니다.
Anton Andreev

53

치수의 저주에 사용하는 비유는 기하학적 측면에서 조금 더 중요하지만 여전히 아이에게 충분히 유용하기를 바랍니다.

개를 사냥하기가 쉽고 평원 (2 차원)을 돌면 잡을 수 있습니다. 조류를 사냥하는 것은 훨씬 어렵습니다. 이제 새를 움직일 수 있습니다. 유령이 더 높은 차원의 존재 인 경우 ( 평지의 A. Square와 상호 작용하는 구와 유사 ), 그것들을 잡기가 더 어렵습니다. :)


5
아, 이것은 좋은 것입니다! 나는 심지어 1D 방향으로 갔다. .. 아마도 캐터필라가 튜브에서 움직 일까?
그렉

2
좋은 지적은 ... 애벌레가 달린 아주 얇은 나뭇 가지일까요? 그것은 어떻게 든 한 차원에 가깝습니다. 자연스럽게 새들이 그들을 사냥하고, 까마귀가 근처에 있을까?
Greg Greg

1
오! 까마귀가 전술을 배운다면 중력 조작으로는 충분하지 않을 것입니다 (그들은 매우 똑똑합니다!). 하나는 아래에서 접근하고 다른 하나는 위에서 접근 할 때 두 가지로 사냥합니다. 그들은 버그가 초강대국을 사용하는지 알고, 그 까마귀 중 하나를 선호하는 확률을 측정합니다. 흠 .... 그렇다면 중력 조작과 시간 압축이라는 두 가지 초강력 버그는 어떻습니까? 그것은 5 차원에서 버그를 사냥하기가 엄청나게 어려운 것으로 간주되지 않습니까?
그렉

1
주위를 실행 2 개를 잡는 것은 ... (30D)에 4D의 사냥, 20D 10 개, 10 개 제비로 볼 수있다
데니스

1
"잡기"@Greg은, 차원, 그들은 단지 독립적으로 주위를 실행하고 함께 할 수있는 정말 아무것도 없습니다 (일부 독립적으로합니다.)
데니스

19

자, 장난감을 모으는 어린이의 예를 분석해 봅시다.
아이가 장난감을 3 개만 가지고 있다고 상상해보십시오.

  1. 파란 축구 공
  2. 푸른 프리즈 비
  3. 녹색 큐브 (아마도 상상할 수있는 가장 재미있는 장난감이 아닐 수도 있습니다)

장난감을 만드는 방법에 관한 다음과 같은 초기 가설을 봅시다.

  1. 가능한 색상은 빨강, 녹색, 파랑입니다.
  2. 가능한 모양은 다음과 같습니다. 원, 사각형, 삼각형

이제 (num_colors * num_shapes) = 3 * 3 = 9 개의 가능한 클러스터를 가질 수 있습니다.

소년은 다음과 같이 장난감을 묶습니다.

  • C) A)는 파란색 공과 파란색 프리스 베를 포함합니다.
  • CLUSTER B)는 수퍼 퍼니 그린 큐브를 포함합니다

이 2 차원 (색상, 모양) 만 사용하면 비어 있지 않은 2 개의 클러스터가 있습니다. 따라서이 첫 번째 경우 공간의 7/9 ~ 77 %가 비어 있습니다.

이제 아이가 고려해야 할 차원의 수를 늘리십시오. 또한 장난감을 만드는 방법에 대한 다음과 같은 가설을 세웁니다.

  1. 장난감의 크기는 10 센티미터 단위로 몇 센티미터에서 1 미터 사이에서 다를 수 있습니다 : 0-10cm, 11-20cm, ..., 91cm-1m
  2. 장난감의 무게는 0-100g, 101-200g, ..., 901g-1kg의 100 그램 단위로 최대 1 킬로그램까지 비슷한 방식으로 변할 수 있습니다.

지금 장난감을 묶으려면 (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 개의 가능한 클러스터가 있습니다.

소년은 다음과 같이 장난감을 묶습니다.

  • C) 파란색과 무거 우므로 파란색 축구 공이 포함되어 있습니다.
  • C) 파란색과 밝은 색이므로 파란색 freesbe가 포함되어 있습니다.
  • CLUSTER C)는 수퍼 퍼니 그린 큐브를 포함합니다

현재 4 차원 (모양, 색, 크기, 무게)을 사용하면 3 개의 군집 만 비어 있지 않습니다. 따라서이 경우 공간의 897/900 ~ 99.7 %가 비어 있습니다.

이것은 Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ) 에서 찾은 것의 예입니다
.


편집 : 나는 왜 고차원 공간에서 왜 거리가 잘못되는지 아이에게 실제로 설명 할 수 있는지 확실하지 않지만 아이와 그의 장난감에 대한 우리의 예를 계속 진행해 봅시다.

{색상, 모양}의 두 가지 첫 번째 특징 만 고려하면 모든 사람들은 파란 공이 녹색 큐브보다 파란 프리즈와 더 비슷하다는 데 동의합니다.

이제 다른 98 가지 기능 (예 : 크기, 무게, day_of_production_of_the_toy, 재료, 부드러움, day_in_which_the_toy_was_bought_by_daddy, 가격 등)을 추가해 보겠습니다 .

그래서:

  1. 유사성에 대한 특정 비교에서 많은 수의 기능이 관련이 없어서 신호 대 잡음비가 손상 될 수 있습니다.
  2. 높은 차원에서 모든 예제는 "모양"입니다.

저의 말을 잘 들어 보면 "머신 러닝에 대해 알아야 할 몇 가지 유용한 정보"( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ) 가 좋은 강의입니다 . 특히 6 항에이 내용이 나와 있습니다. 추론의 종류.

도움이 되었기를 바랍니다!


나는 당신의 설명을 매우 좋아합니다, 감사합니다. 나는 공간의 희소성이 훨씬 나아 졌다는 것을 이해하지만, 더 많은 치수의 경우 어떤 장난감이 더 유사한 장난감을 찾기가 어려운지 왜 그 부분을 "일러스트"할 수 있습니까? 내가 틀렸다면 나를 고치십시오. 그러나 거리의 개념이 그러한 공간에서 손상되었다는 것을 이해하므로 어떤 장난감이 더 유사한 지 결정하기가 더 어렵습니다. 왜 그런 겁니까?
Marko

10100

@ whuber : 당신이 옳습니다, 너무 단순하게하기 위해 잘못된 단어를 사용했습니다
ndrplz

@whuber : 그러나 차원 종종 "크기"의 척도로 간주됩니다.
kjetil b halvorsen

@Kjetil은 탐험 할 가치가있는 흥미로운 포인트입니다. 그러나 차원이 "크기"라는 의미를 명확히하고 통계적 설정에서 "크기"의 다른 의미와 구별하는 것이 중요하다고 생각하지 않습니까?
whuber

14

나는 차원의 저주에 대해 매우 직관적이고 자세한 설명을 제공하는 다음 링크를 발견했습니다 .

이 기사에서는 소위 '차원의 저주'에 대해 논의하고 분류자를 설계 할 때 이것이 중요한 이유를 설명합니다. 다음 섹션에서는 차원의 저주로 인한 과적 합의 명확한 예를 통해이 개념에 대한 직관적 인 설명을 제공합니다.

간단히 말해서이 기사는 (직관적으로) 더 많은 기능을 추가하면 (즉, 기능 공간의 차원을 높이는 경우) 더 많은 데이터를 수집해야한다는 것을 이해합니다. 실제로 우리는 더 많은 차원을 추가함에 따라 (과적 합을 피하기 위해) 수집해야하는 데이터의 양이 기하 급수적으로 증가합니다.

또한 다음과 같은 멋진 그림이 있습니다.

여기에 이미지 설명을 입력하십시오


+1, 링크는 참으로 좋습니다! 나는 따옴표와 예제 이미지를 편집했지만 추가로 설명 된 내용에 대한 간단한 요약을 제공 할 수 있다면 더 좋을 것입니다.
amoeba 2016 년

1
제안 해 주셔서 감사합니다. 이에 따라 응답을 편집했습니다.
kostas 2016 년

8

차원의 저주는 다른 분야에서 다르지만 관련 사항을 설명하기 때문에 정의상 다소 모호합니다. 다음은 기계 학습의 차원 저주를 보여줍니다.

한 소녀가 열 개의 장난감을 가지고 있는데 그 중 이탤릭체로만 장난감을 좋아한다고 가정 해보십시오.

  • 갈색 곰
  • 파란 차
  • 빨간 기차
  • 노란 굴삭기
  • 녹색 책
  • 회색 봉제 해마
  • 검은 마차
  • 분홍색 공
  • 백서
  • 오렌지 인형

이제 그녀의 아버지는 그녀에게 생일 선물로 새 장난감을주고 싶어하며, 그녀가 그것을 좋아하도록하고 싶다. 그는 그녀가 좋아하는 장난감의 공통점에 대해 매우 열심히 생각하고 마침내 해결책에 도달합니다. 그는 딸에게 모든 색의 직소 퍼즐을 준다. 그녀가 마음에 들지 않으면 그는 이렇게 대답합니다.“왜 마음에 들지 않습니까? 문자 w를 포함합니다 . "

아버지는 차원의 저주 (및 샘플 최적화)에 희생되었습니다. 그는 편지를 고려하여 26 차원 공간에서 움직 였으므로 딸이 좋아하는 장난감을 분리하는 기준을 찾을 가능성이 컸습니다. 이것은 예에서와 같이 단일 문자 기준일 필요는 없지만 다음과 같을 수도 있습니다.

a, np 중 하나 이상을 포함 하지만 u, fs 는 포함하지 않습니다 .

글자가 딸이 좋아하는 장난감을 결정하기위한 좋은 기준인지 알기 위해서는 아버지는 엄청나게 많은 장난감에 대한 딸의 선호도를 알아야합니다 ¹ 또는 뇌를 사용하고 실제로 딸의 딸에게 영향을 줄 수있는 매개 변수 만 고려해야합니다 의견.


226


1
+1 감사합니다. 이것이 정답입니다.
MiniQuark

7
  • 단위 사각형으로 둘러싸인 원을 생각하십시오.
  • 단위 큐브에 포함 된 구를 생각하십시오.
  • n 차원 단위 하이퍼 큐브로 둘러싸인 n 차원 하이퍼 구를 생각해보십시오.

1n

π/4π/6


5

나 : "S로 시작하는 작은 갈색 동물을 생각하고 있습니다. 무엇입니까?"

그녀 : "다람쥐!"

나 : "좋아요. 어려운 갈색 동물을 생각하고 있습니다. 무엇입니까?"

그녀 : "아기 다람쥐?"

나없이"

그녀 : "쥐, 쥐, 들쥐?

나 : "네"

그녀 : "음 ... 실마리를 줘"

나 : "아니요,하지만 더 잘 할게요 : CrossValidated 질문에 대답하겠습니다"

그녀 : [신음 소리]

나 : "질문의 저주는 무엇입니까? 이미 답을 알고 있습니다."

그녀 : "그렇지?"

나 : "그렇습니다. 왜 첫 번째 동물을 두 번째 동물보다 추측하기가 어려웠습니까?"

그녀 : "S로 시작하는 작은 갈색 동물보다 작은 갈색 동물이 더 많기 때문에?"

나 : "맞아. 그리고 그것은 차원의 저주이다. 다시 놀자."

그녀 : "확인"

나 : "무엇을 생각하고 있습니다. 무엇입니까?"

그녀 : "불공평.이 게임은 어려운 길입니다."

나 : "참. 그것이 그들이 저주라고 부르는 이유입니다. 당신은 내가 생각하는 경향이있는 것을 몰라도 잘 할 수 없습니다."


4

상품을 배송하고 싶다고 가정 해 봅시다. 운송 비용이 봉투 / 상자의 부피와 관련되어 있기 때문에 상품을 포장 할 때 가능한 한 적은 공간을 낭비하려고합니다 (즉, 가능한 적은 빈 공간을 남겨 두십시오). 폐기 용기 (봉투, 상자)는 직각이므로 자루 등이 없습니다.

첫 번째 문제 : 펜 ( "라인")을 배송하십시오. 공간을 잃지 않고 상자를 만들 수 있습니다.

두 번째 문제 : CD ( "스피어")를 배송하십시오. 사각형 봉투에 넣어야합니다. 아이가 몇 살인 지에 따라 봉투가 얼마나 비어 있을지 계산할 수 있습니다 (다운로드 만 아니라 CD가 있음을 여전히 알 수 있습니다. ;-)).

세 번째 문제 : 축구를하세요 (축구, 팽창해야합니다!). 상자에 넣어야하며 일부 공간은 비어 있습니다. 이 빈 공간은 CD 예제보다 전체 볼륨의 비율이 높습니다.

이 시점에서이 비유를 사용하는 직관은 멈 춥니 다. 왜냐하면 저는 4 차원을 상상할 수 없기 때문입니다.

편집 : 비 유적 인 추정에 비유가 가장 유용합니다 (모두 경우).이 지점에서 밀도 또는 회귀 함수를 추정하기 위해 관심 지점에 대한 "로컬"관측을 사용합니다. 차원의 저주는 차원이 높을수록 주어진 수의 관측치 (지역성의 개념에 의문을 제기 함) 또는 더 많은 양의 데이터에 대해 훨씬 더 큰 이웃이 필요하다는 것입니다.


알겠습니다. 설명해 주셔서 감사합니다. 기본적으로 전체 공간을 "채우는"것이 더 어렵 기 때문에 훨씬 더 큰 샘플이 필요한 이유는 무엇입니까? 내 질문을 좀 더 구체적으로 만들어야합니다 :) 편집하겠습니다. 다른 부분도 확인하십시오.
Marko

예, 편집 내용보기 – 클러스터링에 대해 생각해야합니다
Christoph Hanck

3
nn

@whuber 여기 저주가 시계열 예에 나오는 곳이 있습니다. 우리의 시계열은 일정량의 (이산 된) 시간에 걸쳐 무작위로 걸으며 각 단계에서 워커가 임의의 (iid ~ uniform (-1, 1)) 양을 움직인다고 가정 해 봅시다. 당신은 한 줄에 비행을 추적하고 있습니다. 이제 당신의 반응 / 시력은 매우 좋으며, 선 주위를 통하지 않고 즉시 눈을 유지하려면 어느 방향 으로든 최대 0.5 단위를 움직여야합니다. 물론 충분히 오래 기다리면 파리가이 양을 뛰어 넘어 잃게됩니다. 그러나, 일정 시간 동안, 얼마나 많은 경로 (계속)
Julien Clancy

당신은 비행을 잃게 할 것인가? 차원의 저주에 따르면 시간이 커질수록 거의 모든 것이 나타납니다. 그리고 당신은 당신이 원하는만큼 유한하게 시력을 만들 수 있습니다 (즉, 어느 방향 으로든 가장 많은 움직임을 감지 할 수 있습니다). 같은 일이 발생합니다.
Julien Clancy

1

내 6 살은 "우주에서이 모든 가스는 어디에서 왔을 까?"와 같은 주요 원인 연구의 구절에 더 가깝습니다 나에게는 없을 것입니다.

n[0,1]n[12,12]n

(12)n2n

이제 방을 데리러 가자 아빠가 일해야 해

PS 클러스터링에 대한 ... 이 고차원 상자에 흩어져있는 포인트에 대해 생각해보십시오. 가 개가 너무 큽니다.2n12


1
예, 이것은 f coppens의 쿠키 답변과 동일하지만 덜 창의적입니다. 그러나 아이들이 아닌 사람들이 이런 식으로 단어를 보는 것을 도울 수 있습니다.
Elvis

0

이것을 보여주는 고전적인 교과서 수학 문제가 있습니다.

하루에 한 달에 한 번씩 100 페니를 벌거나 (옵션 2) 한 달에 1 페니를 매일 두 배로 늘리시겠습니까? 자녀에게이 질문을 할 수 있습니다.

옵션 1을 선택하면,
1 일차에 2 일차에 100 개의 동전을 받고 3 일차에 100 개의 동전을받습니다. 3 일차에 100 개의 동전을받습니다 ... 30 일차에 100 개의 동전을받습니다

nth

총 페니 수는 일 수에 하루 페니 수를 곱하여 구합니다.

i=130100=30100=3000

옵션 2를 선택
하면 1 일차에 2 일차에 1 페니를 받고 3 일차에 2 개의 동전을받습니다. 4 일차에 4 개의 동전을받습니다. 페니

nth2n

i=1302n=(231)1=21474836481=2147483647

탐욕을 가진 사람은 더 큰 숫자를 선택할 것입니다. 간단한 탐욕은 찾기 쉽고 생각이 거의 필요하지 않습니다. 말을하지 않는 동물은 쉽게 탐욕 할 수 있습니다-곤충은 악명 높습니다. 인간은 훨씬 더 많은 능력을 가지고 있습니다.

100 개 대신 1 페니로 시작하면 탐욕이 더 쉬워 지지만, 다항식의 거듭 제곱을 바꾸면 더 복잡해집니다. 복잡성도 훨씬 더 가치가 있습니다.

"저주"에 대하여 "
가장 중요한"물리 관련 수학 연산은 행렬 반전입니다. Maxwell 방정식 (전자기), Navier Stokes 방정식 (유체), Poisson 방정식 (확산 전달) 및 Hooks Law (변형 고체)의 변형이 가장 일반적인 부분 미분 방정식 시스템의 솔루션을 구동합니다. 이러한 각 방정식에는 주변에 대학 과정이 있습니다.

n3

그것이 극복되면 무지개의 끝에 황금 가치의 냄비가 있기 때문에 저주는 존재합니다. 쉬운 일이 아닙니다. 훌륭한 마음이 문제를 적극적으로 참여 시켰습니다.

링크:


1
귀하의 예는 차원의 저주가 아니라 다항식과 지수 성장의 차이를 보여주는 것과 더 관련이있는 것 같습니다.
JM은 통계학자가 아닙니다.

다항식과 지수 성장이 저주입니다. 선형이라면 암호화가 작동하지 않으며 병에서의 융합은 시뮬레이션하기 쉽습니다. 다음은 "저주"(wikipedia 하이퍼 링크)의 열거입니다. 컴퓨터 수학 없이는 기존의 것보다 갑자기 훨씬 더 놀랄 것입니다. en.wikipedia.org/wiki/…
EngrStudent

2008 년에 순서가 2 아래로 떨어지는 매트릭스 반전에서 획기적인 돌파구를 발견 한 것은 도시의 지식이지만, 분류되어 핵무기 등의 시뮬레이션에 사용됩니다.
EngrStudent

1
나는 "핵무기 등의 시뮬레이션에 사용될"때까지 거의 확신했다. ; P 그러나 진지하게, Coppersmith-Winograd는 여전히 가장 최고의 것처럼 보이지만 실제로는 큰 행렬에만 유용하게 사용할 수있는 암시 적 상수가 있습니다.
JM은 통계학자가 아닙니다.

귀하의 답변과 이전 의견과 실질적으로 관련이 있습니다. 결정자를 효율적으로 계산하는 것은 그리 어렵지 않지만 영구 물을 계산하는 것은 다른 문제입니다.
JM은 통계학자가 아닙니다.

0

Fcop는 쿠키와 매우 유사하지만 차원 저주의 샘플링 밀도 측면 만 다루었습니다. 동일한 수의 Fcop 쿠키를 한 줄에 10 개의 상자, 테이블에 10x10 상자, 평면에 10x10x10으로 배포하여 샘플링 량 또는 거리와 유사하게 확장 할 수 있습니다. 그런 다음 아이가 더 많은 상자를 열어야 할 쿠키의 동일한 부분을 먹는 것을 보여줄 수 있습니다.

실제로는 기대에 관한 것이지만 설명하기 위해 "가장 최악의 시나리오"접근 방식을 취하겠습니다.

쿠키가 8 개이고 우리가 절반 즉 4를 먹고 싶다면 최악의 경우 10 개의 상자에서 6 개의 상자 만 열면됩니다. 60 %인데 반 정도입니다. 10x10에서 (최악의 경우에도)-96 (%). 그리고 10x10x10-996 (99,6 %). 그것은 거의 전부입니다!

보관실 비유가 될 수 있으며 방 사이를 걷는 거리는 상자보다 낫습니다.


좋은 확장 :-)
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.