자, 장난감을 모으는 어린이의 예를 분석해 봅시다.
아이가 장난감을 3 개만 가지고 있다고 상상해보십시오.
- 파란 축구 공
- 푸른 프리즈 비
- 녹색 큐브 (아마도 상상할 수있는 가장 재미있는 장난감이 아닐 수도 있습니다)
장난감을 만드는 방법에 관한 다음과 같은 초기 가설을 봅시다.
- 가능한 색상은 빨강, 녹색, 파랑입니다.
- 가능한 모양은 다음과 같습니다. 원, 사각형, 삼각형
이제 (num_colors * num_shapes) = 3 * 3 = 9 개의 가능한 클러스터를 가질 수 있습니다.
소년은 다음과 같이 장난감을 묶습니다.
- C) A)는 파란색 공과 파란색 프리스 베를 포함합니다.
- CLUSTER B)는 수퍼 퍼니 그린 큐브를 포함합니다
이 2 차원 (색상, 모양) 만 사용하면 비어 있지 않은 2 개의 클러스터가 있습니다. 따라서이 첫 번째 경우 공간의 7/9 ~ 77 %가 비어 있습니다.
이제 아이가 고려해야 할 차원의 수를 늘리십시오. 또한 장난감을 만드는 방법에 대한 다음과 같은 가설을 세웁니다.
- 장난감의 크기는 10 센티미터 단위로 몇 센티미터에서 1 미터 사이에서 다를 수 있습니다 : 0-10cm, 11-20cm, ..., 91cm-1m
- 장난감의 무게는 0-100g, 101-200g, ..., 901g-1kg의 100 그램 단위로 최대 1 킬로그램까지 비슷한 방식으로 변할 수 있습니다.
지금 장난감을 묶으려면 (num_colors * num_shapes * num_sizes * num_weights) = 3 * 3 * 10 * 10 = 900 개의 가능한 클러스터가 있습니다.
소년은 다음과 같이 장난감을 묶습니다.
- C) 파란색과 무거 우므로 파란색 축구 공이 포함되어 있습니다.
- C) 파란색과 밝은 색이므로 파란색 freesbe가 포함되어 있습니다.
- CLUSTER C)는 수퍼 퍼니 그린 큐브를 포함합니다
현재 4 차원 (모양, 색, 크기, 무게)을 사용하면 3 개의 군집 만 비어 있지 않습니다. 따라서이 경우 공간의 897/900 ~ 99.7 %가 비어 있습니다.
이것은 Wikipedia ( https://en.wikipedia.org/wiki/Curse_of_dimensionality ) 에서 찾은 것의 예입니다
.
편집 : 나는 왜 고차원 공간에서 왜 거리가 잘못되는지 아이에게 실제로 설명 할 수 있는지 확실하지 않지만 아이와 그의 장난감에 대한 우리의 예를 계속 진행해 봅시다.
{색상, 모양}의 두 가지 첫 번째 특징 만 고려하면 모든 사람들은 파란 공이 녹색 큐브보다 파란 프리즈와 더 비슷하다는 데 동의합니다.
이제 다른 98 가지 기능 (예 : 크기, 무게, day_of_production_of_the_toy, 재료, 부드러움, day_in_which_the_toy_was_bought_by_daddy, 가격 등)을 추가해 보겠습니다 .
그래서:
- 유사성에 대한 특정 비교에서 많은 수의 기능이 관련이 없어서 신호 대 잡음비가 손상 될 수 있습니다.
- 높은 차원에서 모든 예제는 "모양"입니다.
저의 말을 잘 들어 보면 "머신 러닝에 대해 알아야 할 몇 가지 유용한 정보"( http://homes.cs.washington.edu/~pedrod/papers/cacm12.pdf ) 가 좋은 강의입니다 . 특히 6 항에이 내용이 나와 있습니다. 추론의 종류.
도움이 되었기를 바랍니다!