나는 임의의 숲에서 근접이라는 용어를 발견했습니다. 그러나 나는 임의의 숲에서 그것이 무엇을하는지 이해할 수 없었습니다. 분류 목적에 어떻게 도움이됩니까?
나는 임의의 숲에서 근접이라는 용어를 발견했습니다. 그러나 나는 임의의 숲에서 그것이 무엇을하는지 이해할 수 없었습니다. 분류 목적에 어떻게 도움이됩니까?
답변:
"근접성"이라는 용어는 사례 쌍 사이의 "근접성"또는 "근접성"을 의미합니다.
각 사례 / 관찰 / 샘플 포인트 쌍에 대한 근접성이 계산됩니다. 두 케이스가 하나의 트리를 통해 동일한 터미널 노드를 점유하면 근접도가 1 씩 증가합니다. 모든 나무가 끝날 때 근접도는 나무 수로 나눠서 정규화됩니다. 근접성은 누락 된 데이터를 대체하고, 이상 값을 찾고, 데이터의 저 차원 뷰를 조명하는 데 사용됩니다.
근접
근접성은 원래 NxN 매트릭스를 형성했다. 나무가 자란 후에는 훈련과 OBB의 모든 데이터를 나무 아래에 놓습니다. k와 n이 동일한 터미널 노드에있는 경우 근접성을 1만큼 증가시킵니다. 결국, 나무 수로 나누어 근접성을 정규화하십시오.
사용자는 대용량 데이터 세트를 사용하면 NxN 매트릭스를 빠른 메모리에 넣을 수 없었습니다. 수정은 필요한 메모리 크기를 NxT로 줄였습니다. 여기서 T는 포리스트의 트리 수입니다. 계산 집약적 인 스케일링과 반복적 인 결 측값 대체를 가속화하기 위해 사용자는 각 경우에 nrnn 가장 큰 근접성을 유지하는 옵션이 제공됩니다.
테스트 세트가 존재하는 경우, 트레이닝 세트의 각 케이스와 함께 테스트 세트 내의 각 케이스의 근접성도 계산 될 수있다. 추가 컴퓨팅의 양은 적당합니다.
인용 : https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm
통계 학습의 요소 (Elements of Statistical Learning)의 저자는 "임의의 숲에 대한 근접도는 데이터에 관계없이 매우 유사하게 보이며, 유틸리티에 대한 의심을 불러 일으키고 있습니다. "분류 성능이 향상되었습니다." (p 595)
그러나이 저자들은 랜덤 포레스트가 누락 된 데이터를 너무 많이 다루는 방법에 대해서는 언급하지 않았다고 생각합니다. 아마도 저자는 RF의 이러한 측면을 많이 강조하지 않았으며, 이는이 책이 엄청나고 많은 머신 러닝 주제 / 기술 에 대한 많은 정보를 가지고 있다는 것을 이해하는 것이 합리적 입니다. 그러나 플롯을 갖는 것이 RF 및 데이터 세트에 대해 유사한 모양을 갖는 것은 일반적으로 RF에 대해 부정적인 것을 의미한다고 생각하지 않습니다. 예를 들어 선형 회귀는 기본적으로 항상 동일하게 보이지만, 선에 가까운 점과 선형 회귀의 관점에서 특이점이있는 것을 아는 것이 좋습니다. 그래서 ... 근접도의 유용성에 대한 그들의 의견은 나에게 이해가되지 않습니다.