«high-dimensional» 태그된 질문

데이터에 대한 많은 기능 또는 차원 (변수)과 관련됩니다. (데이터 포인트 수가 많은 경우 [large-data] 태그를 사용하고 데이터보다 변수 수가 많은 경우 [underdetermined] 태그를 사용합니다.)

8
유클리드 거리가 높은 차원에서 좋은 지표가 아닌 이유는 무엇입니까?
나는 '유클리드 거리는 높은 차원에서 좋은 거리가 아닙니다'라고 읽었습니다. 이 진술은 차원의 저주와 관련이 있다고 생각하지만 정확히 무엇입니까? 게다가 '높은 차원'이란 무엇입니까? 100 가지 기능을 갖춘 유클리드 거리를 사용하여 계층 적 클러스터링을 적용했습니다. 이 측정 항목을 사용하는 것이 '안전'한 기능은 몇 개입니까?

11
어린이에게“차원의 저주”를 설명하십시오
나는 차원의 저주에 대해 여러 번 들었지만 어쨌든 여전히 아이디어를 파악할 수 없습니다. 누구든지 이것을 어린이에게 설명하는 것처럼 가장 직관적 인 방법으로 설명 할 수 있습니까? 그래서 나는 (그리고 다른 사람들은 혼란스러워)이 것을 잘 이해할 수 있습니까? 편집하다: 이제 아이가 어떻게 클러스터링에 대해 들었다고 가정 해 봅시다 (예 : 장난감을 …

7
수많은 기능 (> 10K)을위한 최고의 PCA 알고리즘?
이전에 StackOverflow에서 이것을 요청했지만 SO에 대한 답변을 얻지 못한 경우 여기에서 더 적절할 것 같습니다. 통계와 프로그래밍의 교차점에 있습니다. PCA (Principal Component Analysis)를 수행하려면 코드를 작성해야합니다. 나는 잘 알려진 알고리즘을 탐색 하고이 알고리즘을 구현 했는데 NIPALS 알고리즘과 동일합니다. 처음 2-3 개의 주요 구성 요소를 찾는 데 효과적이지만 수백에서 수천 번 …

3
> 50K 변수를 사용하여 올가미 또는 능선 회귀에서 수축 매개 변수를 추정하는 방법은 무엇입니까?
변수가 50,000 개 이상인 모델에 올가미 또는 능선 회귀를 사용하고 싶습니다. R의 소프트웨어 패키지를 사용하고 싶습니다. 수축 매개 변수 ( )를 어떻게 추정 할 수 있습니까?λλ\lambda 편집 : 여기에 내가 지적한 요점이있다 : set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, …

3
t-SNE를 통해 시각화를위한 차원 축소가 "닫힌"문제로 간주되어야합니까?
차원 축소를위한 sne티티t 알고리즘에 대해 많이 읽었습니다 . MNIST와 같은 "클래식"데이터 세트의 성능에 깊은 인상을 받았습니다. MNIST는 숫자를 명확하게 구분합니다 ( 원본 기사 참조 ). 또한 훈련하는 신경망에서 배운 기능을 시각화하는 데 사용했으며 결과에 매우 만족했습니다. 그래서 내가 이해하는 것처럼 : -sne은 대부분의 데이터 세트에서 좋은 결과를 얻었 으며 Barnes-Hut …

1
LASSO가 높은 차원에서 완벽한 예측 변수 쌍을 찾지 못하는 이유는 무엇입니까?
완벽한 예측 변수 쌍을 찾을 수 있는지 테스트하기 위해 R에서 LASSO 회귀로 작은 실험을 진행하고 있습니다. 쌍은 다음과 같이 정의됩니다 : f1 + f2 = 결과 결과는 '나이'라고하는 미리 정해진 벡터입니다. F1 및 f2는 연령 벡터의 절반을 취하고 나머지 값을 0으로 설정하여 작성합니다 (예 : age = [1,2,3,4,5,6], f1 = …

1
t-SNE를 적용하기 전에 데이터를 중앙에 맞추고 스케일링해야합니까?
내 데이터의 일부 기능은 큰 값을 갖는 반면 다른 기능은 훨씬 작은 값을 갖습니다. t-SNE를 적용하기 전에 더 큰 값을 향한 편향을 방지하기 위해 데이터를 중앙에 + 스케일해야합니까? 기본 유클리드 거리 측정법으로 Python의 sklearn.manifold.TSNE 구현을 사용합니다.

4
“차원의 저주”가 실제 데이터에 실제로 존재합니까?
나는 "차원의 저주"가 무엇인지 이해하고 높은 차원의 최적화 문제를 수행했으며 지수 가능성의 도전을 알고 있습니다. 그러나 "차원의 저주"가 대부분의 실제 데이터에 존재하는지 의심합니다. 이미지 나 비디오를 잠시 남겨두고 고객 인구 통계 및 구매 행동 데이터와 같은 데이터에 대해 생각하고 있습니다. 수천 개의 지형지 물로 데이터를 수집 할 수 있지만 지형지 …

1
고차원 회귀 : 왜 특별합니까?
고차원 회귀 영역에 대한 연구를 읽으려고 노력하고 있습니다. 경우 보다 큰 이며, . 이 용어처럼 보인다 회귀 추정량에 대한 수렴 속도 측면에서 종종 나타납니다.피피p엔엔nP > > N피>>엔p >> n로그p / n로그⁡피/엔\log p/n 예를 들어, 여기서 식 (17)은 올가미 적합 가 β^β^\hat{\beta}1엔∥ Xβ^− Xβ∥22= O피( σ로그피엔−−−−−√∥ β∥1).1엔”엑스β^−엑스β”22=영형피(σ로그⁡피엔”β”1). \dfrac{1}{n}\|X\hat{\beta} - X \beta\|_2^2 …

1
차원 저주가 일부 모델보다 다른 모델에 영향을 줍니까?
치수 저주에 대해 읽은 장소는 주로 kNN 및 선형 모델과 관련하여 설명합니다. 나는 100k 데이터 포인트가 거의없는 데이터 세트의 수천 가지 기능을 사용하여 Kaggle에서 최고 순위를 정기적으로 봅니다. 그들은 주로 Boosted tree와 NN을 사용합니다. 많은 기능이 너무 높아 보이며 차원 저주의 영향을받는다고 생각합니다. 그러나 이러한 모델이 경쟁에서 최고가 되었기 때문에 …



2
3 차원의 다중 선형 회귀 분석이 가장 적합한 평면이거나 가장 적합한 선입니까?
우리의 교수진은 다중 선형 회귀의 수학이나 기하학적 표현에 들어 가지 않으며 약간 혼란 스럽습니다. 한편으로는 더 높은 차원에서도 여전히 다중 선형 회귀 라고 합니다. 다른 한편으로, 예를 들어 있고 및 대해 원하는 값을 꽂을 수 있다면 가능한 해결책을 얻을 수 없습니다. 라인이 아닌?X1X2와이^= b0+ b1엑스1+ b2엑스2Y^=b0+b1X1+b2X2\hat{Y} = b_0 + b_1 …

4
차원의 저주 : kNN 분류기
Kevin Murphy의 저서 : Machine Learning-A Probabilistic Perspective를 읽고 있습니다. 첫 번째 장에서 저자는 차원의 저주를 설명하고 있으며 이해하지 못하는 부분이 있습니다. 예를 들어 저자는 다음과 같이 말합니다. 입력이 D 차원 단위 큐브를 따라 균일하게 분포되어 있다고 가정하십시오. 원하는 분수를 포함 할 때까지 x 주위에 하이퍼 큐브를 성장시켜 클래스 레이블의 …

1
Beyer et al.의 상대 대비 정리입니까? 논문 :“고차원 공간에서 거리 측정법의 놀라운 행동”에 오해의 소지가 있습니까?
이것은 차원의 저주를 언급 할 때 자주 인용되며 (상대 대비라고하는 오른쪽 공식) 임디→ ∞var ( | | X디| |케이이자형[ | | 엑스디| |케이]) =0,다음:Dmaxk디−Dmin케이디디min케이디→ 0limd→∞var(||엑스디||케이이자형[||엑스디||케이])=0,그때:디최대디케이−디분디케이디분디케이→0 \lim_{d\rightarrow \infty} \text{var} \left(\frac{||X_d||_k}{E[||X_d||_k]} \right) = 0, \text{then}: \frac{D_{\max^{k}_{d}} - D_{\min^{k}_{d}}}{D_{\min^{k}_{d}}} \rightarrow 0 정리 결과는 주어진 쿼리 지점까지의 최대 거리와 최소 거리의 차이가 고차원 공간에서 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.