(@Greenparker의 요청에 따라 댓글에서 답변으로 이동)
1 부)
항은 (가우시안) 측정 농도에서 나옵니다. 특히,pIID 가우스 랜덤 변수 [F1]가있는 경우 최대 값은σ √ 정도입니다.로그피−−−−√피확률이 높은 log pσ로그피−−−−√
요인은 당신이 평균 예측 오차보고있는 사실 온다 - 즉, 그것은 일치하는 N을 - 1 반대편에 - 당신이 총 오류 보았다 경우는 없을 것입니다.엔− 1엔− 1
2 부)
기본적으로 제어해야 할 두 가지 힘이 있습니다.
- i) 더 많은 데이터를 갖는 좋은 특성 (따라서 우리는 이 커지기 를 원한다 );엔
- ii) 어려움은 더 많은 (관련성이없는) 특징을 가지고있다 (그래서 우리는 를 작게 만들고 싶다 ).피
고전적인 통계에서, 우리는 일반적으로 수정 하고하자 n은 무한대로 이동 : 그것은 (점근) 낮은 차원 정권에 있기 때문에이 정권이 고차원 이론 슈퍼 유용하지 않습니다 건설에 의해 .피엔
또는 를 무한대에 놓고 n을 고정 상태로 유지할 수는 있지만 문제가 본질적으로 불가능 해지면 오류가 발생합니다. 문제에 따라 오류가 무한대로 진행되거나 자연 상한에서 멈출 수 있습니다 ( 예 : 100 % 오 분류 오류).피엔
이 두 경우 모두 약간 쓸모가 없기 때문에 우리는 모두 무한대로가는 것을 고려 하여 우리의 이론은 묵시적 (무한 특징, 유한 데이터) 없이도 관련성이 있습니다 (고차원에 머무름).n , p
두 개의 "노브"를 갖는 것은 단일 노브를 갖는 것보다 일반적으로 어렵 기 때문에 일부 고정 f에 대해 를 고정 하고 n 을 무한대 로 간다 (따라서 p 는 간접적으로 무한대로 간다). [F2] f 의 선택 문제의 행동을 결정합니다. 1 부에 대한 대답으로 인해 추가 기능의 "나쁜 점"은 log p 으로 만 증가 하고 추가 데이터 의 "좋은 점"은 n으로 증가합니다 .p = f( n )에프엔피에프로그피엔
- 만약 은 일정하게 유지되며 (일부C의경우p=f(n)=Θ(Cn)), 물을 밟고 문제는 세척입니다 (오류는 그대로 유지됨).로그피엔p = f( n ) = Θ ( C엔)씨
- 만약 (p=o(Cn)) 우리는 무제로 0 오류를 달성한다;로그피엔→ 0p = o ( C엔)
- 그리고 만약 (p=ω(Cn)), 오류는 결국 무한대로 진행됩니다.로그피엔→ ∞p = ω ( C엔)
이 마지막 체제는 때때로 문헌에서 "초고 차원"으로 불린다. "초고 차원"이라는 용어는 내가 아는 한 엄격한 정의를 갖지는 않지만 비공식적으로는 "올가미와 유사한 추정기를 깨는 체제"입니다.
상당히 이상적인 조건에서 소규모 시뮬레이션 연구를 통해이를 입증 할 수 있습니다. 여기서 우리 는 [BRT09]에서 의 최적 선택에 대한 이론적 지침을 취하고 λ = 3을 선택합니다. √λ .λ = 3 로그( p ) / n−−−−−−−√
먼저 경우를 고려하십시오 . 이것은 위에서 설명한 '잡기 쉬운'고차원 체제에 있으며 이론에 따르면 예측 오류는 0으로 수렴합니다.p = f( N은 ) = 3 , N을
재현 할 코드 :
library(glmnet)
library(ggplot2)
# Standard High-Dimensional Asymptotics: log(p) / n -> 0
N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N
ERROR_HD <- data.frame()
for(ix in seq_along(N)){
n <- N[ix]
p <- P[ix]
PMSE <- replicate(20, {
X <- matrix(rnorm(n * p), ncol=p)
beta <- rep(0, p)
beta[1:10] <- runif(10, 2, 3)
y <- X %*% beta + rnorm(n)
g <- glmnet(X, y)
## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009.
## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n}
## is good scaling for controlling prediction error of the lasso
err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
mean(err^2)
})
ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}
ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() +
xlab("Number of Samples (n)") +
ylab("Mean Prediction Error (at observed design points)") +
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") +
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) +
scale_y_log10()
log p 인 경우와 비교할 수 있습니다. 은 거의 일정하게 유지됩니다. 저는 이것을 "테두리 라인"초고 차원 체제라고 부르지 만 표준 용어는 아닙니다.로그피엔
P <- 10 + ceiling(exp(N/120))
여기서 우리는 예측 에러 (위와 같은 디자인을 사용)가 0으로 계속되는 대신 레벨이 낮아지는 것을 볼 수 있습니다.
피이자형엔이자형엔2이자형엔2
P <- 10 + ceiling(exp(N^(1.03)/120))
엑스이자형엔1.5
위에서 말한 것과 그것이 어떻게 나타나는지에도 불구하고 초고 차원 체제는 실제로 완전히 희망이 없지만 (가까운 것은 아니지만) 오류를 제어하기 위해 단순한 최대 가우시안 랜덤 변수보다 훨씬 더 정교한 기술이 필요합니다. 이러한 복잡한 기술을 사용해야 할 필요성은 사용자가 알고있는 복잡성의 궁극적 인 원인입니다.
p , np = f( n )
3 부)
로그피엔
n , pn , p
편안하고 연구 문헌을 탐구하고자한다면 Jianqing Fan과 Jinchi Lv의 작품을보고 초고 차원 문제에 대한 기본 작업을 대부분 수행했습니다. ( "스크리닝"은 검색하기에 좋은 용어입니다.)
[F1] 사실, 임의의 가우시안 랜덤 변수이지만, 이것은이 논의에 그다지 추가되지 않습니다.
에스엔s = g( n )
[F3] T. Hastie, R. Tibshirani 및 M. Wainwright. 희소성 통계 학습. 통계 및 응용 확률에 관한 논문 143. CRC Press, 2015. https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf 에서 무료로 다운로드 가능
[BRT] Peter J. Bickel, Ya'acov Ritov 및 Alexandre B. Tsybakov. "올가미와 Dantzig 선택기의 동시 분석." 통계 연대기 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620