고차원 회귀 : 왜 특별합니까?


16

고차원 회귀 영역에 대한 연구를 읽으려고 노력하고 있습니다. 경우 보다 큰 이며, . 이 용어처럼 보인다 회귀 추정량에 대한 수렴 속도 측면에서 종종 나타납니다.>>로그/

예를 들어, 여기서 식 (17)은 올가미 적합 가 β^

1엑스β^엑스β22=영형(σ로그β1).

일반적으로 이것은 로그n 보다 작아야 함을 의미합니다 .

  1. \ log p / n 의이 비율이 왜 로그/그렇게 두드러 지는가에 대한 직관이 있습니까?
  2. 또한 문헌에서 \ log p \ geq n 일 때 고차원 회귀 문제가 복잡 해지는 것으로 보인다 로그. 왜 그래야만하지?
  3. 이 서로 얼마나 빨리 성장 해야하는지에 대한 문제를 다루는 좋은 참고 자료가 있습니까?

2
1. 로그 항은 (가우시안) 측정 농도에서 나옵니다. 특히, IID 가우스 랜덤 변수가있는 경우 최대 값은 확률이 높은 \ sigma \ sqrt {\ log p} 의 순서입니다 σ로그. 1 요인은 당신이 평균 예측 오차보고있는 사실 온다 - 즉, 그것은 일치 1 다른 쪽을 - 당신이 총 오류에보고하면, 거기를하지 않을 것입니다.
mweylandt

1
2. 본질적으로, 제어해야 할 두 가지 힘이 있습니다. i) 더 많은 데이터를 보유하는 좋은 속성 (따라서 우리는 이 를 원합니다 ); ii) 어려움은 더 많은 (관련성이없는) 특징을 가지고있다 (그래서 우리는 를 작게 만들고 싶다 ). 고전 통계에서, 우리는 일반적으로 고정 하고 을 무한대로 놔 두었습니다.이 체제는 구성에 의해 저 차원 체제에 있기 때문에 고차원 이론에 매우 유용하지 않습니다. 또는 를 무한대로 보내고 고정 상태로 유지할 수 있지만 오류가 발생하여 무한대로 이동합니다. n
mweylandt

1
따라서 우리는 이론이 묵시적 (무한 특징, 유한 데이터)없이 관련성이 높고 (고차원으로 유지됨) 둘 다 무한대로가는 것을 고려해야 합니다. 두 개의 "노브"를 갖는 것은 일반적으로 단일 노브를 갖는 것보다 어렵 기 때문에 일부 대해 을 고정 하고 을 무한대로 (따라서 간접적으로) 보자 . 선택 하면 문제의 동작이 결정됩니다. Q1에 대한 대답으로 인해 추가 기능의 "나쁨"은 로만 증가 하고 추가 데이터의 "양호 함"은 증가합니다 . n,pp=f(n)fnpflogpn
mweylandt

1
따라서 이 일정하게 유지되면 ( 일부 경우 물을 밟습니다. 경우 ( ) 우리 점근 제로 에러를 달성한다. 그리고 ( )이면 오류는 결국 무한대로 진행됩니다. 이 마지막 체제는 때때로 문헌에서 "초고 차원"으로 불린다. (가까운 것은 아니지만) 절망적이지는 않지만 오류를 제어하려면 단순한 최대 가우시안보다 훨씬 더 정교한 기술이 필요합니다. 이러한 복잡한 기술을 사용해야 할 필요성은 사용자가 알고있는 복잡성의 궁극적 인 원인입니다. p = f ( n ) = Θ ( C n ) C log p / n 0 p = o ( C n ) log p / n p = ω ( C n )logp/np=f(n)=Θ(Cn)Clogp/n0p=o(Cn)logp/n=ω()
mweylandt

@mweylandt 감사합니다.이 의견은 정말 유용합니다. 공식 답변으로 바꾸어 주시면 좀 더 일관성있게 읽고 의견을 제시 할 수 있습니까?
Greenparker

답변:


17

(@Greenparker의 요청에 따라 댓글에서 답변으로 이동)

1 부)

항은 (가우시안) 측정 농도에서 나옵니다. 특히,pIID 가우스 랜덤 변수 [F1]가있는 경우 최대 값은σ √ 정도입니다.로그확률이 높은 log pσ로그

요인은 당신이 평균 예측 오차보고있는 사실 온다 - 즉, 그것은 일치하는 N을 - 1 반대편에 - 당신이 총 오류 보았다 경우는 없을 것입니다.11

2 부)

기본적으로 제어해야 할 두 가지 힘이 있습니다.

  • i) 더 많은 데이터를 갖는 좋은 특성 (따라서 우리는 커지기 를 원한다 );
  • ii) 어려움은 더 많은 (관련성이없는) 특징을 가지고있다 (그래서 우리는 를 작게 만들고 싶다 ).

고전적인 통계에서, 우리는 일반적으로 수정 하고하자 n은 무한대로 이동 : 그것은 (점근) 낮은 차원 정권에 있기 때문에이 정권이 고차원 이론 슈퍼 유용하지 않습니다 건설에 의해 .

또는 를 무한대에 놓고 n을 고정 상태로 유지할 수는 있지만 문제가 본질적으로 불가능 해지면 오류가 발생합니다. 문제에 따라 오류가 무한대로 진행되거나 자연 상한에서 멈출 수 있습니다 ( 예 : 100 % 오 분류 오류).

이 두 경우 모두 약간 쓸모가 없기 때문에 우리는 모두 무한대로가는 것을 고려 하여 우리의 이론은 묵시적 ​​(무한 특징, 유한 데이터) 없이도 관련성이 있습니다 (고차원에 머무름).,

두 개의 "노브"를 갖는 것은 단일 노브를 갖는 것보다 일반적으로 어렵 기 때문에 일부 고정 f에 대해 를 고정 하고 n 을 무한대 로 간다 (따라서 p 는 간접적으로 무한대로 간다). [F2] f 의 선택 문제의 행동을 결정합니다. 1 부에 대한 대답으로 인해 추가 기능의 "나쁜 점"은 log p 으로 만 증가 하고 추가 데이터 의 "좋은 점"은 n으로 증가합니다 .=에프()에프에프로그

  • 만약 은 일정하게 유지되며 (일부C의경우p=f(n)=Θ(Cn)), 물을 밟고 문제는 세척입니다 (오류는 그대로 유지됨).로그=에프()=Θ()
  • 만약 (p=o(Cn)) 우리는 무제로 0 오류를 달성한다;로그0=영형()
  • 그리고 만약 (p=ω(Cn)), 오류는 결국 무한대로 진행됩니다.로그=ω()

이 마지막 체제는 때때로 문헌에서 "초고 차원"으로 불린다. "초고 차원"이라는 용어는 내가 아는 한 엄격한 정의를 갖지는 않지만 비공식적으로는 "올가미와 유사한 추정기를 깨는 체제"입니다.

상당히 이상적인 조건에서 소규모 시뮬레이션 연구를 통해이를 입증 할 수 있습니다. 여기서 우리 는 [BRT09]에서 의 최적 선택에 대한 이론적 지침을 취하고 λ = 3을 선택합니다. λ .λ=로그()/

먼저 경우를 고려하십시오 . 이것은 위에서 설명한 '잡기 쉬운'고차원 체제에 있으며 이론에 따르면 예측 오류는 0으로 수렴합니다.=에프()=

고차원 무증상

재현 할 코드 :

library(glmnet)
library(ggplot2)

# Standard High-Dimensional Asymptotics: log(p) / n -> 0

N <- c(50, 100, 200, 400, 600, 800, 1000, 1100, 1200, 1300)
P <- 3 * N

ERROR_HD <- data.frame()

for(ix in seq_along(N)){
  n <- N[ix]
  p <- P[ix]

  PMSE <- replicate(20, {
    X <- matrix(rnorm(n * p), ncol=p)
    beta <- rep(0, p)
    beta[1:10] <- runif(10, 2, 3)
    y <- X %*% beta + rnorm(n)

    g <- glmnet(X, y)

    ## Cf. Theorem 7.2 of Bickel et al. AOS 37(4), p.1705-1732, 2009. 
    ## lambda ~ 2*\sqrt{2} * \sqrt{\log(p)/n} 
    ## is good scaling for controlling prediction error of the lasso
    err <- X %*% beta - predict(g, newx=X, s=3 * sqrt(log(p)/n))
    mean(err^2)
  })

  ERROR_HD <- rbind(ERROR_HD, data.frame(PMSE=PMSE, n=n, p=p))
}

ggplot(ERROR_HD, aes(x=n, y=PMSE)) + geom_point() + theme_bw() + 
xlab("Number of Samples (n)") + 
ylab("Mean Prediction Error (at observed design points)") + 
ggtitle("Prediction Error Converging to 0 under High-Dim Asymptotics") + 
scale_x_continuous(sec.axis = sec_axis(~ 3 * ., name="Number of Features (p)")) + 
scale_y_log10()

log p 인 경우와 비교할 수 있습니다. 은 거의 일정하게 유지됩니다. 저는 이것을 "테두리 라인"초고 차원 체제라고 부르지 만 표준 용어는 아닙니다.로그

P <- 10 + ceiling(exp(N/120))

여기서 우리는 예측 에러 (위와 같은 디자인을 사용)가 0으로 계속되는 대신 레벨이 낮아지는 것을 볼 수 있습니다.

경계선 초고 차원 비대칭

이자형이자형2이자형2

P <- 10 + ceiling(exp(N^(1.03)/120))

초고 차원 무증상

엑스이자형1.5

위에서 말한 것과 그것이 어떻게 나타나는지에도 불구하고 초고 차원 체제는 실제로 완전히 희망이 없지만 (가까운 것은 아니지만) 오류를 제어하기 위해 단순한 최대 가우시안 랜덤 변수보다 훨씬 더 정교한 기술이 필요합니다. 이러한 복잡한 기술을 사용해야 할 필요성은 사용자가 알고있는 복잡성의 궁극적 인 원인입니다.

,=에프()

3 부)

로그

,,

편안하고 연구 문헌을 탐구하고자한다면 Jianqing Fan과 Jinchi Lv의 작품을보고 초고 차원 문제에 대한 기본 작업을 대부분 수행했습니다. ( "스크리닝"은 검색하기에 좋은 용어입니다.)

[F1] 사실, 임의의 가우시안 랜덤 변수이지만, 이것은이 논의에 그다지 추가되지 않습니다.

에스에스=()

[F3] T. Hastie, R. Tibshirani 및 M. Wainwright. 희소성 통계 학습. 통계 및 응용 확률에 관한 논문 143. CRC Press, 2015. https://web.stanford.edu/~hastie/StatLearnSparsity_files/SLS.pdf 에서 무료로 다운로드 가능

[BRT] Peter J. Bickel, Ya'acov Ritov 및 Alexandre B. Tsybakov. "올가미와 Dantzig 선택기의 동시 분석." 통계 연대기 37 (4), p. 1705-1732, 2009. http://dx.doi.org/10.1214/08-AOS620


1
로그/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.