30 개의 독립 변수 세트에서 연속 종속 변수에 대한 예측 변수를 찾고 싶습니다. R 의 glmnet 패키지에 구현 된대로 Lasso 회귀를 사용하고 있습니다. 더미 코드는 다음과 같습니다.
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
내 질문은 출력을 해석하는 방법입니다.
최종 출력에서 0과 다른 계수를 나타내는 모든 예측 변수가 종속 변수와 관련이 있다고 말하는 것이 맞습니까?
저널 출판의 맥락에서 충분한 보고서가 될 것입니까? 아니면 계수의 중요성에 대한 검정 통계량을 제공 할 것으로 예상됩니까? (상황은 인간 유전학이다)
유의성을 주장하기 위해 p- 값 또는 기타 검정 통계량을 계산하는 것이 합리적입니까? 어떻게 가능할까요? 절차는 R로 구현 되었습니까?
모든 예측 변수에 대한 간단한 회귀 그림 (선형 적합도로 그려진 데이터 점)이이 데이터를 시각화하는 데 적합한 방법입니까?
어쩌면 누군가가 실제 데이터의 맥락에서 올가미를 사용하는 방법과 저널에 이것을보고하는 방법을 보여주는 출판 기사의 쉬운 예를 제공 할 수 있습니까?
cv
예측 단계에도 사용할 수 없습니까?