지금까지 고차원 데이터 세트를 사용하여 불이익을받은 다변량 분석에서 이해 한 내용을 요약하려고하지만 소프트 임계 값 대 Lasso (또는 ) 불이익에 대한 적절한 정의를 얻는 데 어려움을 겪고 있습니다.
보다 정확하게는, 희소 한 PLS 회귀 분석을 사용하여 게놈 데이터 ( 단일 뉴클레오티드 다형성 , 우리는 수치 변수로 간주되는 {0,1,2} 범위의 작은 대립 유전자의 빈도를 고려하는)를 포함하는 2- 블록 데이터 구조를 분석 했습니다. 연속 표현형 (개성 특성 또는 뇌 비대칭을 정량화하는 점수, 연속 변수로 취급 됨). 아이디어는 가장 영향력있는 예측 변수 (여기서는 DNA 서열의 유전자 변이)를 분리하여 개체 간 표현형 변이를 설명하는 것이 었습니다.
처음 에는 불이익을받은 PLS 회귀와 정규화 된 CCA 를 특징으로 하는 mixOmics R 패키지 (이전 integrOmics
)를 사용했습니다 . R 코드를 살펴보면 , 번째 성분, (알고리즘 )에서 가장 높은 로딩 (절대 값)을 갖는 상위 변수를 선택하여 예측 변수의 "스파 스"가 단순히 유도됨을 발견했습니다. 구성 요소 에 대한 반복 및 계산 변수 로딩으로 , 각 반복에서 예측 변수 블록을 수축시킵니다 ( 스파 스 PLS : Omics 데이터 통합시 변수 선택 참조 ). 반대로 S. Keleş가 공동 작성한 spls 패키지 (참조동시 차원 축소 및 변수 선택 을위한 스파 스 부분 최소 제곱 회귀 ( 이러한 저자가 수행 한 접근 방식에 대한보다 공식적인 설명을 위해)는 형벌에 대한 벌점을 구현 합니다.
소프트 임계 값에 따른 반복적 특징 선택과 정규화 사이에 엄격한 "희망"이 있는지는 분명하지 않습니다 . 그래서 내 질문은 : 둘 사이에 수학적 연결이 있습니까?
참고 문헌
- Chun, H. and Kele, S. (2010), 동시 치수 축소 및 변수 선택을위한 스파 스 부분 최소 제곱 . 왕립 통계 학회지 : 시리즈 B , 72 , 3–25.
- Le Cao, K.-A., Rossouw, D., Robert-Granie, C. 및 Besse, P. (2008), Omics 데이터 통합시 변수 선택을위한 스파 스 PLS . 유전학 및 분자 생물학의 통계적 응용 , 7 , 제 35 조.