22

소개 :

고전적인 "큰 p, 작은 n 문제"의 데이터 집합이 있습니다. 사용 가능한 샘플 수는 n = 150이고 가능한 예측 변수 수는 p = 400입니다. 결과는 연속 변수입니다.

가장 중요한 "설명자", 즉 결과를 설명하고 이론을 세우는 데 가장 적합한 후보자를 찾고 싶습니다.

이 주제에 대한 연구 후 LASSO와 Elastic Net이 일반적으로 큰 p, 작은 n의 경우에 사용된다는 것을 알았습니다. 내 예측 변수 중 일부는 서로 밀접하게 관련되어 있으며 중요도 평가에서 그룹화를 유지하고 싶습니다. Elastic Net을 . 회귀 계수의 절대 값을 중요도의 척도로 사용할 수 있다고 가정합니다 (잘못되면 수정하십시오. 데이터 세트가 표준화되었습니다).

문제:

샘플 수가 적을 때 어떻게 안정적인 모델을 얻을 수 있습니까?

현재 접근 방식은 평균 MSE 점수가 10 배인 교차 검증으로 데이터 세트의 90 %에 대한 그리드 검색에서 최상의 튜닝 매개 변수 (람다 및 알파)를 찾는 것입니다. 그런 다음 전체 90 %의 데이터 세트에서 최상의 튜닝 매개 변수로 모델을 학습시킵니다. 데이터 세트의 10 % (15 개 샘플 만 고려)에서 R 제곱을 사용하여 모델을 평가할 수 있습니다.

이 절차를 반복적으로 실행하면서 R 제곱 평가에서 큰 차이가 있음을 발견했습니다. 또한 0이 아닌 예측 변수의 수와 계수가 다릅니다.

예측 변수의 중요성을보다 안정적으로 평가하고 최종 모델 성능을보다 안정적으로 평가하려면 어떻게해야합니까?

절차를 반복하여 여러 모델을 만든 다음 평균 회귀 계수를 사용할 수 있습니까? 또는 모형에서 예측 변수의 발생 횟수를 중요도 점수로 사용해야합니까?

현재, 나는 0-50이 아닌 예측 변수를 얻습니다. 더 나은 안정성을 위해 여러 예측 변수를 더 세게 처벌해야합니까?


1
정규화 된 회귀로는 충분하지 않을 수 있습니까? 기계 학습 접근법을 사용해 보셨습니까?

연속 또는 순서 종속 변수에 적합한 ML 접근법은 무엇입니까?
dimi

2
랜덤 포레스트, SVR ... 기능 선택을 위해 ACE 또는 Boruta와 같은 모든 관련 방법 (보다 안정적이어야 함)을 시도 할 수 있습니다.

답변:


11

" 스파 스 알고리즘은 안정적이지 않다 : 점심없는 정리 정리 "

나는 당신이 지적한대로 제목이 많이 말한다고 생각합니다.

[...] 희소 알고리즘은 고유하지 않은 최적의 솔루션을 가질 수 있으므로 잘못 배치됩니다.

무작위 올가미Peter Buhlmann대화를 확인하십시오 .

최신 정보:

Meinshausen과 Buhlmann이 "안정성 선택"이라는 논문보다이 논문을 따르기가 더 쉽다는 것을 알았습니다.

" 랜덤 올가미 (Random Lasso) "에서, 저자는 큰 , 작은 n 문제 에 대한 올가미의 두 가지 중요한 단점 , 즉pn

  1. 여러 개의 상관 변수가있는 경우 올가미는 하나 또는 몇 개만 선택하므로 불안정한 결과를 초래합니다.
  2. n

올가미의 두 가지 단점을 모두 처리 할 수있는 랜덤 올가미의 주요 아이디어는 다음과 같습니다.

n

부트 스트랩 샘플은 여러 데이터 세트를 시뮬레이션하기 위해 그려집니다. 최종 계수는 각 부트 스트랩 샘플의 결과를 평균하여 구합니다.

누군가 가이 알고리즘을 정교하게 설명하고 대답에서 더 설명 할 수 있다면 좋을 것입니다.


1
멋진 링크 (+1).
jbowman

발언 감사합니다. 나는 또한 무작위 올가미를 고려했지만 공선 성의 경우에 적합 합니까?
dimi

2
설명 변수 사이의 대략적인 공선 성에서 어떤 일이 발생합니까? 회귀 분석의 기존 순방향 검색 알고리즘에서 우리는 종종 두 변수 x1과 x2가 유사한 설명력을 갖는 상황에 직면합니다. x1이 모델에 있으면 x2를 포함 할 필요가 없습니다. 반대로 x2가 모형에 있으면 x1을 포함 할 필요가 없습니다. 절차를 올바르게 이해하면 시간의 x1을 절반으로, 시간의 절반을 x2로 포함하여 약 50 %의 안정성 확률로 이어질 수 있습니다. 그렇다면 어떤 변수도 필요하지 않다고 잘못 결론을 내릴 수 있습니다.
dimi

나는이 경우에도 무작위로 탄력있는 그물을 사용할 수 있다고 생각합니다.
dimi

귀하의 질문에 더 잘 맞는 다른 링크를 추가했습니다.
Pardis

6

현재 접근 방식은 평균 MSE 점수가 10 배인 교차 검증으로 데이터 세트의 90 %에 대한 그리드 검색에서 최상의 튜닝 매개 변수 (람다 및 알파)를 찾는 것입니다. 그런 다음 전체 90 %의 데이터 세트에서 최상의 튜닝 매개 변수로 모델을 학습시킵니다. 데이터 세트의 10 % (15 개 샘플 만 고려)에서 R 제곱을 사용하여 모델을 평가할 수 있습니다.

튜닝 파라미터는 얼마나 안정적입니까?

적합도 (예 : 최적 매개 변수의 교차 검증의 MSE)와 10 % 독립 테스트 성능간에 큰 차이가 있습니까?

그것은 과적 합의 증상 일 것입니다 :

MSE=f(gridparameters)MSE=f(gridparameters)

절차를 반복하여 여러 모델을 만든 다음 평균 회귀 계수를 사용할 수 있습니까? 또는 모형에서 예측 변수의 발생 횟수를 중요도 점수로 사용해야합니까?

이러한 집계 모델을 구축 할 수있는 몇 가지 가능성이 있습니다.

  • 계수를 평균화하여 선형 모형을 평균화 할 수 있습니다.
  • mm

검색어는 "집계 된 모델", "부트 스트랩 집계", "포장"입니다.

부수적 사고 : 일부 유형의 데이터는 변수 선택이 다소 동일한 솔루션간에 "점프"할 수있는 예상 가능하고 해석 가능한 공선 성을 가지고 있습니다.


3

탈출구가 없습니다. 일부 사람들이 말했듯이, 모델은 본질적으로 불안정합니다 (그렇지 않으면 통계는 필요하지 않습니다).

그러나 불안정성 자체가 정보를 제공합니다. 그래서 그것을 제거하려고하는 대신 분석하려고했습니다.

교차 유효성 검사 시뮬레이션을 여러 번 실행 한 다음 각 실행에서 가장 잘 선택된 매개 변수에 대한 계수를 가져 와서 함께 모았습니다.

탄성 그물의 경우 동일한 k 개의 접힌 데이터 (동일한 데이터 세트에서 알파를 비교해야 함)로 각 알파 (0..1 x 0.1)에 대해 교차 검증 테스트를 실행하고 선택하십시오λα 관련된 쌍을 적은 테스트 오류 ... 무작위로 선택된 k 개의 접힌 데이터로 n 번 반복하고 각 반복에 가장 적합한 쌍을 선택합니다.

그런 다음 각 매개 변수 쌍에 대한 회귀 계수를 추출하면 각 매개 변수에 대한 값의 분포가 제공됩니다. 이 방법으로 평균 / 중간 값을 사용하여 예측 변수의 강도를 설명하고 표준 편차 / IQR을 설명하여 변동성, 즉 안정성을 설명 할 수 있습니다.

매우 안정된 예측 변수는 새로운 데이터에서도 그 효과가 비슷할 것으로 예상 할 수 있음을 의미합니다. 데이터에서도 불안정한 예측 변수는 새 데이터에서도 불안정 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.