임의 포리스트와 선형 회귀를 통한 기능 중요도는 다릅니다.


9

Lasso를 적용하여 기능 순위를 매기고 다음 결과를 얻었습니다.

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

데이터 세트에는 3 개의 레이블이 있습니다. 다른 레이블의 기능 순위는 동일합니다.

그런 다음 임의의 포리스트를 동일한 데이터 세트에 적용했습니다.

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

순위는 올가미에서 만든 순위와 매우 다릅니다.

차이점을 해석하는 방법? 기본 모델이 본질적으로 비선형이라는 것을 의미합니까?


지형지 물의 순위는 실제로 여러 분류기간에 변환되지 않습니다. 모델이 비선형인지 테스트하려면 여기를 참조하십시오 : stats.stackexchange.com/questions/35893/…
Alex R.

1
기능 중요도는 "휴리스틱"을 기반으로 한 제안 일뿐입니다. 그들은 때때로 신뢰할 수 없습니다. 나는 보통 올가미보다 임의의 숲을 믿습니다.
Gerenuk

답변:


6

따라서 쿼리는 선형 회귀 분석과 임의 포리스트의 모델 파생 변수의 중요성을 비교합니다.

올가미는 정규화를 적용하여 선형 회귀 모델 계수를 찾습니다. 선형 회귀 모델에서 변수의 중요도를 평가하는 일반적인 방법은 를 분해하는 것입니다.R2 를 각 변수에 기여한 기여도 입니다. 그러나 변수의 상관 관계로 인해 선형 회귀 분석에서 변수의 중요성은 간단하지 않습니다. 아래 참고 문헌에서 PMD 방법 (Feldman, 2005)을 설명하는 문서를 참조하십시오.

또 다른 대중적인 접근 방식은 주문에 대한 평균화입니다 (LMG, 1980). LMG는 다음과 같이 작동합니다.

  • 모형에서 각 예측 변수의 반 부분 상관 관계를 찾습니다 (예 : 변수 a의 경우). SSa/SStotal. 그것은 얼마를 의미합니다R2 가변적 인 경우 증가 a 모델에 추가되었습니다.
  • 변수가 모델에 도입되는 각 순서의 각 변수에 대해이 값을 계산하십시오 (예 : {a,b,c}; {b,a,c}; {,,}
  • 이러한 각 주문에 대한 반 부분 상관의 평균을 찾으십시오. 이것은 평균 초과 주문입니다.

임의 포리스트 알고리즘은 여러 트리에 적합하며 포리스트의 각 트리는 데이터 집합에서 다른 기능을 임의로 선택하여 만들어집니다. 각 트리의 노드는 최대 분산 감소를 달성하기 위해 선택하고 분할하여 구성됩니다. 테스트 데이터 세트를 예측하는 동안 개별 트리 출력을 평균하여 최종 출력을 얻습니다. 각 변수는 모든 트리에서 순열되며 순열 전후의 표본 오차 차이를 계산합니다. 차이가 가장 큰 변수가 가장 중요하게 간주되고 값이 작은 변수가 덜 중요합니다.

모형이 훈련 데이터에 적합 해지는 방법은 임의의 숲 모형과 비교하여 선형 회귀 모형의 경우 매우 다릅니다. 그러나 두 모델 모두 변수 간의 구조적 관계를 포함하지 않습니다.

종속 변수의 비선형성에 대한 쿼리와 관련하여 : 올가미는 기본적으로 선형 모델이므로 트리 기반 모델과 비교할 때 기본 비선형 프로세스에 대한 좋은 예측을 제공 할 수 없습니다. 임의 포리스트 테스트 성능이 향상되면 기본 프로세스가 비선형 일 수 있습니다. 또는 올가미 모델에서 a, b 및 c를 사용하여 생성 된 변수 상호 작용 효과 및 고차 변수를 포함하고이 모델이 a, b 및 c의 선형 조합 만있는 올가미와 비교하여 더 나은지 확인할 수 있습니다. 그렇다면 기본 프로세스가 비선형 일 수 있습니다.

참고 문헌 :

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.