따라서 쿼리는 선형 회귀 분석과 임의 포리스트의 모델 파생 변수의 중요성을 비교합니다.
올가미는 정규화를 적용하여 선형 회귀 모델 계수를 찾습니다. 선형 회귀 모델에서 변수의 중요도를 평가하는 일반적인 방법은 를 분해하는 것입니다.R2 를 각 변수에 기여한 기여도 입니다. 그러나 변수의 상관 관계로 인해 선형 회귀 분석에서 변수의 중요성은 간단하지 않습니다. 아래 참고 문헌에서 PMD 방법 (Feldman, 2005)을 설명하는 문서를 참조하십시오.
또 다른 대중적인 접근 방식은 주문에 대한 평균화입니다 (LMG, 1980). LMG는 다음과 같이 작동합니다.
- 모형에서 각 예측 변수의 반 부분 상관 관계를 찾습니다 (예 : 변수 a의 경우). SSa/SStotal. 그것은 얼마를 의미합니다R2 가변적 인 경우 증가 a 모델에 추가되었습니다.
- 변수가 모델에 도입되는 각 순서의 각 변수에 대해이 값을 계산하십시오 (예 : {a,b,c}; {b,a,c}; {b , c , a}
- 이러한 각 주문에 대한 반 부분 상관의 평균을 찾으십시오. 이것은 평균 초과 주문입니다.
임의 포리스트 알고리즘은 여러 트리에 적합하며 포리스트의 각 트리는 데이터 집합에서 다른 기능을 임의로 선택하여 만들어집니다. 각 트리의 노드는 최대 분산 감소를 달성하기 위해 선택하고 분할하여 구성됩니다. 테스트 데이터 세트를 예측하는 동안 개별 트리 출력을 평균하여 최종 출력을 얻습니다. 각 변수는 모든 트리에서 순열되며 순열 전후의 표본 오차 차이를 계산합니다. 차이가 가장 큰 변수가 가장 중요하게 간주되고 값이 작은 변수가 덜 중요합니다.
모형이 훈련 데이터에 적합 해지는 방법은 임의의 숲 모형과 비교하여 선형 회귀 모형의 경우 매우 다릅니다. 그러나 두 모델 모두 변수 간의 구조적 관계를 포함하지 않습니다.
종속 변수의 비선형성에 대한 쿼리와 관련하여 : 올가미는 기본적으로 선형 모델이므로 트리 기반 모델과 비교할 때 기본 비선형 프로세스에 대한 좋은 예측을 제공 할 수 없습니다. 임의 포리스트 테스트 성능이 향상되면 기본 프로세스가 비선형 일 수 있습니다. 또는 올가미 모델에서 a, b 및 c를 사용하여 생성 된 변수 상호 작용 효과 및 고차 변수를 포함하고이 모델이 a, b 및 c의 선형 조합 만있는 올가미와 비교하여 더 나은지 확인할 수 있습니다. 그렇다면 기본 프로세스가 비선형 일 수 있습니다.
참고 문헌 :