최신 통계 / 기계 학습에서 다중 공선 성이 검사되지 않는 이유

44

기존 통계에서는 모형을 작성하는 동안 분산 팽창 계수 (VIF) 추정값과 같은 방법을 사용하여 다중 공선 성을 검사하지만 기계 학습에서는 피쳐 선택에 정규화를 사용하고 피쳐가 상관되어 있는지 확인하지 않는 것 같습니다. 조금도. 왜 그렇게합니까?

— 사용자
소스

51

극한의 경우 데이터에서 계수가 고유하게 식별되는지 여부에 직접적으로 영향 을 미치기 때문에 다중 공선 성을 고려하는 것이 회귀 분석에서 중요 합니다. 덜 심각한 경우에도 계수 추정값이 혼란 스러울 수 있습니다. 추정에 사용 된 데이터의 작은 변화로 인해 추정 계수가 크게 변동될 수 있습니다. 이것들은 추론 적 관점에서 문제가 될 수 있습니다 : 만약 두 변수가 서로 밀접하게 관련되어 있다면, 하나의 증가는 다른 것의 감소에 의해 상쇄 될 수 있으므로 결합 된 효과는 서로 부정합니다. 두 개 이상의 변수를 사용하면 효과가 훨씬 미묘 할 수 있지만 예측 이 안정적인 경우 종종 기계 학습 응용 프로그램에 충분합니다.

회귀 컨텍스트에서 정규화하는 이유를 고려하십시오. 모델이 너무 유연하지 않도록 제한해야합니다 . 올바른 양의 정규화를 적용하면 편차가 크게 줄어들 기 때문에 바이어스가 약간 증가합니다. 이것의 전형적인 예는 회귀에 다항식 항과 교호 작용 효과를 추가하는 것입니다. 퇴보하는 경우, 예측 방정식은 데이터 포인트를 보간하지만 보이지 않는 데이터 포인트의 값을 예측하려고 시도하면 끔찍할 수 있습니다. 이러한 계수를 줄이면 해당 계수 중 일부를 최소화하거나 완전히 제거하고 일반화를 향상시킬 수 있습니다.

그러나 임의 포리스트는 각 분할에서 샘플링 된 변수의 수를 통해 정규화 매개 변수를 갖는 것으로 볼 수 있습니다. 분할할수록 mtry(더 많은 기능 중에서 선택할 수 있으며 일부는 다른 것보다 낫습니다) 각각의 나무가 서로 다른 나무와 더 높은 상관 관계를 갖도록하여 처음에 여러 나무를 추정하는 다양한 효과를 완화시킵니다. 이 딜레마는 일반적으로 교차 검증을 사용하여 올바른 균형을 찾도록 강요합니다. 중요한 것은 회귀 분석과 달리 랜덤 포레스트 모델의 어느 부분도 높은 공선 변수에 의해 영향을받지 않습니다. 두 변수가 동일한 자식 노드 순도를 제공하더라도 결과의 품질을 떨어 뜨리지 않고 하나만 선택할 수 있습니다.

$C$ $N$ $N$ 제한없는 방식으로 관찰하면 항상 테스트 데이터에 대한 완벽한 모델이 생성됩니다. 우리는 지나치게 낙관적 인 모델에 대한 검사로 모델 유연성이 제한되는 능선 / LASSO / 탄성 순 회귀 시나리오로 돌아 왔습니다. SVM 문제의 KKT 조건을 검토하면 SVM 솔루션이 독특하다는 것을 알 수 있으므로 회귀 사건에서 발생한 식별 문제에 대해 걱정할 필요가 없습니다.

마지막으로, 다중 공선 성의 실제 영향 을 고려하십시오 . 모델의 예측력을 변경하지는 않지만 (적어도 훈련 데이터에 대해서는) 계수 추정치에 영향을 미칩니다. 대부분의 ML 응용 프로그램에서 계수 자체는 신경 쓰지 않습니다, 우리의 모델 예측의 손실만으로, 그런 의미에서 VIF를 확인한다고해서 실제로 결과적인 질문에 답할 수는 없습니다. (그러나 데이터의 약간의 변화가 계수의 큰 변동 (멀티 콜 리니어리티의 전형적인 증상)을 유발할 경우 예측도 변경 될 수 있습니다.이 경우 우리는주의를 기울입니다. 그러나이 모든 것이 우리가 희망 할 때 특징입니다. 어쨌든 모델링 프로세스의 일부인 교차 유효성 검사를 수행하십시오.) 회귀 분석은보다 쉽게 해석되지만 해석이 일부 작업의 가장 중요한 목표는 아닙니다.

— 복원 모니카
소스

1

인과 관계 회귀 모델링의 경우 성향 스코어링 또는 회귀 조정과 같은 기술을 사용하여 공선 성은 예측에도 문제가 될 수 있습니다. 일반적으로 목표는 제어 / 노출되지 않은 그룹에만 모델을 맞추고 실험에서 해당 모델을 사용하여 결과를 추정하는 것이므로 두 그룹을 결합하거나 다른 변수를 제어하여 실험 그룹에있는 효과를 측정하기 위해 지표 변수를 사용합니다.

— ely

1

공선 성이 계수에 오류를 생성하면 실험 그룹에 대한 확장 된 회귀가 작동하지 않습니다. 마찬가지로, 두 서브 샘플에 대해 단일 회귀를 수행하는 경우, 치료를받은 지표 변수에 대한 계수 추정치를 버릴 수 있습니다. 현대의 머신 러닝 기술은 일반적으로 이러한 유형의 인과성 문제를 분석하는 데 사용되지 않으므로이를 해결하기 위해 툴링의 필요성에 직면 할 필요가 없었습니다.

— ely

@ely, 첫 번째 예에서 (선처리가 아닌 공변량 중에서) 공선 성은 문제를 일으키지 않습니다. 다시 목표는 반상적인 결과의 예측이고, 공선 성은 예측의 문제가 아니기 때문입니다. 또한 현대 ML 방법은 인과 추론에 자주 사용됩니다. 일반화 된 부스트 모델링 및 랜덤 포레스트는 성향 스코어를 추정하는 데 널리 사용되며 TMLE은 ML 방법을 사용하여 반 상위 결과를 무시합니다. 인과 방법의 강점은 공선 성이 일반적으로 문제가되지 않는다는 것입니다.

— 노아

@Noah 일반적으로 단순한 노출 정확도가 아니라 중요한 노출 계수 의 해석 (및 기타 효과 추정치의 해석)입니다. 내 의견으로는 이것이 명확하지 않다는 것을 알고 있지만 이것이 문제가되는 이유입니다. 전체 예측이 좋지만 노출에 대해 추정 된 계수와 실제로 관련되어 있지 않은 경우 일반적으로 인과 추론에 바람직하지 않은 모델입니다.

— ely

21

그 이유는 "전통적인 통계"의 목표가 많은 머신 러닝 기술과 다르기 때문입니다.

"전통적인 통계"에 따르면, 회귀와 그 변형을 의미한다고 가정합니다. 회귀 분석에서 우리는 독립 변수가 종속 변수에 미치는 영향을 이해하려고 노력하고 있습니다. 강력한 다중 공선 성이있는 경우 이는 불가능합니다. 이 문제를 해결하는 알고리즘은 없습니다. Studiousness가 수업 출석 및 성적과 관련이있는 경우, 출석 또는 Studiousness로 인해 성적이 실제로 상승하는 원인을 알 수 없습니다.

그러나 예측 정확도에 중점을 둔 머신 러닝 기술에서 우리가 신경 쓰는 것은 변수 세트를 사용하여 다른 세트를 예측하는 방법입니다. 우리는이 변수들이 서로에게 미치는 영향에 대해서는 신경 쓰지 않습니다.

기본적으로 머신 러닝 기법에서 다중 공선 성을 검사하지 않는다는 사실은 알고리즘의 결과가 아니라 목표의 결과입니다. 당신은하지 않습니다 변수 간의 강한 공선을 몰래하여 볼 수 있습니다 상처 회귀 방법의 예측 정확도.

— TrynnaDoStat
소스

11

공선 성을 검사하지 않는 것이 합리적이거나 최상의 방법이라는 기본 가정이있는 것으로 보입니다. 이것은 결함이있는 것 같습니다. 예를 들어, 많은 예측 변수가있는 데이터 집합에서 완벽한 공선 성을 검사하면 두 변수가 실제로 같은 날짜인지 여부 (예 : Dormann et al. (2013), Ecography , 36 , 1, pp 27–46) ). 또한 포럼의 경쟁자가 익명으로 예측 된 잠재적 예측 변수를 제거하려고하는 Kaggle 경쟁에서 완벽하게 상관 된 예측 변수의 문제가 발생하는 것을 보았습니다 (예 : 예측 레이블이 숨겨져 있으며 Kaggle 및 Kaggle과 유사한 경쟁에서 흔히 발생하는 문제).

기계 학습에서 예측 변수를 선택하는 활동도 여전히 존재합니다. 상관 관계가 높은 예측 변수를 식별하면 작업자가 다른 기본 (숨겨진) 변수에 대한 프록시 인 예측 변수를 찾고 궁극적으로 잠재 변수를 나타내는 데 가장 적합한 변수를 찾거나 대안 적으로 (예를 들어 PCA를 통해) 조합 될 수있는 변수를 제안한다.

따라서 머신 러닝 방법은 일반적으로 (또는 적어도 종종) 상관 예측 변수에 견고하도록 설계되었지만 예측 변수의 상관 정도를 이해하는 것이 강력하고 정확한 모델을 생성하는 데 유용한 단계 인 경우가 많습니다. 최적화 된 모델을 얻는 데 도움이됩니다.

— 로버트 드 그라프
소스

9

다중 공선 성의 주요 문제는 독립 변수의 계수 (베타)를 엉망으로 만든다는 것입니다. 그렇기 때문에 변수 간의 관계를 연구하고 인과 관계를 확립 할 때 심각한 문제가되는 이유입니다.

그러나 현상을 이해하는 데 관심이 없지만 예측 및 예측에만 중점을 둔다면 다중 공선 성은 문제가되지 않습니다. 아니면 적어도 사람들이 그것에 대해 생각하는 것입니다.

나는 기술적 문제 또는 식별 문제인 완벽한 다중 공선 성에 대해 이야기하지 않습니다 . 기술적으로, 이는 단순히 설계 행렬이 특이성을 초래하고 솔루션이 정의되지 않았 음을 의미합니다.

— 악사 칼
소스

4

완벽한 공선 성으로도 예측 이 잘 정의됩니다.

— whuber

@whuber, OLS를 사용하면 통계 패키지는 행렬을 반전시킬 수 없으므로 오류가 발생합니다. 똑똑한 것은 독립 변수 중 하나를 떨어 뜨리고 계속 진행할 수 있습니다.

— Aksakal

2

일반화 역을 사용하면이 특이점은 문제가되지 않습니다.

— 애널리스트

1

나는 당신의 논리를 따르지 않습니다. Aksakal : 당신은 기계 학습 기술이 통계적 기술과 다르다는 것을 제안하려고합니까? 흥미로운 아이디어입니다.

— whuber

1

@user, 독립 변수는 거의 항상 상관 관계가 있으며 일반적으로 좋습니다. 완벽한 다중 공선 성만으로 순위 부족이 발생합니다. 다중 공선 성은 매우 강한 상관 관계를 나타내며 일반적으로 바람직하지는 않지만 이전에 작성한 것처럼 많은 경우에 양성 문제입니다.

— Aksakal

7

이러한 머신 러닝의 정규화는 회귀 계수를 안정화 시키므로 최소한 다중 공선 성 효과가 길들입니다. 그러나 더 중요한 것은 예측을하려는 경우 (머신 학습자가 자주있는 경우), 다중 공선 성 "문제"는 처음에는 큰 문제가 아니 었습니다. 특정 계수를 추정해야하고 정보가없는 경우 문제가됩니다.

또한 " LASSO는 상관 예측자를 언제 선택합니까 "에 대한 답변 이 도움이 될 수 있습니다.

— 벤오고 렉
소스

1

머신 러닝에서 다중 공선 성이 확인되어야한다고 생각합니다. 이유는 다음과 같습니다. 데이터 집합에 X와 Y의 상관 관계가 높은 두 가지 기능이 있다고 가정합니다. 이는 반응면이 신뢰할 수 없음을 의미합니다 (데이터의 작은 변화는 반응면의 방향에 큰 영향을 줄 수 있음). 데이터 포인트에 대한 모델 예측이 멀리 떨어져 있음을 의미합니다.X와 Y가 떨어지는 경향이 있기 때문에 신뢰할 수 없습니다. 이러한 점에 대한 예측에 모형을 사용하는 경우 예측이 매우 나쁠 수 있습니다. 다시 말해, 두 개의 상관 관계가 높은 피쳐를 모델로 사용하면 실제로 데이터가 대부분 한 줄로 떨어지는 평면을 학습하게됩니다. 따라서 신뢰할 수없는 모델과 잘못된 예측을 방지하기 위해 데이터에서 상관 관계가 높은 기능을 제거하는 것이 중요합니다.

— 산요 미네소타
소스