«multicollinearity» 태그된 질문

예측 변수 사이에 강한 선형 관계가있는 상황에서 상관 관계 행렬이 (거의) 특이점이됩니다. 이 "불량 상태"는 각 예측 변수가 수행하는 고유 한 역할을 결정하기 어렵게합니다. 추정 문제가 발생하고 표준 오류가 증가합니다. 이변 적으로 매우 높은 상관 예측 변수는 다중 공선 성의 한 예입니다.

3
파이썬에서 공선 변수를 체계적으로 제거하는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 지금까지 상관 테이블을보고 특정 임계 값을 초과하는 변수를 제거하여 데이터 준비 프로세스의 일부로 공선 변수를 제거했습니다. 이 작업을 수행하는 데 더 허용되는 방법이 …

2
회귀의 질적 변수 코딩은 "단일성"으로 이어집니다
"quality"라는 독립 변수가 있습니다. 이 변수에는 3 가지 반응 방식 (나쁜 품질, 중간 품질, 고품질)이 있습니다. 이 독립 변수를 여러 선형 회귀 분석에 도입하고 싶습니다. 이진 독립 변수 (더미 변수, 코딩 가능 0/ 1)가 있으면 다중 선형 회귀 모델에 쉽게 도입 할 수 있습니다. 그러나 3 가지 양식의 응답 으로이 …

1
로지스틱 회귀-다중 공선 성 문제 / 함정
로지스틱 회귀 분석에서 OLS 회귀 분석과 마찬가지로 다중 공선성에 대해 우려 할 필요가 있습니까? 예를 들어, 다중 공선 성이 존재하는 로지스틱 회귀 분석을 사용하면 베타 계수에서 추론 할 때주의해야합니다 (OLS 회귀 분석에서와 같이)? OLS 회귀 분석의 경우 높은 다중 공선성에 대한 하나의 "수정"은 능선 회귀입니다. 로지스틱 회귀 분석과 같은 것이 …

3
우리는 언제 공선 성을 말할 수 있습니까?
선형 모델에서는 설명 변수 사이에 관계가 있는지 확인해야합니다. 이들이 너무 많은 상관 관계가 있으면 공선 성이 존재합니다 (즉, 변수가 서로를 부분적으로 설명합니다). 나는 현재 각 설명 변수 사이의 쌍별 상관 관계를보고 있습니다. 질문 1 : 상관 관계가 너무 많은 분류는 무엇입니까? 예를 들어 피어슨 상관 관계가 0.5로 너무 큽니까? 질문 …

1
하나의 변수가 다른 변수의 선형 조합이지만 완벽한 다중 공선 성으로 인해이 회귀가 실패하지 않는 이유는 무엇입니까?
오늘은 작은 데이터 세트로 놀고 있었고 완벽한 다중 공선 성으로 인해 실패 할 것으로 예상 되는 간단한 OLS 회귀를 수행했습니다 . 그러나 그렇지 않았습니다. 이것은 다중 공선성에 대한 나의 이해가 잘못되었음을 의미합니다. 내 질문은 : 내가 어디 잘못입니까? 내 변수 중 하나가 다른 변수의 선형 조합임을 보여줄 수 있다고 생각합니다. …

1
귀무 가설 하에서 교환 가능한 샘플의 직관은 무엇입니까?
순열 검정 (랜덤 화 검정, 재 랜덤 화 검정 또는 정확한 검정이라고도 함)은 매우 유용하며, 예를 들어 요구되는 정규 분포 가정이 t-test충족되지 않고 순위에 따라 값을 변환 할 때 유용합니다. 비모수 테스트 Mann-Whitney-U-test는 더 많은 정보가 손실 될 수 있습니다. 그러나 이러한 종류의 테스트를 사용할 때 단 하나의 가정 만 …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 

2
VIF, 조건 지수 및 고유 값
현재 데이터 집합의 다중 공선 성을 평가하고 있습니다. VIF의 임계 값과 조건 지수가 위 / 위에서 문제를 나타내는 것은 무엇입니까? VIF : VIF 이 문제 라고 들었습니다 .≥ 10≥10\geq 10 두 개의 문제 변수를 제거한 후 VIF는 각 변수에 대해 입니다. 변수가 더 많은 치료를 필요로합니까, 아니면이 VIF가 괜찮게 보입니까?≤ …

1
릿지 회귀는 왜 다중 공선 성이있는 상태에서 잘 작동합니까?
능선 회귀에 대해 배우고 있으며 능선 회귀가 다중 공선 성이 존재할 때 더 잘 작동하는 경향이 있음을 알고 있습니다. 왜 이것이 사실인지 궁금합니다. 직관적 인 답변이나 수학적인 답변이 만족할 것입니다 (두 가지 유형의 답변 모두 더 만족할 것입니다). 또한, 나는 그 것을 알고 β가 항상 얻을 수 있지만, 얼마나 정확한 …

3
kmeans를 실행하기 전에 상관 관계 / 공 선형 변수를 삭제해야합니까?
고객의 클러스터를 식별하기 위해 kmeans를 실행하고 있습니다. 클러스터를 식별하는 약 100 개의 변수가 있습니다. 이러한 각 변수는 고객이 카테고리에서 지출 한 비율을 나타냅니다. 따라서 100 개의 카테고리가있는 경우 각 고객에 대해이 변수의 합이 100 %가되도록 100 개의 변수를 갖습니다. 이제이 변수들은 서로 밀접하게 연관되어 있습니다. kmeans를 실행하기 전에 공선 성을 …

4
비선형 모델을 사용할 때 다중 공선성에 대해 걱정해야합니까?
대부분 범주 형 기능에 이진 분류 문제가 있다고 가정합니다. 비선형 모델 (예 : XGBoost 또는 Random Forests)을 사용하여 학습합니다. 여전히 다중 공선성에 대해 걱정해야합니까? 왜? 위의 답변이 사실이라면, 이러한 유형의 비선형 모델을 사용하고 있다는 점을 고려하여 어떻게 싸워야합니까?

2
선형 회귀 경우에만 알고
라고 가정하십시오 Xβ=YXβ=YX\beta =Y. 우리는 모르는 YYY 정확히 각 예측, 만의 상관 관계 XtYXtYX^\mathrm{t}Y . 통상 최소 제곱 (OLS) 용액은 β=(XtX)−1XtYβ=(XtX)−1XtY\beta=(X^\mathrm{t} X)^{-1} X^\mathrm{t}Y 및 문제는 없다. 그러나 XtXXtXX^\mathrm{t}X 가 단수 (다중 공선 성)에 가깝고 최적의 능선 모수를 추정해야한다고 가정합니다. 모든 방법에는 정확한 값이 필요한 것 같습니다 YYY. 만 XtYXtYX^\mathrm{t}Y알려진 대안 …

2
청크 테스트 란 무엇입니까?
에 대한 질문에 대한 대답에서 다중 공선의 존재 모델 선택 , 프랭크 하렐은 제안 : 모든 변수를 모형에 넣지 만 경쟁 변수의 효과에 대해 조정 된 하나의 변수의 효과에 대해서는 테스트하지 않습니다 ... 경쟁 변수의 청크 테스트는 공선 변수가 전체 다중 자유도 연관 검정 대신 힘을 결합하기 때문에 강력합니다. 변수를 …

6
개별 회귀는 중요하지만 VIF는 낮을 때의 다중 공선 성
를 예측하는 데 사용하는 6 개의 변수 ( )가 있습니다. 데이터 분석을 수행 할 때 먼저 다중 선형 회귀 분석을 시도했습니다. 이로부터 두 변수 만이 중요했다. 그러나 각 변수를 개별적으로 와 비교하는 선형 회귀 분석을 실행했을 때 하나를 제외한 모든 변수 가 유의미했습니다 ( 는 0.01 미만에서 0.001 미만). 이것은 …

3
변수를 버리지 않고 높은 다중 공선 성을 갖는 선형 회귀 분석에서 불안정한 추정값을 어떻게 처리 할 수 있습니까?
다중 공선 성이 높은 선형 회귀 분석의 베타 안정성? 선형 회귀 분석에서 변수 및 는 높은 다중 공선 성을 가지고 있습니다 (상관 관계는 약 0.9입니다).x 2엑스1x1x_1엑스2x2x_2 우리는 계수 안정성 에 대해 염려 하므로 다중 공선 성을 처리해야합니다.ββ\beta 교과서 솔루션은 변수 중 하나를 버리는 것입니다. 그러나 우리는 단순히 변수를 버림으로써 유용한 …

2
다중 공선 성을 다루기
패키지 vif()방법 을 사용하여 car모델에서 입력의 다중 공선도를 계산할 수 있다는 것을 배웠습니다 . 에서 위키 피 디아 경우, vif값이보다 큰 경우 5우리는 입력이 다중 공선 성 문제를 앓고 있음을 고려할 수 있습니다. 예를 들어, lm()방법을 사용하여 선형 회귀 모델을 개발 vif()했으며 다음과 같이 제공합니다. 우리가 볼 수 있듯이, 입력 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.