행렬을 특이하게 만드는 상관 관계는 무엇이고 특이성 또는 특이성에 미치는 영향은 무엇입니까?


66

다른 행렬 (주로 로지스틱 회귀 분석)에서 일부 계산을 수행하고 있으며 일반적으로 "매트릭스가 단수입니다"라는 오류가 발생합니다. 여기서 돌아가서 상관 변수를 제거해야합니다. 내 질문은 "높은"상관 매트릭스를 무엇이라고 생각합니까? 이 단어를 나타내는 상관의 임계 값이 있습니까? 변수가 다른 변수와 상관 관계가 0.97 인 것처럼, 이것은 행렬을 특이하게 만들기에 충분한 "높음"입니까?

질문이 매우 기본적이라면 사과하지만이 문제에 대해 언급 한 참조를 찾을 수 없었습니다 (참조에 대한 힌트는 큰 이점이 될 것입니다!).


2
팁 : VIF 및 상관 관계에 대한 사이트를 검색하십시오 .
whuber

분명히 볼 것입니다. 건배.
Error404

2
@ttnphns는 아래에 뛰어난 설명을 제공했습니다 (놀랍지 않습니다. 이것은 그의 전문 분야 인 것 같습니다). 당신이 단일 데이터 매트릭스를 얻을 수있는 상황의 간단한 예를 들어, 여기 내 대답을 읽고 도움이 될 수 있습니다 : 질적-변수 코딩 된 회귀 - 리드 - 투 - 특이성 .
복직 모니카

실제로 그는했다!! 실제로 혼란으로 독서 시간을 절약했습니다. @gung 예제를 주셔서 감사합니다. 매우 도움이되었습니다.
Error404

답변:


100

특이 행렬이란 무엇입니까?

정사각 행렬은 단수입니다. 즉 비례 적으로 상호 관련된 행이나 열을 포함하는 경우 행렬식 은 0입니다. 다시 말해, 하나 이상의 행 (열)은 전체 또는 일부 다른 행 (열)의 선형 조합으로 정확하게 표현 될 수 있으며, 조합은 상수 항이 없습니다.

예를 들어, 상상 × 행렬 에이 - 대칭, correlaton 매트릭스, 또는 비대칭처럼. 예를 들어 해당 항목의 관점에서 안부=2.15안부1 경우 행렬 에이 는 단수입니다. 다른 예로, 2=1.614 이면 에이 는 다시 특이 값입니다. 특별한 경우, 행에 0 만 포함 된 경우행렬은 단수입니다. 어떤 열은 다른 열의 선형 조합이기 때문입니다. 일반적으로, 정사각 행렬의 행 (열)이 다른 행 (열)의 가중 합인 경우, 후자의 행도 다른 행 (열)의 가중 합입니다.

단수형 또는 거의 단수형 행렬은 많은 통계 데이터 분석에서 문제를 발생시키기 때문에 종종 "잘못된 조건"행렬이라고합니다.

변수의 특이 상관 행렬을 생성하는 데이터는 무엇입니까?

상관 또는 공분산 행렬이 위에서 설명한 특이 행렬이되기 위해서는 어떤 다변량 데이터 가 어떤 모양이어야합니까? 변수간에 선형 상호 의존성이있는 경우입니다. 일부 변수가 다른 항의 정확한 선형 조합이고 상수 항이 허용되는 경우 변수의 상관 및 공분산 특성은 단수입니다. 열 사이의 이러한 행렬에서 관찰되는 종속성은 실제로 변수가 중앙에 있거나 (평균이 0이되거나) 표준화 (공분산 행렬이 아닌 상관 관계를 의미하는 경우) 관찰 된 데이터의 변수 간 종속성과 동일한 종속성입니다.

변수의 상관 / 공분산 행렬이 단수 인 경우가 빈번한 특정 상황 : (1) 변수 수는 케이스 수보다 크거나 같습니다. (2) 둘 이상의 변수가 상수로 요약됩니다. (3) 두 변수는 평균 (수준) 또는 분산 (척도)이 동일하거나 다릅니다.

또한 데이터 세트에서 관측 값을 복제하면 행렬이 특이점으로 이어집니다. 사례를 더 많이 복제할수록 특이점에 가깝습니다. 따라서 결 측값에 대한 일종의 대치를 수행 할 때 항상 대치 된 데이터에 노이즈를 추가하는 것이 통계적 및 수학적 관점에서 항상 유리합니다.

기하 공선 성으로서의 특이점

기하학적 관점에서 특이점은 (다중) 공선 성 (또는 "상대성")입니다. 공간에서 벡터 (화살표)로 표시되는 변수는 감소 된 공간에서 변수의 수보다 작은 크기의 공간에 있습니다. (이 차원은 행렬 의 순위 로 알려져 있으며, 행렬의 0이 아닌 고유 값 의 수와 같습니다 .)

보다 먼 또는 "초월 적"기하학적 관점에서, 특이성 또는 제로-확정 성 (제로 고유 값의 존재)은 매트릭스의 양의 유한도 및 비양의도 사이의 굽힘 점입니다. 때 벡터 - 변수의 일부 (이 입니다 그들은 "완벽에 걸쳐" "수렴"또는 수 없도록 - 상관 관계 / 공분산 행렬)도 감소 유클리드 공간에 누워 "을 넘어" 유클리드 더 이상 공간이 아닌 긍정적 인 명확성이 나타납니다 즉, 상관 행렬의 일부 고유 값이 음수가됩니다. (양수 비정규 행렬, 일명 비 그램 리 언어 참조 ) 비 양성 정의 행렬은 일부 종류의 통계 분석에서 "잘못된 조건"입니다.

회귀의 공선 성 : 기하학적 설명 및 의미

엑스1엑스2와이와이'이자형와이와이'12

여기에 이미지 설명을 입력하십시오

엑스1엑스2와이'이자형그림에 그려진 그 (한 예측 자) 회귀의. 공선 성을 없애기 위해 변수를 삭제하는 것 외에도 다른 접근 방식도 있습니다.

여기에 이미지 설명을 입력하십시오

엑스1엑스2

여기에 이미지 설명을 입력하십시오

엑스1엑스2엑스1엑스1엑스2우리는 같은 집단의 다른 샘플에서 매우 다른 평면 X를 기대합니다. 평면 X가 다르면 예측, R- 제곱, 잔차, 계수 등 모든 것이 달라집니다. 비행기 X가 40도 어딘가에서 그림에서 잘 보입니다. 이와 같은 상황에서 추정치 (계수, R- 제곱 등)는 매우 신뢰할 수 없으며 어떤 사실이 큰 표준 오차로 표현되는지 는 매우 신뢰할 수 없습니다 . 반대로, 예측 변수가 공선과 거리가 먼 경우 예측 변수가 차지하는 공간이 데이터의 샘플링 변동에 강하기 때문에 추정값이 신뢰할 수 있습니다.

전체 매트릭스의 함수로서의 공선 성

두 변수 사이의 높은 상관 관계가 1보다 작더라도 전체 상관 관계 행렬을 반드시 단일하게 만들 필요는 없습니다. 나머지 상관 관계에 따라 다릅니다. 예를 들어이 상관 관계 매트릭스는 다음과 같습니다.

1.000     .990     .200
 .990    1.000     .100
 .200     .100    1.000

.00950많은 통계적 분석에 적합하다고 간주되기에 아직 0과 충분히 다른 결정 요인 이 있습니다. 그러나이 매트릭스 :

1.000     .990     .239
 .990    1.000     .100
 .239     .100    1.000

.000100에 가까운 정도 를 결정 합니다.

공선 성 진단 : 추가 정보

회귀 분석과 같은 통계 데이터 분석에는 분석에서 일부 변수 또는 사례를 삭제하거나 다른 치유 수단을 수행하기에 충분히 강한 공선 성을 탐지 할 수있는 특수 지수 및 도구가 통합되어 있습니다. "공선 성 진단", "다공 선성", "단일 / 공선 성 공차", "조건 지수", "분산 분해 비율", "분산 인플레이션 계수 (VIF)"를 검색 (이 사이트 포함)하십시오.


3
이 자세한 설명에 감사드립니다. 이 주제를 이해하려는 모든 사람에게 완벽한 개요입니다. 당신이 제안한 제목들에 대해 더 읽을 것입니다. 이것은 높이 평가된다 :)
Error404

3
엄청난 설명, 추가 한 내용에 대해 다시 한 번 감사드립니다. 매우 유익한 정보입니다.
오류 404

4
기하학적 설명 및 관련 수치는이 문제를 이해하는 데 실제로 도움이됩니다.
gung-Monica Monica 복원

1
나는 이것이 꽤 오래된 게시물 인 것을 보았습니다 ...하지만 @ttnphns로 기하학적 그래픽을 수행 한 것을 알고 싶습니다 ... 한편으로는 MS Paint 일 수도있는 것처럼 보입니다. 그러나 그들은 단지 너무 좋아
Paul

@Paul의 말 !!!
abalter
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.