특이 행렬이란 무엇입니까?
정사각 행렬은 단수입니다. 즉 비례 적으로 상호 관련된 행이나 열을 포함하는 경우 행렬식 은 0입니다. 다시 말해, 하나 이상의 행 (열)은 전체 또는 일부 다른 행 (열)의 선형 조합으로 정확하게 표현 될 수 있으며, 조합은 상수 항이 없습니다.
예를 들어, 상상 3 × 3 행렬 에이 - 대칭, correlaton 매트릭스, 또는 비대칭처럼. 예를 들어 해당 항목의 관점에서 안부삼= 2.15 ⋅ 열1 경우 행렬 에이 는 단수입니다. 다른 예로, 열2= 1.6 ⋅ 행1− 4 ⋅ 행삼 이면 에이 는 다시 특이 값입니다. 특별한 경우, 행에 0 만 포함 된 경우행렬은 단수입니다. 어떤 열은 다른 열의 선형 조합이기 때문입니다. 일반적으로, 정사각 행렬의 행 (열)이 다른 행 (열)의 가중 합인 경우, 후자의 행도 다른 행 (열)의 가중 합입니다.
단수형 또는 거의 단수형 행렬은 많은 통계 데이터 분석에서 문제를 발생시키기 때문에 종종 "잘못된 조건"행렬이라고합니다.
변수의 특이 상관 행렬을 생성하는 데이터는 무엇입니까?
상관 또는 공분산 행렬이 위에서 설명한 특이 행렬이되기 위해서는 어떤 다변량 데이터 가 어떤 모양이어야합니까? 변수간에 선형 상호 의존성이있는 경우입니다. 일부 변수가 다른 항의 정확한 선형 조합이고 상수 항이 허용되는 경우 변수의 상관 및 공분산 특성은 단수입니다. 열 사이의 이러한 행렬에서 관찰되는 종속성은 실제로 변수가 중앙에 있거나 (평균이 0이되거나) 표준화 (공분산 행렬이 아닌 상관 관계를 의미하는 경우) 관찰 된 데이터의 변수 간 종속성과 동일한 종속성입니다.
변수의 상관 / 공분산 행렬이 단수 인 경우가 빈번한 특정 상황 : (1) 변수 수는 케이스 수보다 크거나 같습니다. (2) 둘 이상의 변수가 상수로 요약됩니다. (3) 두 변수는 평균 (수준) 또는 분산 (척도)이 동일하거나 다릅니다.
또한 데이터 세트에서 관측 값을 복제하면 행렬이 특이점으로 이어집니다. 사례를 더 많이 복제할수록 특이점에 가깝습니다. 따라서 결 측값에 대한 일종의 대치를 수행 할 때 항상 대치 된 데이터에 노이즈를 추가하는 것이 통계적 및 수학적 관점에서 항상 유리합니다.
기하 공선 성으로서의 특이점
기하학적 관점에서 특이점은 (다중) 공선 성 (또는 "상대성")입니다. 공간에서 벡터 (화살표)로 표시되는 변수는 감소 된 공간에서 변수의 수보다 작은 크기의 공간에 있습니다. (이 차원은 행렬 의 순위 로 알려져 있으며, 행렬의 0이 아닌 고유 값 의 수와 같습니다 .)
보다 먼 또는 "초월 적"기하학적 관점에서, 특이성 또는 제로-확정 성 (제로 고유 값의 존재)은 매트릭스의 양의 유한도 및 비양의도 사이의 굽힘 점입니다. 때 벡터 - 변수의 일부 (이 입니다 그들은 "완벽에 걸쳐" "수렴"또는 수 없도록 - 상관 관계 / 공분산 행렬)도 감소 유클리드 공간에 누워 "을 넘어" 유클리드 더 이상 공간이 아닌 긍정적 인 명확성이 나타납니다 즉, 상관 행렬의 일부 고유 값이 음수가됩니다. (양수 비정규 행렬, 일명 비 그램 리 언어 참조 ) 비 양성 정의 행렬은 일부 종류의 통계 분석에서 "잘못된 조건"입니다.
회귀의 공선 성 : 기하학적 설명 및 의미
엑스1엑스2와이와이'이자형와이와이'비1비2
엑스1엑스2와이'이자형그림에 그려진 그 (한 예측 자) 회귀의. 공선 성을 없애기 위해 변수를 삭제하는 것 외에도 다른 접근 방식도 있습니다.
엑스1엑스2
엑스1엑스2엑스1엑스1엑스2우리는 같은 집단의 다른 샘플에서 매우 다른 평면 X를 기대합니다. 평면 X가 다르면 예측, R- 제곱, 잔차, 계수 등 모든 것이 달라집니다. 비행기 X가 40도 어딘가에서 그림에서 잘 보입니다. 이와 같은 상황에서 추정치 (계수, R- 제곱 등)는 매우 신뢰할 수 없으며 어떤 사실이 큰 표준 오차로 표현되는지 는 매우 신뢰할 수 없습니다 . 반대로, 예측 변수가 공선과 거리가 먼 경우 예측 변수가 차지하는 공간이 데이터의 샘플링 변동에 강하기 때문에 추정값이 신뢰할 수 있습니다.
전체 매트릭스의 함수로서의 공선 성
두 변수 사이의 높은 상관 관계가 1보다 작더라도 전체 상관 관계 행렬을 반드시 단일하게 만들 필요는 없습니다. 나머지 상관 관계에 따라 다릅니다. 예를 들어이 상관 관계 매트릭스는 다음과 같습니다.
1.000 .990 .200
.990 1.000 .100
.200 .100 1.000
.00950
많은 통계적 분석에 적합하다고 간주되기에 아직 0과 충분히 다른 결정 요인 이 있습니다. 그러나이 매트릭스 :
1.000 .990 .239
.990 1.000 .100
.239 .100 1.000
.00010
0에 가까운 정도 를 결정 합니다.
공선 성 진단 : 추가 정보
회귀 분석과 같은 통계 데이터 분석에는 분석에서 일부 변수 또는 사례를 삭제하거나 다른 치유 수단을 수행하기에 충분히 강한 공선 성을 탐지 할 수있는 특수 지수 및 도구가 통합되어 있습니다. "공선 성 진단", "다공 선성", "단일 / 공선 성 공차", "조건 지수", "분산 분해 비율", "분산 인플레이션 계수 (VIF)"를 검색 (이 사이트 포함)하십시오.