데이터 공간, 가변 공간, 관측 공간, 모형 공간 (예 : 선형 회귀)


9

우리는 데이터 매트릭스 있다고 가정 이며, -by- 및 라벨 벡터 이고, 에 의하여 - 온한다. 여기에서 행렬의 각 행은 관측치이며 각 열은 차원 / 변수에 해당합니다. ( 가정 )XnpYnn>p

그런 다음 무엇을 data space, variable space, observation space, model space의미?

변수 벡터에 의해 스팬되어 있으므로 변수 공간이라고하는 순위 p 인 동안 n 좌표를 가지 므로 열 벡터에 의해 스팬 된 공간은 (축소 된) n -D 스페이스 입니까? 또는 각 차원 / 좌표가 관측치에 해당하므로 관측 공간이라고합니까?np

그리고 행 벡터가 차지하는 공간은 어떻습니까?


5
이것들은 보편적으로 알려진 용어가 아닙니다. 당신은 참조가 있습니까? 그렇지 않다면, 우리는 그들이 의미하는 바를 추측 할 수 있습니다.
whuber

1
나는 참조가 없다. 한때 교수님이 얼마 전에 말씀하신 것을 들었습니다.
user3813057

3
그러므로 교수님이 언젠가이 용어들을 정의 하셨을 것입니다. 어쩌면 그들은 수업 노트에있을 수도 있습니다 ....
whuber

답변:


14

이 용어는 다변량 통계에 관한 일부 책에 나타납니다. 정량적 특징 데이터 매트릭스에 n의해 개인이 있다고 가정하십시오 p. 그런 다음 축이 피처 인 공간에서 개인을 점으로 플롯 할 수 있습니다. 그것은 가변적 인 공간 플롯으로 알려진 고전적인 산점도 입니다. 우리는 개인의 구름이 축 특징에 의해 정의 된 공간에 걸쳐 있다고 말합니다 .

점이 변수이고 축이 개인 인 산점도를 생각할 수도 있습니다. 이전과 마찬가지로 절대적으로 이빨 만 튼튼합니다. 그것은 대상 공간 플롯 (또는 관측 공간 플롯)이 될 수 있으며 변수를 포함하는 변수는 그것을 정의합니다.

n>p두 번째 경우에는 (종종) p치수의 일부 치수 만 n중복되지 않습니다. 당신이하고 그릴 수 있습니다 것을 의미 p에 변수 포인트를 p차원 플롯 . 또한 전통적으로 변수 점은 일반적으로 원점과 연결되어 벡터 (화살표)로 나타납니다. 주제 공간 표현을 주로 사용하여 변수 간의 관계를 표시하므로 편의를 위해 좌표축 주제를 삭제하고 점을 화살표로 표시합니다.1

피험자 공간 플롯을 그리기 전에 피처 (데이터 행렬의 열)가 중심에 놓인 경우 가변 벡터 사이의 각도 코사인은 Pearson 상관과 같지만 벡터 길이는 변수의 표준 (루트 제곱의 합)과 같습니다 ) 또는 표준 편차 ( df 로 나눈 경우 ).

가변 공간과 주제 공간은 같은 동전의 양면이며, 동일한 유클리드 분석 공간이며 서로 거울처럼 보입니다. 이들은 0이 아닌 고유 값 및 고유 벡터와 같은 동일한 속성을 공유합니다. 그러므로 피험자와 변수를 나란히 해당 분석 공간의 주축 공간 (또는 다른 직교 기준) 공간의 점으로 나눌 수 있습니다. 이 조인트 플롯을 biplot 이라고 합니다 . "데이터 공간"이라는 용어의 의미가 무엇인지 정확히 알지 못합니다. 특정 의미가있는 경우 주제 공간과 가변 공간이 공통적으로 존재하는 분석 공간이라고 가정합니다.

여기에 이미지 설명을 입력하십시오

일부 로컬 링크 :

  • 주성분 (PCA) 의 주제 공간 표현 , 선형 회귀요인 분석 , 다시 회귀를 보여주는 그림 . 이를 회귀 및 PCA 의 전통적인 가변 공간 (산란도) 표현과 비교하십시오 .
  • biplot의 이론적 설명 . PCA에서 biplot의 구조를 설명하는 자율 학습 .
  • 주제 공간 플롯에서 PCA 작업을 기하학적으로 해결할 수 있는지 알아내는 게시물 도 참조하십시오 (PC가 타원을 정의하는 것처럼 보이지만 고유 한 타원을 찾는 방법은 무엇입니까?).

1n=5 개인과 p=2변수가 있고 어떻게 5 차원 공간에서 2 점을 그리도록 마술처럼 관리 했다고 상상해보십시오 . 그런 다음 2 개 점을 포함하는 방식으로 2 개 축으로 정의 된 부분 공간을 회전 할 수 있습니다 (따라서 지금부터 그 평면에 걸쳐 있음). 그 후에는 다른 3 축 (치수)이 불필요 해지기 때문에 안전하게 떨어 뜨립니다. 서로에 대한 2 개의 가변 점의 위치는 유지되었다.


2
+1. 그러나 변수와 주제 공간이 "동일한 유클리드 분석 공간"이라는 정확한 수학적 의미가 무엇인지 잘 모르겠습니다.
amoeba

3
@amoeba, 대답에 수학적이지 않고 직관적으로 투명하기를 바랍니다 (특히 선형 대수학 전문가에게). 예를 들어, 데이터 행렬의 단일 값 분해에서 (비 플롯이 기반으로하는 DVD)-고유 값과 왼쪽 및 오른쪽 고유 벡터의 특성은 무엇입니까? 그것은 여러 가지 방법으로 배치 될 수있는 동일한 분석 공간이 아닌가? (ii) 축을 기준으로 행 단위로 행; (iii) 열을 한 줄씩 축으로?
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.