통계 학습에서 iid 가정의 중요성

54

통계적 학습, 내재적으로 또는 명시 적으로, 하나는 반드시 학습 집합에 있다고 가정 으로 구성되는 입력 / 응답 튜플 되어 독립적 같은 조인트 분포로부터 인출 과 $\mathcal{D} = \{ \bf {X}, \bf{y} \}$ $N$ $({\bf{X}}_i,y_i)$ $\mathbb{P}({\bf{X}},y)$

p (X, y) = p (y | X) p (X)

$p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}})$

그리고 특정 학습 알고리즘을 통해 우리가 포착하려고하는 관계를 $p( y \vert {\bf{X}})$ . 수학적으로이 iid 가정은 다음과 같이 씁니다.

\begin{matrix} (X_{i}, y_{i}) \sim P (X, y), \forall i = 1, . . ., N \\ (X_{i}, y_{i}) independent of (X_{j}, y_{j}), \forall i \neq j \in {1, . . ., N} \end{matrix}

$\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j \in \{1,...,N\} \end{gather}$

나는 우리가이 가정이 실제로 거의 만족하지 않는다는 것에 모두 동의 할 수 있다고 생각한다. 관련 SE 질문 과 @Glen_b 및 @Luca의 현명한 의견을 참조하십시오 .

내 질문은 따라서 :

실제로 iid 가정이 정확히 어디에 중요해 집니까?

[문맥]

특정 모델을 훈련시키기 위해 이러한 엄격한 가정이 필요하지 않은 많은 상황 (예 : 선형 회귀 방법)을 생각할 수 있거나 적어도 하나는 iid 가정을 해결하고 강력한 결과를 얻을 수 있기 때문에 이것을 묻습니다. 실제로 결과 는 일반적으로 동일하게 유지 됩니다. 이는 선형 회귀 분석에서 이분산성 및 자기 상관 일관성있는 HAC 추정기 (예 : 이분산성 및 자기 상관 일관성)를 추론 할 수 있는 추론 입니다. Gauss-Markov 가정의 위반을 설명하기 위해 OLS 추정기의 유한 샘플 동작).

따라서 iid 가정은 특정 학습 알고리즘을 훈련시킬 수는 없지만 교차 검증과 같은 기술을 사용하여 모델의 일반화 능력을 안정적으로 측정 할 수 있습니다 . 통계 학습에서 우리가 실제로 데이터에서 배울 수 있다는 것을 보여주기 때문에 우리가 마지막 날에 관심을 가지는 것은 유일합니다. 직관적으로, 종속 데이터에 교차 유효성 검사를 사용하는 것이 ( 이 흥미로운 예 에서 설명 / 설명 된 것처럼) 낙관적으로 바이어스 될 수 있음을 실제로 이해할 수 있습니다 .

나를 위해 iid는 특정 모델 을 훈련 시키는 것과는 관련이 없지만 해당 모델의 일반 성과 관련된 모든 것을 제공합니다 . 이것은 Huan Xu 등이 발견 한 논문에 동의하는 것 같습니다 . "Markovian 샘플의 견고성 및 일반화"를 참조 하십시오 .

그것에 동의하겠습니까?

[예]

이 설명을 도울 수 있다면, 스마트 중에서 선택 수행 올가미 알고리즘 사용의 문제점을 고려 소정 기능 트레이닝 샘플 와 같이 더 가정 할 수 있습니다. $P$ $N$ $({\bf{X}}_i,y_i)$ $\forall i=1,...,N$

X_{i} = [X_{i 1}, . . ., X_{i P}]

${\bf{X}}_i=[X_{i1},...,X_{iP}]$

입력 된 의존 그러므로 (각 기능에 대한 예 IID를 가정을 위반 선도 우리가 관찰 따라서 시간적 자기 상관을 도입 점 시계열) ${\bf{X}}_i$ $j=1,..,P$ $N$
조건부 응답 는 독립적입니다. $y_i \vert {\bf{X}}_i$
우리는 집니다. $P \gg N$

교차 검증 방법 (전체 데이터 세트에서)을 사용하여 LASSO 불이익 계수 를 결정할 계획이라면 가정 할 때 iid 가정 위반이 문제를 일으킬 수 있는 방법은 다음과 같습니다. 이 학습 전략의 일반화 오류에 대한 느낌을 얻으십시오 (유용한 경우를 제외하고는 LASSO의 고유 한 장단점에 대한 논의를 남길 수 있습니다). $\lambda$

— 쿼터 플
소스

1

관심있는 참조 프레임 워크를 제공 할 수 있으므로 모든 방법에 대해 토론이 너무 광범위하지는 않습니다. 여기서 선형 회귀에 대해 이야기하고 있습니까? 아니면 MLE을 사용하여 매개 변수의 포인트 추정에 대해 이야기하고 있습니까? 아니면 CLT 프레임 워크에 대해 이야기하고 있습니까?

— Greenparker

2

y_{i}

$y_i$

1

y

$y$

3

독립성 가정이 "일반적으로 위반된다"는 것에 동의하지 않습니다. 시계열은 매우 특별한 경우이며 일반적인 예보다는 예외입니다. Iid 가정을 사용하면 모델을 단순화하고보다 포용적인 모델을 만들 수 있으며 모델을 자주 만들 수 있습니다 (예 : 사례가 무작위로 그려 지므로 독립적으로 간주 될 수 있음).

— 팀

2

y_{i}

$y_i$

X_{i}

$\mathbf{X}_i$

i

$i$

32

$(\mathbf{X}_i, y_i)$ $i = 1, \ldots, N$

기본 가정

$y$ $\mathbf{X}$ $p(y \mid \mathbf{X})$

$y_i$ $X_i$ $p(y_i \mid X_i)$

$y_i$ $i$ $X_i$ $\mathbf{X}_i$

다음에서는 주로 독립의 역할에 중점을 둘 것입니다.

모델링

$y$ $\mathbf{X}$

$p(y \mid \mathbf{X})$ $y_i$ $\mathbf{X}_i$ $\mathbf{X}_i$
$p(\mathbf{X}, y)$ $(\mathbf{X}, y)$ $p(\mathbf{X} \mid y)$ $p(y)$ $p(y \mid \mathbf{X})$

$p(y \mid \mathbf{X})$

일관성 및 오류 범위

$p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$ $N$

$\mathbf{X}_i$ $\frac{1}{N} \mathbb{X}^T \mathbb{X} \to \Sigma$ $N \to \infty$ $\mathbb{X}$ $\mathbf{X}_i^T$

$N$

의존성 구조에 대한보다 자세한 지식이 있다면 모델링에 사용 된 독립성 가정을 의존성 구조를 포착하는 모델로 대체 할 수 있습니다. 이것은 종종 시계열에 대해 수행됩니다. 작업 모델이 좋을수록 더 효율적인 방법이 될 수 있습니다.

모델 평가

$p(y \mid \mathbf{X})$ $p(y \mid \mathbf{X})$

배깅 (bagging)과 마찬가지로, 데이터 세트의 무작위 분할은 모든 의존 구조를 "지배"합니다. 그러나 독립성 가정에 근거한 방법의 경우, 평가 추정치가 합리적이되기 위해서는 iid보다 약한 ergodicity 가정이 충분해야하지만, 이러한 추정치에 대한 표준 오차를 도출하기는 매우 어렵다.

[ Edit : 변수들 사이의 의존성은 iid 가정 하의 분포와는 다른 학습 된 모형의 분포를 초래합니다. 교차 검증에 의해 생성 된 추정치는 명백히 일반화 오류와 관련이 없습니다. 의존성이 강하면 추정치가 좋지 않을 수 있습니다.]

요약 (tl; dr)

$p(y \mid \mathbf{X})$ $\mathbf{X}$

$y$ $\mathbf{X}$

학습 방법을 도출 할 수있는 유용한 작업 모델링 가정
일관성을 증명하고 오류 범위를 제공하기에 충분하지만 필요하지 않은 가정
학습용 배깅 및 평가를위한 교차 검증과 같은 임의의 데이터 분할 기술을 사용하기에 충분하지만 필요하지 않은 가정

충분한 iid의 대안이 무엇인지 정확하게 이해하는 것은 사소하지 않으며 어느 정도 연구 주제입니다.

— NRH
소스

2

이것은 매우 잘 닦인 답변입니다. 그것은 그 자리에 있고 나 스스로 학습을위한 충분한 참조를 제공합니다. @ NRH에 대해 대단히 감사합니다. 현상금을 다른 질문에 대해 장려하기 위해 현상금을 남길 것입니다.하지만 원래의 모든 우려 사항을 아름답게 해결하기 때문에 이미이 답변을 수락 된 답변으로 표시했습니다.

— Quantuple

10

무엇 IID 가정 상태 것은 확률 변수가 있다는 것입니다 독립 과 동일하게 분산 . 의미하는 바를 공식적으로 정의 할 수 있지만 비공식적으로 모든 변수 는 서로 독립적으로 동일한 종류의 정보를 제공한다고합니다 (관련 교환 성에 대해서도 읽을 수 있음 ).

추상적 인 아이디어에서 잠시 구체적인 예로 넘어 갑시다. 대부분의 경우 데이터는 행 단위로, 변수는 열 단위로 행렬에 저장할 수 있습니다. 데이터가 iid 인 것으로 가정 하면 열 사이의 관계에만 신경 쓰지 않고 행 사이의 관계에 신경 쓰지 않아도됩니다. 두 가지 모두에 신경 쓰면 열의 행과 행의 행, 즉 모든 것의 모든 항목을 모델링합니다. 모든 것에 따라 단순화하고 모든 것에 대한 통계 모델 을 구축하는 것은 매우 어렵습니다 .

exchengeability를 사용하면 교차 유효성 검사 또는 부트 스트랩과 같은 방법을 사용할 수 있지만 중앙 제한 정리 를 사용할 수 있으며 모델링에 도움이되는 단순화를 만들 수 있습니다 (열 방향으로 생각할 수 있음) ).

LASSO 예제에서 알 수 있듯이 독립 가정은 종종 조건부 독립으로 완화됩니다 . 이 경우에도 독립적이고 동일하게 분산 된 "부품"이 필요합니다. 유사하게, 당신이 언급 한 시계열 모델들에 대해 더 부드러운 가정이 종종 만들어집니다. 즉, 정상 성 을 가정 합니다. 일반적인 현상에 대해 같은 생각을 가진 여러 가지 유사한 것들을 관찰하는 것이 중요합니다. 우리가 많은 독특하고 의존적 인 것들을 가지고 있다면 일반화 할 수 없습니다.

당신이 기억해야 할 것은 이것은 단지 가정 일 뿐이며 , 우리는 그것에 대해 엄격하지 않습니다. 그것은 독립적으로 어떤 일반적인 현상에 대한 유사한 정보를 전달하기에 충분한 것들을 갖는 것입니다. 사물이 서로 영향을 미쳤다면 분명히 비슷한 정보를 전달하여 유용하지 않을 것입니다.

교실에서 아이들의 능력에 대해 배우고 싶다고 상상해 보자. 시험 결과는 아이들이 스스로 독립적으로 행동 한 경우에만 능력을 나타내는 지표로 사용할 수 있습니다. 그들이 상호 작용하면 아마도 가장 영리한 아이의 능력 또는 가장 영향력있는 아이의 능력을 측정 할 것입니다. 그것은 당신이 아이들 사이에 상호 작용이나 의존성이 없다고 가정 할 필요는 없지만 단순히 스스로 시험을 수행했다는 것을 의미합니다. 아이들은 또한 "동일하게 배포"되어야하므로 결과를 해석하기 어려워 질 수 있기 때문에 다른 나라에서 왔거나 다른 언어로 말하거나 다른 연령대에있을 수 없습니다. 데이터가 iid 라고 가정 할 수있는 경우일반 모델을 만드는 데 집중할 수 있습니다. 비 아이 이드 데이터를 처리 할 수 있지만 데이터의 "노이즈"에 대해 훨씬 더 걱정해야합니다.

주요 질문 외에도 비 iid 데이터로 교차 유효성 검사를 요청하고 있습니다. iid 가정 의 중요성을 과소 평가하는 것처럼 보이지만 동시에이 가정을 충족하지 못하는 문제를 과대 평가하여 교차 검증을 제기합니다. 부트 스트랩 또는 교차 검증과 같은 리샘플링 방법을 사용할 때 이러한 데이터를 처리하는 방법에는 여러 가지가 있습니다. 시계열을 다루는 경우 값이 독립적이라고 가정 할 수 없으므로 임의의 소수 부분을 취하는 것은 데이터의 자동 상관 구조를 무시하기 때문에 나쁜 생각입니다. 이 때문에 시계열에서는 일반적으로 한 걸음 앞서 교차 검증을 사용합니다.즉, 다음 값을 예측하기 위해 계열에 참여합니다 (모델링에는 사용되지 않음). 데이터가있는 경우 유사 구조를 클러스터 , 당신은 전체 클러스터를 샘플링 데이터의 특성을 보존 할 수 있습니다. 따라서 모델링과 마찬가지로 교차 유효성 검사를 수행 할 때 비 iid -sness도 처리 할 수 있지만 이러한 경우 iid 데이터 용으로 설계된 방법이 적용되지 않으므로 데이터의 특성에 맞게 분석법을 조정해야합니다 .

— 팀
소스

y_{i} | X_{i}

$y_i \vert {\bf{X}}_i$

X_{i}

$\bf{X}_i$

(ctd) ... 다시 말해서, 당신의 대답이 iid 개념에 약간의 빛을 비추고 있지만 기술적으로 더 많은 것을 알고 싶습니다. 이것이 위반되면 그 효과는 무엇입니까?

— Quantuple

@Quantuple은 부트 스트랩 등의 시계열 샘플 전체 데이터 블록과 같은 비 iid 데이터에 대한 방법을 사용합니다.

— Tim

다시 감사합니다. 나는 그러한 기술에 대해 어딘가에서 읽은 것을 기억합니다. 모든 잠재적 후보 방법을 논의하는 출처가 있습니까? 방금 C. Bergmeir, R. Hyndman, B. Koo의 논문을 우연히 읽었습니다. "시계열 예측을 평가하기위한 교차 검증의 유효성에 대한 메모"를 최대한 빨리 읽으려고합니다.

— Quantuple

1

@Quantuple check Efron과 Tibshirani의 "부트 스트랩 소개"와 Davison과 Hinkley의 "부트 스트랩 방법 및 응용 프로그램"은 부트 스트랩에 대해 읽습니다 (동일한 아이디어가 교차 검증에 적용됨). 시계열 핸드북은 그러한 데이터에 대해 교차 검증 및 부트 스트랩을 사용하는 방법을 설명합니다 (예 : 한 단계 앞선 교차 검증). 내 편집 내용도 확인하십시오.

— Tim

3

iid를 안전하게 무시할 수있는 유일한 곳은 학부 통계 및 기계 학습 과정입니다. 당신은 다음과 같이 썼습니다 :

iid 가정을 해결하고 강력한 결과를 얻을 수 있습니다. 실제로 결과는 일반적으로 동일하게 유지되며 오히려 추론 할 수있는 추론입니다.

이는 모델의 기능적 형태가 기본적으로 올바른 것으로 가정 된 경우에만 해당됩니다. 그러나 이러한 가정은 iid보다 그럴듯하지 않습니다.

적용된 모델링 측면에서 iid가 매우 중요한 두 가지 방법이 있습니다.

귀하의 질문에 언급 한 바와 같이 대부분의 통계적 추론에 대한 명백한 가정입니다. 대부분의 실제 모델링에서 일부 단계에서는 변수 선택 및 모델 비교와 같이 사양을 테스트하기 위해 추론을 사용해야합니다. 따라서 iid 위반에도 불구하고 각 특정 모델 적합은 괜찮을 수 있지만 어쨌든 잘못된 모델을 선택할 수 있습니다.
iid 위반을 통한 사고는 데이터 생성 메커니즘에 대해 생각하는 유용한 방법이며, 따라서 모델의 적절한 사양을 우선적으로 생각하는 데 도움이됩니다. 두 가지 예 :
- 데이터가 클러스터 된 경우 이는 iid 위반입니다. 이에 대한 해결책은 혼합 모델 일 수 있습니다. 혼합 모델에서 도출 할 추론은 일반적으로 OLS에서 도출 한 추론과 완전히 다릅니다.
- iid 조사의 일부로 잔차를 검사 할 때 종속 변수와 독립 변수 간의 비선형 관계가 종종 나타납니다.

물론, 제가 지금까지 구축 한 거의 모든 모델에서 잔차 분포를 진정으로 정규 분포에 가까운 것으로 줄이는 것에 실패했습니다. 그럼에도 불구하고, 나는 항상 정말로 열심히 노력함으로써 많은 것을 얻습니다.

— 팀
소스

매우 통찰력있는 답변에 감사드립니다. (1)의 마지막 문장에 따르면 관측 된 데이터에 알맞은 모델을 여러 개 가질 수 있지만 표준 모델 선택 기술 (예 : 교차 검증)을 사용할 때는 가장 적합한 모델을 선택하지 않습니다 ( IID 위반으로 인해 추론이 편중되기 때문에 일반화 측면에서)? (2) 함수형 명세 (예 : 회귀 잔차)의 일부로 IID 잔차에 대해 말한 것처럼 여러분이 쓴 것을 무효화하지 않는 것 같습니다 (ctd) ...

— Quantuple

(ctd) ...하지만 원래의 질문은 모델 추정 후 비 iid 잔차가 아닌 비 iid 훈련 예제 (x, y)와 관련이 있습니다. iid가 아닌 훈련 예제 (예 : 시계열)가있을 때 내 질문은 iid가되도록 전처리 단계를 추가해야합니까? 그렇지 않은 경우 표준 절차를 적용하여 모델을 추정 / 교차 검증하려면주의해야 할 점은 무엇입니까?

— Quantuple

1

iid가 아닌 학습 예제가있는 경우 아이디어는 iii가 아닌 특성을 고려하고 iid 인 잔차를 생성하는 모델을 찾는 것입니다. 데이터를 사전 처리하는 것이 의미가있는 몇 가지 문제가 있지만 (예 : 선형 회귀 분석에서 변수 변환) iid 문제를 명시 적으로 해결하는 모델을 찾아서 많은 iid 문제를 해결하는 것이 좋습니다. 예를 들어, 시계열의 전달 함수 또는 횡단면 데이터의 계층 적 모델.

— Tim

나는 시계열 데이터가 일반적으로 어떤 형태의 의존성을 나타 내기 때문에 전달 함수와 같은 통계 모델을 통해 이것을 캡처하는 것이 자연 스럽다는 사실에 동의한다. 이것은 훈련에 관한 한입니다. 이제 교차 검증 (CV)에 관한 한, 비 iid-ness를 설명하기 위해 특별한 방법이 필요하다고 생각합니다. 나는 전송 기능을 사용해도 처음에는 데이터가 iid가 아니라는 사실을 바꾸지 않았습니다. 그러한 특별한 방법의 목록이 어딘가에 있습니까? 비 iid 데이터와 함께 표준 CV 방법을 사용할 때 낙관적 바이어스는 얼마나됩니까?

— Quantuple

1

교차 유효성 검사 방법의 특성과 문제에 따라 다릅니다. 트릭은 iid를 중심으로 암시 적으로 구조화되지 않은 교차 유효성 검사 방법을 사용하는 것입니다. 예를 들어, Jacknife는 거의 의미가 없습니다. 그러나 샘플을 추정, 테스트 및 검증 샘플로 분리하는 것이 좋습니다. 그러나 이것은 실제로 원래 질문과 다른 질문이며 내 전문 분야는 아닙니다.

— Tim

2

제 생각에 iid 가정이 통계 학습 (또는 일반적인 통계)에서 중요한 이유는 두 가지가 있습니다.

많은 수학 배후에서이 가정에 의존합니다. 학습 방법이 실제로 둘 이상의 데이터 세트에 대해 작동 함을 입증하려는 경우 iid 가정이 결국 자릅니다. 피하는 것이 가능하지만 수학은 몇 배 더 어려워집니다.
데이터에서 무언가를 배우려면 배울 것이 있다고 가정해야합니다. 모든 데이터 포인트가 다른 메커니즘으로 생성되면 학습이 불가능합니다. 따라서 어떤 것이 주어진 데이터 세트를 통합한다고 가정해야합니다. 데이터가 랜덤이라고 가정하면 확률 분포는 랜덤 변수에 대한 모든 정보를 포함하기 때문에 자연스럽게 확률 분포입니다.

$x_1,...,x_n$ $x_i$ $F_n$

$(x_{1}, . . ., x_{n}) \sim F_{n} .$ $(x_1,...,x_n)\sim F_n.$
$F_n$ $F_m$ $n$ $m$ $n$ $F_n$ $F_n$ $n$ $F_n=F^n,$ $x_i\sim F$ $F_n$ $F_m$ $n$ $F$

— mpiktas
소스

x

$x$

y

$y$

x

$x$

(ctd) ...하지만 첫 번째 글에서 언급했듯이 LASSO의 일반화 속성을 살펴볼 때 iid 교육 예제의 가정이 다시 나타납니다. 좋을 것 (그리고 필사적으로 찾고있는 것)은 iid 가정의 위반이 교차 검증 추정기에서 낙관적 편견을 어떻게 도입하는지 보여주는 참조 / 간단한 기술 설명입니다.

— Quantuple

y_{i} = α + β_{1} x_{1 i} + ε_{i}

$y_i = \alpha + \beta_1 x_{1i} + \varepsilon_i$

i = 1, . . ., n / 2

$i=1,...,n/2$

y_{i} = α + β_{2} x_{2 i} + ε_{i}

$y_i=\alpha+\beta_2x_{2i}+\varepsilon_i$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

x_{1 i}

$x_{1i}$

x_{2 i}

$x_{2i}$

i = 1, . . ., n / 2

$i=1,...,n/2$

i = n / 2 + 1, . . ., n

$i=n/2+1,...,n$

x

$x$

E [y | X]

$E[y \vert X]$

1

일부 상황에서는 데이터가 iid 가 아니며 통계 학습이 여전히 가능하다는 점을 강조하고 싶습니다 . 모든 관측치의 공동 분포에 대한 식별 가능한 모델을 갖는 것이 중요합니다. 관측치가 iid이면이 관절 분포는 단일 관측치의 한계 분포에서 쉽게 얻을 수 있습니다. 그러나 경우에 따라 공동 분포는 한계 분포에 의존하지 않고 직접 제공됩니다.

Y = X α + Z u + ε

$\let\epsilon\varepsilon Y = X \alpha + Z u + \epsilon$

Y \in R^{n}

$\def\R{\mathbb{R}}Y \in \R^n$

X \in R^{n \times p}

$X \in \R^{n\times p}$

α \in R^{p}

$\alpha \in \R^p$

Z \in R^{n \times q}

$Z \in \R^{n\times q}$

u \in R^{q}

$u \in \R^q$

ε \in R^{n}

$\epsilon\in\R^n$

X

$X$

Z

$Z$

α

$\alpha$

u

$u$

u \sim N (0, τ I_{q})

$\def\N{\mathcal{N}} u\sim \N(0,\tau I_q)$

ε \sim N (0, σ^{2} I_{n})

$\epsilon \sim \N(0,\sigma^2 I_n)$

τ

$\tau$

σ^{2}

$\sigma^2$

$Y$

Y \sim N (X α, τ Z Z^{'} + σ^{2} I_{n}) .

$Y \sim \N(X\alpha, \tau ZZ' + \sigma^2 I_n).$

α

$\alpha$

τ

$\tau$

σ^{2}

$\sigma^2$

Y

$Y$

n

$n$

— 엘비스
소스