편집 :이 질문이 팽창함에 따라 요약 : 동일한 혼합 통계 (평균, 중간, 중간 범위 및 관련 분산 및 회귀)로 다른 의미 있고 해석 가능한 데이터 집합 찾기
Anscombe 중주 (참조 ? 고차원 데이터를 시각화 목적 ) 네의 유명한 예는 - (네에서 동일한 한계 평균 / 표준 편차, 데이터 집합 4 개의 별도로)과 동일한 OLS 맞는 선형 , 회귀 및 잔차 제곱합, 상관 계수 . 따라서 유형 통계 (마진 및 조인트)는 동일하지만 데이터 세트는 상당히 다릅니다.y x y R 2 ℓ 2
편집 (OP 의견에서) 작은 데이터 세트 크기를 남겨두고 약간의 해석을 제안하겠습니다. 세트 1은 분산 노이즈와 표준 선형 (정확한 관계) 관계로 볼 수 있습니다. 세트 2는 더 높은 적합도의 절정이 될 수있는 깨끗한 관계를 보여줍니다. 세트 3은 특이 치가 하나 인 명확한 선형 통계 학적 의존성을 보여줍니다. 세트 4는 더 까다 롭습니다. 에서 를 "예측"하려는 시도 는 실패에 묶인 것 같습니다. 의 설계 는 불충분 한 값 범위, 양자화 효과 ( 가 너무 많이 양자화 될 수 있음), 또는 사용자가 의존적이고 독립적 인 변수를 전환 한 히스테리시스 현상을 나타낼 수 있습니다.x x x
따라서 요약 기능은 매우 다른 동작을 숨 깁니다. 세트 2는 다항식 피팅을 더 잘 처리 할 수 있습니다. Set 4 뿐만 아니라 특이 치에 강한 방법 ( )으로 3을 설정하십시오. 다른 비용 함수 나 불일치 지표가 데이터 집합 차별을 해결하거나 적어도 개선 할 수 있는지 궁금 할 것입니다. 편집 (OP 의견) : 블로그 게시물 Curious Regressions 는 다음과 같이 말합니다.ℓ 1
덧붙여서, 나는 Frank Anscombe가 이러한 데이터 세트를 어떻게 만들 었는지 결코 밝히지 않았다고 들었습니다. 모든 요약 통계와 회귀 결과를 동일하게 얻는 것이 쉬운 작업이라고 생각되면 시도하십시오!
에서 Anscombe의 중주 유사한 목적을 위해 구성된 데이터 집합 , 몇 가지 흥미로운 데이터 세트는 같은 분위수 기반의 히스토그램 예를 들어, 주어진다. 나는 의미있는 관계와 혼합 된 통계의 혼합을 보지 못했습니다.
내 질문은 : (시각화를 유지하거나 trivariate)가 이변 량 있습니다 Anscombe 같은 데이터 세트 등, 그 같은 필요에 추가 타입 통계 :
- 그들의 음모는 마치 측정 값 사이의 법칙을 찾는 것처럼 와 y 의 관계로 해석 할 수 있습니다.
- 그것들은 동일한 (더 강력한) 한계 속성 (동일한 중앙값과 절대 편차의 중앙값)을 가지고 있습니다.
- 그들은 같은 경계 상자를 가지고 있습니다 : 같은 최소, 최대 (따라서 중형 범위 및 중간 범위 통계).
이러한 데이터 세트는 각 변수에 대해 동일한 "상자 및 수염"플롯 요약 (최소, 최대, 중앙값, 중앙 절대 편차 / MAD, 평균 및 표준값 포함)을 갖지만 해석에서 여전히 상당히 다릅니다.
최소한의 절대 회귀가 데이터 세트에 대해 동일하다면 더 흥미로울 것입니다 (그러나 이미 너무 많이 묻습니다). 그들은이 될 수 주의 강력한 대없는 강력한 회귀, 마음 리처드 해밍의 인용에 도움 킵에 대해 이야기 할 때 :
컴퓨팅의 목적은 숫자가 아니라 통찰력입니다.
편집 (OP 의견에서) 유사한 통계를 사용하여 데이터를 생성하지만 다른 그래픽 , Sangit Chatterjee & Aykut Firata, American Statistician, 2007 또는 Cloning 데이터 에서 비슷한 문제가 처리됩니다 . Aust. 북아메리카 통계 J. 2009.
Chatterjee (2007)의 목적은 초기 데이터 세트와 동일한 평균 및 표준 편차를 갖는 새로운 쌍 을 생성 하는 동시에 다른 "불일치 / 비 유사성"목적 함수를 최대화하는 것입니다. 이러한 기능은 볼록하거나 구분할 수 없으므로 유전자 알고리즘 (GA)을 사용합니다. 중요한 단계는 직교 정규화로 구성되며 평균 및 (단위) 분산을 유지하는 것과 매우 일치합니다. 논문의 수치 (용지 함량의 절반)는 입력 및 GA 출력 데이터를 중첩합니다. 내 의견은 GA 출력이 원래의 직관적 해석을 많이 잃어 버린다는 것입니다.
그리고 기술적으로 중앙값과 중간 범위는 보존되지 않으며, 본 논문에서는 , ℓ 1 및 ℓ ∞ 통계를 보존하는 재 정규화 절차를 언급하지 않습니다 .