상자와 수염이 같은 Anscombe와 유사한 데이터 세트 (평균 / 표준 / 중앙 / MAD / 최소 / 최대)


21

편집 :이 질문이 팽창함에 따라 요약 : 동일한 혼합 통계 (평균, 중간, 중간 범위 및 관련 분산 및 회귀)로 다른 의미 있고 해석 가능한 데이터 집합 찾기

Anscombe 중주 (참조 ? 고차원 데이터를 시각화 목적 ) 네의 유명한 예는 - (네에서 동일한 한계 평균 / 표준 편차, 데이터 집합 4 개의 별도로)과 동일한 OLS 맞는 선형 , 회귀 및 잔차 제곱합, 상관 계수 . 따라서 유형 통계 (마진 및 조인트)는 동일하지만 데이터 세트는 상당히 다릅니다.y x y R 2 2xyxyR22

Anscombe의 사중주

편집 (OP 의견에서) 작은 데이터 세트 크기를 남겨두고 약간의 해석을 제안하겠습니다. 세트 1은 분산 노이즈와 표준 선형 (정확한 관계) 관계로 볼 수 있습니다. 세트 2는 더 높은 적합도의 절정이 될 수있는 깨끗한 관계를 보여줍니다. 세트 3은 특이 치가 하나 인 명확한 선형 통계 학적 의존성을 보여줍니다. 세트 4는 더 까다 롭습니다. 에서 를 "예측"하려는 시도 는 실패에 묶인 것 같습니다. 의 설계 는 불충분 한 값 범위, 양자화 효과 ( 가 너무 많이 양자화 될 수 있음), 또는 사용자가 의존적이고 독립적 인 변수를 전환 한 히스테리시스 현상을 나타낼 수 있습니다.x x xyxxx

따라서 요약 기능은 매우 다른 동작을 숨 깁니다. 세트 2는 다항식 피팅을 더 잘 처리 할 수 ​​있습니다. Set 4 뿐만 아니라 특이 치에 강한 방법 ( )으로 3을 설정하십시오. 다른 비용 함수 나 불일치 지표가 데이터 집합 차별을 해결하거나 적어도 개선 할 수 있는지 궁금 할 것입니다. 편집 (OP 의견) : 블로그 게시물 Curious Regressions 는 다음과 같이 말합니다.121

덧붙여서, 나는 Frank Anscombe가 이러한 데이터 세트를 어떻게 만들 었는지 결코 밝히지 않았다고 들었습니다. 모든 요약 통계와 회귀 결과를 동일하게 얻는 것이 쉬운 작업이라고 생각되면 시도하십시오!

에서 Anscombe의 중주 유사한 목적을 위해 구성된 데이터 집합 , 몇 가지 흥미로운 데이터 세트는 같은 분위수 기반의 히스토그램 예를 들어, 주어진다. 나는 의미있는 관계와 혼합 된 통계의 혼합을 보지 못했습니다.

내 질문은 : (시각화를 유지하거나 trivariate)가 이변 량 있습니다 Anscombe 같은 데이터 세트 등, 그 같은 필요에 추가 타입 통계2 :

  • 그들의 음모는 마치 측정 값 사이의 법칙을 찾는 것처럼 y 의 관계로 해석 할 수 있습니다.xy
  • 그것들은 동일한 (더 강력한) 한계 속성 (동일한 중앙값과 절대 편차의 중앙값)을 가지고 있습니다.1
  • 그들은 같은 경계 상자를 가지고 있습니다 : 같은 최소, 최대 (따라서 중형 범위 및 중간 범위 통계).

이러한 데이터 세트는 각 변수에 대해 동일한 "상자 및 수염"플롯 요약 (최소, 최대, 중앙값, 중앙 절대 편차 / MAD, 평균 및 표준값 포함)을 갖지만 해석에서 여전히 상당히 다릅니다.

최소한의 절대 회귀가 데이터 세트에 대해 동일하다면 더 흥미로울 것입니다 (그러나 이미 너무 많이 묻습니다). 그들은이 될 수 주의 강력한 대없는 강력한 회귀, 마음 리처드 해밍의 인용에 도움 킵에 대해 이야기 할 때 :

컴퓨팅의 목적은 숫자가 아니라 통찰력입니다.

편집 (OP 의견에서) 유사한 통계를 사용하여 데이터를 생성하지만 다른 그래픽 , Sangit Chatterjee & Aykut Firata, American Statistician, 2007 또는 Cloning 데이터 에서 비슷한 문제가 처리됩니다 . Aust. 북아메리카 통계 J. 2009.

Chatterjee (2007)의 목적은 초기 데이터 세트와 동일한 평균 및 표준 편차를 갖는 새로운 쌍 을 생성 하는 동시에 다른 "불일치 / 비 유사성"목적 함수를 최대화하는 것입니다. 이러한 기능은 볼록하거나 구분할 수 없으므로 유전자 알고리즘 (GA)을 사용합니다. 중요한 단계는 직교 정규화로 구성되며 평균 및 (단위) 분산을 유지하는 것과 매우 일치합니다. 논문의 수치 (용지 함량의 절반)는 입력 및 GA 출력 데이터를 중첩합니다. 내 의견은 GA 출력이 원래의 직관적 해석을 많이 잃어 버린다는 것입니다.(x,y)

그리고 기술적으로 중앙값과 중간 범위는 보존되지 않으며, 본 논문에서는 , 1 통계를 보존하는 재 정규화 절차를 언급하지 않습니다 .21


3
동일한 상자 그림으로 단 변량 데이터 세트를 수행 한 직후에 논문의 개발을 기반으로 한 질문에 대한 답변으로 세트를 제공했습니다. 잠깐만, 내가 파 낼게 (편집) ... 여기 . 동일한 속성으로 더 많은 데이터 세트를 쉽게 만들 수 있습니다 ... 나는 다른 대답으로 여기를 설명 합니다.
Glen_b-복지 주 모니카

2
xy

xy

3
이 질문에 대한 이 답변 에 연결된 Chatterjee & Firat ( 미국 통계 학자 , 2007) 는 당신이 당신의 목적에 간단하게 적용 할 수있는 다소 일반적인 유전자 알고리즘을 제공합니다.
S. Kolassa-복원 모니카

1
도표는 분포 모멘트가 무시 될 때 무의미한 모멘트 모멘트의 예입니다. 평균, 표준 편차, 왜도 및 기타 모집단 모멘트는 해당 모집단을 가장 잘 나타내는 분포의 예상 값, 표준 편차, 왜도 및 기타 모멘트와 일치하지 않습니다. 위의 도표를 x- 값과 y- 값의 분포로 보면 모두 다르므로 분포 모멘트가 다릅니다. 이것은 아마도 잔류 구조를 무시하는 것보다 더 나쁩니다. 아마도 아마도 포인트 였을 것입니다.
Carl

답변:


1

구체적으로, 각각 관계를 제안하지만 각각의 관계는 다르지만 거의 동일한 두 개의 데이터 세트를 만드는 문제를 고려하고 있습니다.

  • 평균 x
  • y를 의미
  • SD x
  • SD y
  • 중앙값 x
  • 중앙값 y
  • 최소 x
  • 최소 y
  • 최대 x
  • 최대 y
  • x 의 중앙값으로부터의 중앙값 절대 편차
  • y 의 중앙값으로부터의 중앙값 절대 편차
  • 단순한 선형 회귀 계수의 Y 에서 X

meany=0miny=maxy

예를 들어,

엑스01929949596979891와이11201211120121

다음과 같이 위쪽 V 자형 그래프가 있습니다.

그래프

와이와이


좋은 기여. 실제로, 나는 수평선이 떨어졌고 약간의 속임수 OLS입니다. 반전은 좋은 생각이지만 데이터 집합이 다르면 비슷한 상태를 유지합니다. 그러나 나는 당신이 경로의 시작이 될 수있는 좋은 아이디어, 아마도 "N"모양과 같은 방식의 "W"모양을 생각
로랑 듀발
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.