“데이터 자체를 말하게하라”는 의도는 무엇입니까?


10

다음 논문을 읽으면서 나는 다음 진술을 보았습니다.

언급 한 바와 같이,“데이터를 스스로 표현하게하려는”벤제 크리 (Benzecri) [1973]의 생각에 따라, 확률 론적 모델에 대한 언급없이 종종 제시된다.

(인용은 JP Benzécri. L' analyse des données에서 발췌 한 것입니다. Tome II : L' analyse des 서신. Dunod, 1973.)

필자가이 논문을 읽는 방식에서 "데이터 자체를 말해 보자" 는 가능성 함수 나 데이터 생성 프로세스에 관계없이 데이터에 대한 다양한 측정 방법을 고려한 내용을 의미 합니다 .

이전에 "데이터 자체를 말해 보자"라는 말을 들었지만, 암시 된 내용에 대해서는 열심히 생각하지 않았습니다. 위의 해석 이이 인용에 의해 정식으로 암시 된 것입니까?


9
따옴표 자체를 말하십시오.
Mark L. Stone

@ MarkL.Stone : 데이터와 마찬가지로 따옴표는 문맥을 통해 더 잘 이해됩니다
Cliff AB

답변:


8

해석은 상황에 따라 다르지만 이것이 나타나는 일반적인 상황이 있습니다. 이 진술은 베이지안 분석에서 종종 분석의 사후 분포가 이전 가정에 견고하기를 원하므로 데이터의 효과가 사후를 지배한다는 사실을 강조하기 위해 종종 사용됩니다. 더 일반적으로 인용 부호는 일반적으로 통계 모델이 데이터를 모델의 검증 할 수없는 구조적 가정 인 해석으로 강제하지 않고 데이터의 구조를 따르기를 원한다는 것을 의미합니다.

언급 한 특정 인용문에는 "다른 방식으로 데이터가 아니라 데이터를 따라야합니다"(Benzécri J (1973) L' Analyse des Données 에서 번역) Tome II : L' Analyse des Correspondances . Dunod, P. 6). Benzécri는 통계 모델이 구조를 강요하기보다는 데이터에서 구조를 추출 해야한다고 주장했다 . 그는 분석가가 "데이터를 말하게"할 수 있도록 탐색 적 그래픽 방법의 사용을 매우 중요하게 생각했습니다.


(+1)이를 염두에두고, 첫 번째 링크 된 논문에서 인용 한 것은 이러한 방법이 모델 기반 의존성 구조가 아니라 경험적 공분산 구조를보고 있음을 암시한다고 가정합니다.
Cliff AB

1
네, 그렇습니다 Benzécri는 데이터 분석은 기본적으로 PCA의 고유 분해와 동일하다고 주장했습니다. 그는 "좋은 수학에서 데이터 분석을 수행하는 것은 단순히 고유 벡터를 검색하는 것 뿐이며, 모든 과학 (또는 예술)은 대각선화할 올바른 행렬을 찾는 데있다"고 말했다. ( Husson et al 2016 , p. 2 참조)
Ben-Reinstate Monica

2
하, 그에게 매우 흥미로운 주장입니다. 그런 맥락에서 논문의 인용은 훨씬 더 의미가 있습니다.
Cliff AB

예, 꽤 극단적입니다!
벤-복원 모니카

(+1). 언뜻보기에 인용문에 동의하지 않는 것처럼 보이지만 (결국 왜 무언가를 "부과하는 것이 좋을까요?") 비모수 통계에서 차원의 저주가 말하면, 파라 메트릭 모델을 통해 데이터를들을 때 스스로 말하는 데이터를보다 쉽게들을 수 있습니다.
Christoph Hanck

1

"데이터 마이닝"이 통계 전문가에게 가장 최근의 위협이었던 2005 년경에, "데이터 마이닝 원칙"이있는 포스터를 본 것을 기억합니다. 포함되었습니다). "데이터 마이닝"으로 간주 될 수있는 알고리즘에 대해 생각할 때, 선험적 및 재귀 적 분할이 생각 나게됩니다. 두 가지 알고리즘은 통계적 가정없이 동기를 부여하고 기본 데이터 세트에 대한 기본적인 요약을 제공합니다.

@Ben은 그 때 나는 문구의 역사를 더 잘 이해하지만 논문에서 인용 된 인용문에 대해 생각합니다.

MCA는 범주 형 데이터에 대한 PCA의 대응 물로 볼 수 있으며, 투영 된 점의 변동성을 최대화한다는 의미에서 데이터를 가장 잘 나타내는 부분 공간을 제공하기 위해 데이터 차원을 줄입니다. 언급 한 바와 같이,“데이터를 스스로 표현하게하라”는 Benz´ecri [1973]의 아이디어에 따라 확률 모델에 대한 언급없이 종종 제시된다.

MCA의 절차는 사전 모델링 또는 재귀 분할 (또는 그 문제에 대한 산술 평균)과 유사하지만 모델링없이 전혀 동기를 부여 할 수 있으며 데이터 기반의 기계 조작입니다. 첫 번째 원칙에 따라

데이터를 말할 수있는 스펙트럼이 있습니다. 우선 순위가 높은 완전 베이지안 모델은 한쪽 끝에 있습니다. 빈번한 비모수 적 모델은 다른쪽에 더 가깝습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.