EDA에 대한 베이지안 접근 방식과 빈번한 접근 방식에는 차이가 있습니까?


14

간단히 말해서 : 탐색 데이터 분석에 대한 베이지안 접근 방식과 빈번한 접근 방식에 차이가 있습니까?

히스토그램은 히스토그램, 산점도는 산점도 등으로 EDA 방법에 내재 된 편견이 없음을 알고 있으며 EDA가 가르치거나 제시되는 방법의 차이점에 대한 예를 찾지 못했습니다 (특히 A. Gelman의 이론적 논문은 무시). . 마지막으로, 적용되는 모든 것들의 중재자 인 CRAN을 살펴 봤습니다. 베이지안 접근 방식에 맞는 패키지를 찾지 못했습니다. 그러나 나는 CV가 이것에 대해 밝힐 수있는 몇 명의 사람들이있을 것이라고 생각했습니다.

왜 차이점이 있습니까?

우선 :

  1. 적절한 이전 분포를 식별 할 때이를 시각적으로 조사해서는 안됩니까?
  2. 데이터를 요약하고 잦은 모델을 사용할지 아니면 베이지안 모델을 사용할지 제안 할 때 EDA가 어느 방향으로 가야합니까?
  3. 두 가지 접근 방식은 혼합 모델을 처리하는 방법에 대해 매우 분명한 차이점이 있습니다. 표본이 모집단의 혼합에서 나온 것임을 확인하는 것은 어렵고 혼합 매개 변수를 추정하는 데 사용 된 방법과 직접 관련이 있습니다.
  4. 두 가지 접근 방식 모두 확률 론적 모델을 통합하고 있으며 데이터 선택을 통해 모델 선택이 이루어집니다. 더 복잡한 데이터 또는 더 복잡한 모델은 EDA에서 더 많은 시간이 필요합니다. 확률 론적 모델들 또는 생성 과정들 사이의 이러한 차이점들로 인해, EDA 활동들에는 차이가 있으므로, 다른 확률 론적 접근들로부터 발생하는 차이점들이 있지 않아야 하는가?

참고 1 : "캠프"의 철학에 관심이 없습니다. EDA 툴킷과 방법의 차이 만 해결하고 싶습니다.

답변:


17

내 생각에, 베이 즈 대 잦은 주의자는 형식적 추론에 관한 것이고 탐색 적 데이터 분석도 아니다.

확실히, 당신의 포인트 (1), (3) 및 (4)를 분류하는 모델 평가 / 적합도 및 민감도 분석에 관해서는, 어떻게 진행되는지에 차이가있을 것입니다. 철학보다는 분석 방법과 계산 방법의 차이점이 있기 때문입니다.

귀하의 (2)와 관련하여, 나는 일반적으로 EDA의 결과가 베이지안 또는 빈번한 접근 방식을 가리키는 것으로 보지 않지만 오히려 그것이 가장 중요한 연구의 목표라고 생각합니다.

개인적으로, EDA (플러스와 심층 조사)를 통해 모델을 찾을 수 있었으며, 과학적 질문에 합리적으로 잘 대답하는 자연적 잦은 접근 방식을 찾을 수 있다면 그와 함께 갈 것입니다. , 빈번한 방법은 잘 작동하지 않으며 합리적인 사전이 있다면 Bayes를 사용합니다.


(+1) 아주 잘 말 했어요-특히 "EDA (플러스와 깊은 내성)는 저를 모델로 향하게 할 것입니다"
suncoolsu

+1도. EDA는 관점을 선택하는 것이 아니라 정보에 입각 한 의사 결정을 내리기 위해 데이터를 이해하는 것에 관한 것이 아닙니다.
Fomite

+1 좋은 답변입니다. 불행히도, 나는 원래의 질문이 오해되었다고 생각합니다. 베이지안 모델이나 잦은 모델을 결정하기 위해 EDA를 사용하는 것에 대해서는 묻지 않았습니다. 여러 사람이 같은 오해를 가지고있는 것 같으면 어떻게 말했는지 검토해야합니다.
반복자

@Iterator 나는 당신의 주요 질문을 이해합니다 : 베이지안과 잦은 사람들의 EDA 접근 방식에는 차이가 있습니까? 그것에 대한 나의 대답은 : 아니오; EDA는 빈번하거나 베이 시안이 아닙니다.
Karl

3
"탐사 데이터 분석"에 대한 나의 정의가 당신보다 더 좁다 고 생각합니다. 제 생각에는 모든 좋은 데이터 분석에는 탐색이 필요합니다. "탐사 데이터 분석"을 구별하는 것은 모델이 없거나 공식적인 추론을위한 노력이 있다는 것입니다.
Karl

0

EDA는 모델을 구축하고, 몇 가지 가정을하고, 필요한 경우 모델과 그 가정을 업데이트하는 데 도움이된다고 생각합니다. 모델 피팅 및 평가에 사용할 실용적인 접근 방식을 선택합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.