«eda» 태그된 질문

EDA는 "탐색 데이터 분석"을 나타냅니다. 확인 데이터 분석 또는 CDA (가설의 공식 테스트)와 대조를 위해 Tukey가 개발했습니다. EDA는 일반적으로 데이터를 이해하기 쉽게하고 새로운 통찰력을 얻기 위해 숫자 및 그래픽으로 데이터를 설명하는 것과 관련이 있습니다.

5
훈련 데이터 세트에 대해서만 탐색 적 데이터 분석을 수행하는 것이 더 낫습니까?
데이터 세트에서 탐색 적 데이터 분석 (EDA)을 수행하고 있습니다. 그런 다음 종속 변수를 예측하기 위해 일부 기능을 선택합니다. 문제는 : 훈련 데이터 세트에 대해서만 EDA를 수행해야합니까? 아니면 교육 및 테스트 데이터 세트에 함께 참여한 후 EDA를 수행하고이 분석을 기반으로 기능을 선택해야합니까?

2
EDA에 대한 베이지안 접근 방식과 빈번한 접근 방식에는 차이가 있습니까?
간단히 말해서 : 탐색 데이터 분석에 대한 베이지안 접근 방식과 빈번한 접근 방식에 차이가 있습니까? 히스토그램은 히스토그램, 산점도는 산점도 등으로 EDA 방법에 내재 된 편견이 없음을 알고 있으며 EDA가 가르치거나 제시되는 방법의 차이점에 대한 예를 찾지 못했습니다 (특히 A. Gelman의 이론적 논문은 무시). . 마지막으로, 적용되는 모든 것들의 중재자 인 …

3
적절한 분석 기술 및 테스트를 선택하는 데 도움이되는 순서도
통계 지식이 필요하지만 공식적으로 훈련 된 통계학자는 아니지만 특정 문제를 해결하기위한 올바른 접근 방식을 선택하는 데 도움이되는 순서도 (또는 일종의 의사 결정 트리)를 갖는 것이 도움이됩니다. 기술이 필요합니다. 기술 X를 사용하십시오. 데이터가 정상이 아닌 경우 Y 또는 Z를 사용하십시오 "). 인터넷 검색 후 다양한 커버리지와 품질에 대한 몇 가지 시도를 …

6
변수 간의 관계를 식별하기위한 R 패키지
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 3 년 전 . 변수 사이에 관계가 있는지 여부를 탐색하는 데 사용할 수있는 R 패키지가 있습니까? 일반적으로 패턴을 찾을 때 상관 관계를보고 패싯 플롯을 봅니다. 그런 다음 …

4
데이터를 집계하고 분석하는 가장 좋은 방법
최근에 머신 러닝 및 데이터 분석을 가르치기 시작하면서 대규모 데이터 세트를 생성하고 쿼리해야 할 필요성에 직면했습니다. 전문적이고 개인적인 삶에서 수집 한 데이터를 수집하고 분석하고 싶지만 다음을 수행하는 가장 좋은 방법은 확실하지 않습니다. 이 데이터를 어떻게 저장해야합니까? 뛰어나다? SQL? ?? 초보자가이 데이터를 분석하기 시작하는 좋은 방법은 무엇입니까? 저는 전문 컴퓨터 프로그래머이므로 …

2
구조물의 독립성을 결정하는 탐색 적 및 확인 적 요인 분석의 차이점
연구자들은 종종 매우 유사한 항목을 가진 두 가지 척도를 사용하고 서로 다른 것을 측정한다고 주장합니다 (예 : "저는 자동차를 둘러 볼 때 항상 걱정합니다"; "자동차가 두렵습니다"). 자동차 척도에 대한 자동차의 두려움 측정 및 불안에 대한 가상의 측정을 호출 할 수 있습니다. 그들이 실제로 다른 잠재 구조를 평가하거나 동일한 것을 측정하는 …

2
히스토그램에 종 모양의 곡선이 표시되면 데이터가 정상적으로 분포되어 있다고 말할 수 있습니까?
응답자 연령에 대한 히스토그램을 만들고 아주 멋진 종 모양의 곡선을 얻었으므로 분포가 정상이라고 결론을 내 렸습니다. 그런 다음 SPSS에서 n = 169로 정규성 검정을 실행했습니다 . Kolmogorov-Smirnov 검정 의 p- 값 (Sig.)이 0.05 미만이므로 데이터가 정규성 가정을 위반했습니다. 테스트에서 나이 분포가 정상이 아니라고 히스토그램이 종 모양의 곡선을 나타내는 이유는 무엇입니까? …

1
노치 상자 그림을 해석하는 방법
일부 EDA를 수행하는 동안 요인의 두 수준 간 차이를 설명하기 위해 상자 그림을 사용하기로 결정했습니다. ggplot 이 박스 플롯을 렌더링하는 방식 은 만족 스럽지만 약간 단순합니다 (아래의 첫 번째 플롯). 박스 플롯의 특성을 연구하는 동안 노치를 실험하기 시작했습니다. 나는 노치가 중앙값 주위에 CI를 표시한다는 것을 이해하고 두 상자의 노치가 겹치지 …

2
“데이터 자체를 말하게하라”는 의도는 무엇입니까?
다음 논문을 읽으면서 나는 다음 진술을 보았습니다. 언급 한 바와 같이,“데이터를 스스로 표현하게하려는”벤제 크리 (Benzecri) [1973]의 생각에 따라, 확률 론적 모델에 대한 언급없이 종종 제시된다. (인용은 JP Benzécri. L' analyse des données에서 발췌 한 것입니다. Tome II : L' analyse des 서신. Dunod, 1973.) 필자가이 논문을 읽는 방식에서 "데이터 자체를 …
10 eda  quotation 

3
데이터 셋을 첫눈에
내 무지를 용서해주세요 나는 내가 찾은 많은 새로운 데이터에 직면하고있는 상황에서 나 자신을 계속 찾고 있습니다. 이 데이터는 일반적으로 다음과 같습니다. Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) 보통 언뜻보기에 추세가 있는지 실제로 알 수는 없습니다. …

4
통계 모델링을 시작하기위한 팁과 요령?
저는 데이터 마이닝 분야에서 일하며 통계 학습은 거의 없었습니다. 최근에 저는 학습과 채굴을위한 베이지안 패러다임에 초점을 맞춘 많은 일을 읽었습니다. 내 질문은 (여러 부분으로) 있는데, 문제가 주어지면 통계 모델을 구성 할 수있는 일반적인 프레임 워크가 있습니까? 기본 프로세스를 모델링하려는 데이터 세트가 제공 될 때 가장 먼저해야 할 일은 무엇입니까? 이 …

4
1 중앙값이 다른 중앙값보다 낮다는 사실이 왜 그룹 1의 대부분이 그룹 2의 대부분보다 적다는 것을 의미합니까?
아래 박스 플롯은 "대부분의 남성이 대부분의 여성보다 빠르다"(이 데이터 세트에서)로 해석 될 수 있다고 믿었습니다. 주로 남성의 평균 시간이 여성의 시간보다 낮았 기 때문입니다. 그러나 R과 통계 퀴즈 에 관한 EdX 코스는 그것이 틀렸다고 나에게 말했다. 내 직감이 왜 틀린지 이해하도록 도와주세요. 질문은 다음과 같습니다. 2002 년 뉴욕시 마라톤에서 나온 …

2
혼합 모델을위한 파라 메트릭, 세미 파라 메트릭 및 비 파라 메트릭 부트 스트랩
이 기사 에서 다음과 같은 이식편을 가져옵니다 . 부트 스트랩을 사용하고 R boot패키지가있는 선형 혼합 모델을 위해 파라 메트릭, 반 파라 메트릭 및 비 파라 메트릭 부트 스트랩 부트 스트랩을 구현하려고 초보자 입니다. R 코드 내 R코드 는 다음과 같습니다 . library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
데이터에서 새로운 지식을 발견하기위한 지침
나는 나 자신이나 다른 사람을 지적하기 위해 무언가를 계획한다. 일반적으로 질문이이 프로세스를 시작하며 종종 특정 답변을 요구하는 사람이 있습니다. 덜 편향된 방식으로 데이터에 대한 흥미로운 것을 어떻게 배울 수 있습니까? 지금 나는 대략이 방법을 따르고 있습니다. 요약 통계. 스트립 차트. 산포도. 흥미로운 데이터 하위 세트로 반복 할 수도 있습니다. 그러나 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.