통계 및 빅 데이터 histogram

4

히스토그램은 변수의 분포를 잘 보여줍니다. 상자 그림은 같은 일을 시도하지만이 변수의 분포에 대한 그림을 제공하지는 않습니다. 사람들이 왜 상자 그림을 사용하는지 이해하지 못합니다. 히스토그램은 모든면에서 더 좋습니다. 둘 다 사용하는 이유가 있습니까? 박스 플롯이 제공하는 유일한 것은 : 이상치입니다! 어떤 관측치가 특이 치 일지 알려줍니다.

13 data-visualization histogram boxplot

4

히스토그램에서 평균을 나타내는 것이 적절합니까?

평균값을 시각화하기 위해 히스토그램에 수직선을 추가하는 것이 "좋아"입니까? 나에게는 괜찮은 것 같지만 교과서와 같은 것에서는 이것을 본 적이 없으므로 그렇게하지 않는 어떤 종류의 협약이 있는지 궁금합니다. 그래프는 용어 용지에 대한 것이므로 실수로 중요하지 않은 통계 통계 규칙을 실수로 위반하지 않도록하고 싶습니다. :)

13 self-study data-visualization mean histogram

3

히스토그램으로 분포를 식별하는 데 도움이 필요합니다

특정 신호의 등록 된 진폭 최대 값의 샘플 모집단이 있습니다. 인구는 약 1,500 만 개의 샘플입니다. 인구의 히스토그램을 만들었지 만 그러한 히스토그램으로 분포를 추측 할 수는 없습니다. EDIT1 : 원시 샘플 값이있는 파일은 다음과 같습니다 : 원시 데이터 다음 히스토그램으로 누구나 분포를 추정 할 수 있습니다.

13 distributions histogram

2

시각화가 데이터 변환을위한 충분한 근거가됩니까?

문제 예를 들어 각 매개 변수마다 다른 막대가있는 막대 그림과 y 축의 분산과 같이 30 개 매개 변수 각각에 의해 설명 된 분산을 플로팅하고 싶습니다. 그러나 분산은 아래 히스토그램에서 볼 수 있듯이 0을 포함하여 작은 값으로 치우칩니다. 변환 하면 작은 값 (아래 막대 그래프 및 막대 그래프)의 차이점을 쉽게 볼 …

13 data-visualization data-transformation histogram

3

알 수없는 분포의 데이터를 정규화하는 방법

특정 유형의 반복 측정 데이터 중 가장 적절한 특성 분포를 찾으려고합니다. 본질적으로 지질학 분야에서는 종종 사건이 발생한 기간 (암석이 임계 온도 이하로 냉각 됨)을 찾기 위해 표본 (암석 덩어리)에서 광물의 방사성 연대 측정을 사용합니다. 일반적으로 각 샘플에서 여러 (3-10) 측정이 수행됩니다. 그리고, 평균 및 표준 편차 σ 가 취해진 다. …

12 distributions normal-distribution normalization histogram

2

QQ 플롯이 히스토그램과 일치하지 않습니다

히스토그램, 커널 밀도 및 재정 로그 수익률의 정규 분포가 손실로 바뀌고 (표지가 변경됨) 이러한 데이터의 일반적인 QQ 플롯이 있습니다. QQ 플롯은 꼬리가 올바르게 장착되지 않았 음을 명확하게 보여줍니다. 그러나 히스토그램과 적합 정규 분포 (파란색)를 보면 0.0 정도의 값도 올바르게 피팅되지 않습니다. 따라서 QQ 플롯은 꼬리 만 제대로 적합하지 않지만 전체 …

12 data-visualization normality-assumption histogram qq-plot

2

비닝 된 데이터의 3 분위를 추정하는 방법은 무엇입니까?

모집단의 4 분의 1 이상을 포함하는 개방 구간에 속하는 경우 3 분위를 결정하는 기술적 트릭이 있습니까 (그래서 구간을 닫고 표준 공식을 사용할 수 없음)? 편집하다 내가 무언가를 잘못 이해했을 때 나는 다소 완전한 맥락을 제공 할 것이다. 두 개의 열과 6 개의 행이있는 테이블에 데이터가 정렬되어 있습니다. 각 열에는 간격 …

12 distributions histogram descriptive-statistics

2

히스토그램에 종 모양의 곡선이 표시되면 데이터가 정상적으로 분포되어 있다고 말할 수 있습니까?

응답자 연령에 대한 히스토그램을 만들고 아주 멋진 종 모양의 곡선을 얻었으므로 분포가 정상이라고 결론을 내 렸습니다. 그런 다음 SPSS에서 n = 169로 정규성 검정을 실행했습니다 . Kolmogorov-Smirnov 검정 의 p- 값 (Sig.)이 0.05 미만이므로 데이터가 정규성 가정을 위반했습니다. 테스트에서 나이 분포가 정상이 아니라고 히스토그램이 종 모양의 곡선을 나타내는 이유는 무엇입니까? …

11 normality-assumption kolmogorov-smirnov histogram eda

2

정렬 된 데이터 모음을 '지능적으로'비닝하는 방법은 무엇입니까?

지능적으로 정렬 된 컬렉션을 비우려고합니다. 개의 데이터 모음 이 있습니다. 하지만 난에이 데이터 맞는 것을 알고 불평등 쓰레기통 크기. 데이터에 적합하게 엔드 포인트를 지능적으로 선택하는 방법을 모르겠습니다. 예를 들면 다음과 같습니다.m엔nn미디엄mm 내 컬렉션에 12 개의 항목이 있고 데이터가 3 개의 저장소에 적합하다는 것을 알고 있습니다. Index: 1 2 3 4 …

11 clustering histogram binning

1

종속 변수를 로그 변환했습니다. LOG 링크 기능과 함께 GLM 정규 분포를 사용할 수 있습니까?

GLM (Generalized Linear Models)과 관련하여 질문이 있습니다 .DV (종속 변수)는 연속적이고 정상이 아닙니다. 그래서 로그를 변환했습니다 (여전히 정상은 아니지만 개선되었습니다). DV를 두 가지 범주 형 변수와 하나의 연속 공변량과 관련시키고 싶습니다. 이를 위해 GLM (SPSS를 사용하고 있음)을 수행하려고하지만 선택할 배포 및 기능을 결정하는 방법을 잘 모르겠습니다. Levene의 비모수 검정을 수행했으며 …

10 normal-distribution generalized-linear-model data-transformation residuals histogram

1

균일 한 대 비 균일 빈을 가진 히스토그램

이 질문 은 균일 한 히스토그램과 비 균일 히스토그램의 기본적인 차이점을 설명합니다. 그리고이 질문 은 어떤 의미에서 히스토그램이 데이터 샘플이 추출 된 분포를 나타내는 정도를 최적화하는 균일 히스토그램의 빈 수를 선택하는 경험 법칙에 대해 설명합니다. 균일하지 않은 히스토그램과 균일하지 않은 히스토그램에 대해 같은 종류의 "최적"토론을 찾을 수 없습니다. 멀리있는 특이 …

10 nonparametric outliers histogram rule-of-thumb

2

데이터에서와 이블 매개 변수를 어떻게 확인할 수 있습니까?

나는 종종와 이블 분포를 사용하여 표현되는 풍속 데이터의 히스토그램을 가지고 있습니다. 히스토그램에 가장 적합한와 이블 모양 및 스케일 팩터를 계산하고 싶습니다. 목표는 프로그래밍 방식으로와 이블 형식을 결정하는 것이기 때문에 수치 솔루션 ( 그래픽 솔루션 과 반대)이 필요합니다 . 편집 : 샘플은 10 분마다 수집되며 풍속은 10 분 동안 평균입니다. 샘플에는 …

10 distributions histogram java

3

히스토그램의 간격 수에 대한 상한이 있습니까?

데이터 세트의 히스토그램에 대해 적절한 수의 구간 (빈) 을 선택하는 방법을 설명하는 여러 기사와 발췌문을 읽었 지만 포인트 수를 기준으로 최대 간격 이 어려운지 궁금합니다 . 데이터 세트 또는 다른 기준. 배경 : 내가 묻는 이유는 연구 논문의 절차에 따라 소프트웨어를 작성하려고하기 때문입니다. 절차의 한 단계는 데이터 세트에서 여러 히스토그램을 …

10 distributions data-visualization histogram

4

1 중앙값이 다른 중앙값보다 낮다는 사실이 왜 그룹 1의 대부분이 그룹 2의 대부분보다 적다는 것을 의미합니까?

아래 박스 플롯은 "대부분의 남성이 대부분의 여성보다 빠르다"(이 데이터 세트에서)로 해석 될 수 있다고 믿었습니다. 주로 남성의 평균 시간이 여성의 시간보다 낮았 기 때문입니다. 그러나 R과 통계 퀴즈 에 관한 EdX 코스는 그것이 틀렸다고 나에게 말했다. 내 직감이 왜 틀린지 이해하도록 도와주세요. 질문은 다음과 같습니다. 2002 년 뉴욕시 마라톤에서 나온 …

9 quantiles histogram boxplot eda

2

히스토그램 비닝에 대한 Doane의 공식

히스토그램에 사용할 가장 적합한 구간 수를 추정하기 위해 다양한 알고리즘을 구현하고 있습니다. 내가 구현하고있는 대부분의 내용은 Wikipedia "히스토그램"페이지 " 빈 수 및 너비 "* 섹션에 설명되어 있습니다. Doane의 공식에 문제가 있습니다. 1 + log(n) + log(1 + kurtosis(data) * sqrt(n / 6.)) n데이터 크기는 어디에 있습니까 ? 문제는 첨도가 음수 …

9 histogram binning

«histogram» 태그된 질문