통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
베이지안 통계에서 전력 분석이 필요합니까?
나는 최근 베이지안이 고전 통계를 취하는 것을 연구하고 있습니다. 베이 즈 요인에 대해 읽은 후,이 통계 관점에서 전력 분석이 필요한지 궁금해졌습니다. 이것이 베이 즈 요인이라는 사실을 궁금하게하는 주요 이유는 실제로 가능성 비율 인 것 같습니다. 25 : 1이되면 밤이라고 부를 수있을 것 같습니다. 나는 멀리 떨어져 있습니까? 더 많은 것을 …

3
중앙 한계 정리에 큰 표본 크기가 필요한 분포의 예
일부 책은 중앙 한계 정리가 대한 근사치를 제공하기 위해 크기가 30 이상인 표본 크기가 필요하다고 명시합니다 . 엑스¯엑스¯\bar{X} 이것이 모든 배포에 충분하지 않다는 것을 알고 있습니다. 큰 표본 크기 (아마도 100 또는 1000 이상)에서도 표본 평균의 분포가 여전히 치우친 분포의 일부 예를보고 싶습니다. 나는 이전에 그러한 예를 보았지만 어디에서 찾을 …

5
이산 변수와 연속 변수 간의 관계를 시각화하는 가장 좋은 방법은 무엇입니까?
다음 사이의 관계를 표시하는 가장 좋은 방법은 무엇입니까? 연속적이고 이산적인 변수 두 개의 이산 변수? 지금까지 산포도를 사용하여 연속 변수 간의 관계를 살펴 보았습니다. 그러나 불연속 변수의 경우 데이터 포인트가 특정 간격으로 누적됩니다. 따라서 최적의 선이 편향 될 수 있습니다.

2
로지스틱 회귀 분석에서 범주 형 예측 변수의 중요성
로지스틱 회귀 분석에서 범주 형 변수의 z 값을 해석하는 데 문제가 있습니다. 아래 예제에는 클래스가 3 개인 범주 형 변수가 있으며 z 값에 따라 CLASS2는 관련이 있지만 다른 클래스는 관련이 없습니다. 그러나 이것이 무엇을 의미합니까? 다른 수업을 하나로 합칠 수 있습니까? 전체 변수가 좋은 예측 변수가 아닐 수 있습니까? 이것은 …

1
R에서 'NA'값이 glm에서 처리되는 방식
거의 천 개의 변수 (V1)와 약 2 억 개의 데이터 포인트가 포함 된 데이터 테이블 T1이 있습니다. 데이터가 드물고 대부분의 항목이 NA입니다. 각 데이터 포인트에는 다른 ID와 구별하기 위해 고유 한 ID 및 날짜 쌍이 있습니다. 별도의 변수 세트 (V2)를 포함하는 다른 테이블 T2가 있습니다. 이 테이블에는 T2의 항목을 고유하게 …

1
통계표에없는 (보간) 값은 어떻게 찾습니까?
종종 사람들은 p- 값을 얻기 위해 프로그램을 사용하지만 때로는 어떤 이유로 든 테이블 세트에서 임계 값을 얻어야 할 수도 있습니다. 제한된 수의 유의 수준 및 제한된 자유도를 가진 통계표가 주어지면 다른 유의 수준 또는 자유도 (예 : t티t , 카이-제곱 또는 F에프F 표) 에서 근사 임계 값을 얻는 방법 ? …

3
데이터 마이닝에서 연관 규칙과 의사 결정 트리의 실제 차이점은 무엇입니까?
이 두 기술의 실제 차이점에 대한 간단한 설명이 있습니까? 둘 다 감독 학습에 사용되는 것으로 보입니다 (연관 규칙은 감독되지 않은 사람도 처리 할 수 ​​있음). 둘 다 예측에 사용될 수 있습니다 내가 '좋은'설명에서 찾은 가장 가까운 것은 Statsoft Textbook에서 입니다. 그들은 협회 규칙 이 다음을 위해 사용 된다고 말합니다 . …

2
어떤 GLM 제품군의 사용을 검증 할 수있는 진단은 무엇입니까?
이것은 매우 기초적인 것처럼 보이지만 항상이 시점에서 멈춰 있습니다. 내가 다루는 대부분의 데이터는 비정규 적이며 대부분의 분석은 GLM 구조를 기반으로합니다. 현재 분석을 위해 "보행 속도"(미터 / 분) 인 응답 변수가 있습니다. OLS를 사용할 수 없다는 것을 쉽게 알 수 있지만 어떤 가족 (감마, Weibull 등)이 적합한 지 결정하는 데 큰 …

5
교차 실험 (페어링) 실험에 대한 오차 막대를 표시하는 방법
다음 시나리오는 플롯 생성자로 조사자 (I), 검토 자 / 편집자 (CRAN과 관련이없는 R) 및 나 (M)의 트리오에서 가장 자주 묻는 질문이되었습니다. 우리는 (R)이 전형적인 의료 대장 검토 자라고 가정 할 수 있으며, 각 플롯에는 오류 막대가 있어야한다는 것을 알고 있어야합니다. 그렇지 않으면 잘못됩니다. 통계 검토자가 참여하면 문제는 훨씬 덜 중요합니다. …


1
크기 1과 3의 두 샘플을 비교하기위한 통계 테스트가 있습니까?
생태학 프로젝트를 위해 저의 실험실 그룹은 같은 양의 연못 물을 포함하는 4 개의 탱크, 1 개의 수생 식물 (수생 식물)이없는 대조군 및 각각의 동일한 양의 1 개의 수처리 식물로 3 개의 처리에 식초를 첨가했습니다. 식초를 첨가하는 목적은 pH를 낮추는 것이 었습니다. elodea가있는 탱크는 정상 pH로 더 빨리 돌아갈 것이라는 가설이있었습니다. …

1
lmer ()가 스플라인을 임의의 효과로 사용할 수 있습니까?
시간이 지남에 따라 일부 카운트 데이터의 랜덤 효과 모델을 작업 중이고 일부 트렌드를 제어하려고한다고 가정합니다. 일반적으로 다음과 같은 작업을 수행합니다. lmer(counts ~ dependent_variable + (1+t+I(t^2)|ID), family="poisson") 에 대한 2 차 도형을 포함합니다 t. LOESS 스무더 또는 스플라인과 같은보다 정교한 스무딩 기술을 사용하여 해당 관계를 모델링 할 수 있습니까?

2
열 / 윤곽지도에서 가장 효과적인 색상 사용
시간-주파수 EEG 결과를 제시 할 때 열 / 형상지도를 사용하는 것이 일반적입니다. 자주 선택되는 색 구성표 (및 내가 좋아하고 사용하는 색 구성표)는 "제트"색 구성표입니다 (예 : Google 이미지 검색 시간-주파수 EEG 참조 ). 이 플롯을 표현하기위한 더 나은 색 구성표 및 / 또는 그러한지도를 표시하기위한 지침이 있는지 궁금합니다. 예를 들어, …

2
우도 원칙이 잦은 확률과 충돌하면 그 중 하나를 버립니까?
최근에 여기 에 게시 된 의견 에서 한 의견 자는 Larry Wasserman 이 블로그를 가리키며이 기사는 빈번한 추론이 우연의 원칙과 충돌한다고 지적합니다. 우도 원칙은 단순히 유사한 우도 함수를 생성하는 실험에서도 유사한 추론이 이루어져야한다고 말합니다. 이 질문의 두 부분 : 빈번한 추론의 어떤 부분, 풍미 또는 학교가 구체적으로 가능성 원칙을 위반합니까? …

3
세 가지 형태의 "혼합 모델"해석
혼합 모델로 나를 혼란스럽게 만드는 차이점이 있으며, 명확성을 얻을 수 있는지 궁금합니다. 카운트 데이터의 혼합 모델이 있다고 가정 해 봅시다. 고정 효과 (A)와 시간 (T)에 대한 또 다른 변수로 원하는 변수가 있습니다 (예 : "사이트"변수). 내가 이해 한대로 : glmer(counts ~ A + T, data=data, family="Poisson") 고정 효과 모델입니다. glmer(counts …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.