통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


1
두 비율의 비율에 대한 신뢰 구간
제어 레이아웃의 링크에 대한 클릭률 (CTR)과 실험 레이아웃의 링크에 대한 클릭률) 이라는 두 가지 비율이 있으며이 비율 의 비율에 대한 95 % 신뢰 구간을 계산하려고합니다. 어떻게해야합니까? 델타 방법을 사용 하여이 비율의 분산을 계산할 수 있다는 것을 알고 있지만 그 외에도 무엇을 해야할지 모르겠습니다. 신뢰 구간의 중간 점 (내 관찰 된 …

2
AdaBoost가 과적 합하는 경향이 적습니까?
나는 AdaBoost (또는 다른 부스팅 기술)가 다른 학습 방법에 비해 과적 합하기 쉬운 지 아닌지에 대한 다양한 (겉보기에) 모순되는 진술을 읽었습니다. 둘 중 하나를 믿을만한 충분한 이유가 있습니까? 그것이 의존한다면, 그것은 무엇에 달려 있습니까? AdaBoost가 과적 합하는 경향이 적은 이유는 무엇입니까?

3
기계 학습 모델 결합
나는 데이터 마이닝 / 기계 학습 등을 처음 사용합니다. 예측을 개선하기 위해 여러 모델과 동일한 모델의 런을 결합하는 몇 가지 방법에 대해 읽었습니다. 몇 가지 논문 (이론과 그리스 문자는 흥미롭고 훌륭하지만 코드와 실제 예제는 짧음)을 읽은 것에 대한 나의 인상은 다음과 같이 가야한다는 것입니다. 모델 ( knn, RF등)을 가져 와서 …

4
p- 값을 서로 비교하는 것은 어떤 의미가 있습니까?
나는 각각 샘플을 포함하는 두 집단 (남성과 여성)이 있습니다. 각 샘플마다 두 가지 속성 A & B가 있습니다 (1 학년 평균 점수 및 SAT 점수). 나는 A와 B에 대해 개별적으로 t- 검정을 사용했습니다. 둘 다 두 그룹 사이에 중요한 차이점을 발견했습니다. 와 와 B .100010001000p=0.008p=0.008p=0.008p=0.002p=0.002p=0.002 재산 B가 재산 A보다 더 …


5
실험 설계의 블록은 무엇입니까?
실험 설계에서 블록의 개념에 대해 두 가지 질문이 있습니다. (1) 블록과 요인의 차이점은 무엇입니까? (2) 일부 책을 읽으려고했지만 분명하지 않은 내용이 있습니다. 저자는 항상 "블록 팩터"와 다른 팩터 사이에 상호 작용이 없다고 가정합니다.

2
캐럿 리샘플링 방법
caret다양한 모델링 절차를 테스트하기 위해 R 의 라이브러리 를 사용하고 있습니다 . trainControl목적 하나는 리샘플링 방법을 지정할 수있다. 방법이 설명되어 문서의 섹션 2.3을 포함한다 : boot, boot632, cv, LOOCV, LGOCV, repeatedcv와 oob. 이들 중 일부는 추론하기 쉽지만 이러한 방법 중 일부가 명확하게 정의되어 있지는 않습니다. 이러한 리샘플링 방법에 해당하는 절차는 …
20 r  resampling  caret 



6
회귀 모형에서 항을 언제 제거해야합니까?
다음과 같은 경우에 누군가가 조언 할 수 있습니까? 나는 4 개의 예측 변수가있는 일반적인 선형 모델을 다루고 있습니다. 가장 중요한 용어를 삭제할지 두 가지 생각을합니다. 그것의 - 값은 0.05 이상 조금이다. 이 항을 따라이 항을 떨어 뜨리는 것에 찬성하여 주장했습니다.이 항의 추정치에이 변수에 대한 표본 데이터의 사 분위수 범위를 곱하면이 …


8
"랩 노트북"소프트웨어에 대한 아이디어가 있습니까?
따라서 이것은 어떤 사이트에도 적합하지 않다고 생각하지만, 데이터를 잘 다루는 형제들 사이에서 여기서 시도해 볼 것이라고 생각했습니다. 나는 생물학에서 역학 및 생물 통계학에 왔으며, 여전히 그 분야의 습관이 있습니다. 그중 하나는 랩 노트북을 유지하는 것입니다. 분석, 생각, 결정, 분석에 관한 생각 등을 문서화하는 데 유용합니다. 한 곳에서 커밋 된 모든 …

2
혼합 효과 모델의 허용 된 비교 (주로 무작위 효과)
R의 lme4 패키지를 사용하여 혼합 효과 모델링을 살펴 보았습니다. 주로 lmer명령을 사용하고 있으므로 해당 구문을 사용하는 코드를 통해 질문을 제기합니다. 일반적인 쉬운 질문 일 수 있다고 생각합니다 lmer. 동일한 데이터 집합을 기반으로 가능성 비율 을 사용하여 구성된 두 모델을 비교해도 괜찮 습니까? 나는 그 대답이 "아니오"여야한다고 생각하지만, 틀릴 수 있습니다. …

3
스펙트럼 밀도에서 피크의 중요성 테스트
때때로 시계열의 주기성을 분석하기 위해 스펙트럼 밀도 플롯을 사용합니다. 일반적으로 육안 검사로 플롯을 분석 한 다음 주기성에 대한 결론을 도출하려고합니다. 그러나 통계학자는 플롯의 스파이크가 백색 잡음과 통계적으로 다른지 여부를 확인하기위한 테스트를 개발 했습니까? R- 전문가는 스펙트럼 밀도 분석 및 이러한 종류의 테스트를위한 패키지를 개발 했습니까? 누군가 도울 수 있다면 좋습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.