통계 및 빅 데이터

2

하나 관찰 설정에서 X 1 , ... , X NX1,…,XnX_1,\ldots,X_n 농도와 분포 분포 Fff (에 기초 공정한 추정기가 있으면 궁금 X 나XiX_i 밀도 다른 분포에 Hellinger 거리의) F 0f0f_0 , 즉 H ( f , f 0 ) = { 1 − ∫ X √F ( X ) F 0 …

20 pdf unbiased-estimator distance-functions functional-data-analysis hellinger

1

두 비율의 비율에 대한 신뢰 구간

제어 레이아웃의 링크에 대한 클릭률 (CTR)과 실험 레이아웃의 링크에 대한 클릭률) 이라는 두 가지 비율이 있으며이 비율 의 비율에 대한 95 % 신뢰 구간을 계산하려고합니다. 어떻게해야합니까? 델타 방법을 사용 하여이 비율의 분산을 계산할 수 있다는 것을 알고 있지만 그 외에도 무엇을 해야할지 모르겠습니다. 신뢰 구간의 중간 점 (내 관찰 된 …

20 confidence-interval

2

AdaBoost가 과적 합하는 경향이 적습니까?

나는 AdaBoost (또는 다른 부스팅 기술)가 다른 학습 방법에 비해 과적 합하기 쉬운 지 아닌지에 대한 다양한 (겉보기에) 모순되는 진술을 읽었습니다. 둘 중 하나를 믿을만한 충분한 이유가 있습니까? 그것이 의존한다면, 그것은 무엇에 달려 있습니까? AdaBoost가 과적 합하는 경향이 적은 이유는 무엇입니까?

20 machine-learning boosting

3

기계 학습 모델 결합

나는 데이터 마이닝 / 기계 학습 등을 처음 사용합니다. 예측을 개선하기 위해 여러 모델과 동일한 모델의 런을 결합하는 몇 가지 방법에 대해 읽었습니다. 몇 가지 논문 (이론과 그리스 문자는 흥미롭고 훌륭하지만 코드와 실제 예제는 짧음)을 읽은 것에 대한 나의 인상은 다음과 같이 가야한다는 것입니다. 모델 ( knn, RF등)을 가져 와서 …

20 r random-forest k-nearest-neighbour ensemble

4

p- 값을 서로 비교하는 것은 어떤 의미가 있습니까?

나는 각각 샘플을 포함하는 두 집단 (남성과 여성)이 있습니다. 각 샘플마다 두 가지 속성 A & B가 있습니다 (1 학년 평균 점수 및 SAT 점수). 나는 A와 B에 대해 개별적으로 t- 검정을 사용했습니다. 둘 다 두 그룹 사이에 중요한 차이점을 발견했습니다. 와 와 B .100010001000p=0.008p=0.008p=0.008p=0.002p=0.002p=0.002 재산 B가 재산 A보다 더 …

20 statistical-significance t-test p-value effect-size

1

변수 내에서 분산과 쌍별 거리 사이의 링크

우리는 두 변수 (동일 샘플 크기)이 있으면 증명주십시오 및 Y 및 분산 에서 X가 보다 큰 Y 후, 제곱 된 차이의 합 내의 데이터 포인트 사이의 (유클리드 거리 제곱 IE) X 또한보다 큰 Y 내에서 .XXXYYYXXXYYYXXXYYY

20 variance distance

5

실험 설계의 블록은 무엇입니까?

실험 설계에서 블록의 개념에 대해 두 가지 질문이 있습니다. (1) 블록과 요인의 차이점은 무엇입니까? (2) 일부 책을 읽으려고했지만 분명하지 않은 내용이 있습니다. 저자는 항상 "블록 팩터"와 다른 팩터 사이에 상호 작용이 없다고 가정합니다.

20 experiment-design interaction interpretation

2

캐럿 리샘플링 방법

caret다양한 모델링 절차를 테스트하기 위해 R 의 라이브러리 를 사용하고 있습니다 . trainControl목적 하나는 리샘플링 방법을 지정할 수있다. 방법이 설명되어 문서의 섹션 2.3을 포함한다 : boot, boot632, cv, LOOCV, LGOCV, repeatedcv와 oob. 이들 중 일부는 추론하기 쉽지만 이러한 방법 중 일부가 명확하게 정의되어 있지는 않습니다. 이러한 리샘플링 방법에 해당하는 절차는 …

20 r resampling caret

4

파라 메트릭 및 비 파라 메트릭 통계 테스트가 있습니까?

파라 메트릭 및 비 파라 메트릭 통계 테스트가 있습니까? 이 질문은 인터뷰 패널에 의해 요청되었습니다. 유효한 질문입니까?

20 nonparametric terminology parametric

2

유의성 테스트 또는 교차 검증?

상관 변수를 선택하는 두 가지 일반적인 방법은 유의성 테스트와 교차 검증입니다. 각각 어떤 문제를 해결하려고하는데 언제 서로 선호합니까?

20 cross-validation feature-selection

6

회귀 모형에서 항을 언제 제거해야합니까?

다음과 같은 경우에 누군가가 조언 할 수 있습니까? 나는 4 개의 예측 변수가있는 일반적인 선형 모델을 다루고 있습니다. 가장 중요한 용어를 삭제할지 두 가지 생각을합니다. 그것의 - 값은 0.05 이상 조금이다. 이 항을 따라이 항을 떨어 뜨리는 것에 찬성하여 주장했습니다.이 항의 추정치에이 변수에 대한 표본 데이터의 사 분위수 범위를 곱하면이 …

20 regression model-selection

4

"큰 p, 작은 n"결과 요약

누구든지 "Large , Small "결과 에 대한 설문지를 가리킬 수 있습니까 ? 이 문제가 회귀, 분류, Hotelling의 테스트 등과 같은 다양한 연구 환경에서 어떻게 나타나는지에 관심이 있습니다 .피피p엔엔n

20 regression classification multivariate-analysis

8

"랩 노트북"소프트웨어에 대한 아이디어가 있습니까?

따라서 이것은 어떤 사이트에도 적합하지 않다고 생각하지만, 데이터를 잘 다루는 형제들 사이에서 여기서 시도해 볼 것이라고 생각했습니다. 나는 생물학에서 역학 및 생물 통계학에 왔으며, 여전히 그 분야의 습관이 있습니다. 그중 하나는 랩 노트북을 유지하는 것입니다. 분석, 생각, 결정, 분석에 관한 생각 등을 문서화하는 데 유용합니다. 한 곳에서 커밋 된 모든 …

20 references software eda

2

혼합 효과 모델의 허용 된 비교 (주로 무작위 효과)

R의 lme4 패키지를 사용하여 혼합 효과 모델링을 살펴 보았습니다. 주로 lmer명령을 사용하고 있으므로 해당 구문을 사용하는 코드를 통해 질문을 제기합니다. 일반적인 쉬운 질문 일 수 있다고 생각합니다 lmer. 동일한 데이터 집합을 기반으로 가능성 비율 을 사용하여 구성된 두 모델을 비교해도 괜찮 습니까? 나는 그 대답이 "아니오"여야한다고 생각하지만, 틀릴 수 있습니다. …

20 r mixed-model lme4-nlme likelihood-ratio

3

스펙트럼 밀도에서 피크의 중요성 테스트

때때로 시계열의 주기성을 분석하기 위해 스펙트럼 밀도 플롯을 사용합니다. 일반적으로 육안 검사로 플롯을 분석 한 다음 주기성에 대한 결론을 도출하려고합니다. 그러나 통계학자는 플롯의 스파이크가 백색 잡음과 통계적으로 다른지 여부를 확인하기위한 테스트를 개발 했습니까? R- 전문가는 스펙트럼 밀도 분석 및 이러한 종류의 테스트를위한 패키지를 개발 했습니까? 누군가 도울 수 있다면 좋습니다. …

20 r time-series hypothesis-testing