통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
James-Stein Estimator : Efron과 Morris 는 야구 예제에서 수축률에서
브래들리 에프론 (Bradley Efron)과 칼 모리스 (Carl Morris) 의 1977 Scientific American 논문에서 "Stein 's Paradox in Statistics"의 James-Stein Shrinkage factor 계산에 대한 질문이 있습니다 . 나는 야구 선수에 대한 데이터를 수집했고 아래에 주어진다 : Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 …



4
해석 가능한 모델을 원한다면 선형 회귀 이외의 방법이 있습니까?
랜덤 포레스트 또는 그래디언트 부스팅과 같은 "ML 모델"은 설명하기 어렵거나 "해석 할 수 없다"고 생각하기 때문에 선형 회귀 분석 이외의 모델을 예측에 사용하지 않는 일부 통계학자가 발생했습니다. 선형 회귀 분석에서 가정 집합이 확인되면 (오류의 정상 성, 균일 성, 다중 공선 성이 없음) t- 검정은 변수의 중요성을 테스트하는 방법을 제공합니다. 내 …

3
통계적 추론을 수행 할 때 정규화 사용
예측 모델을 구축 할 때 정규화의 이점에 대해 알고 있습니다 (바이어스 vs. 분산, 과적 합 방지). 그러나 회귀 모델의 주요 목적이 계수에 대한 추론 일 때 정규화 (lasso, ridge, elastic net)를 수행하는 것이 좋은 아이디어인지 궁금합니다. 나는 사람들의 생각과이를 다루는 학술지나 비 학술 기사에 대한 링크를 듣고 싶습니다.

2
lmer 모델에서 사후 테스트를 수행하는 방법은 무엇입니까?
이것은 내 데이터 프레임입니다. Group <- c("G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G1","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G2","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3","G3") Subject <- c("S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15","S1","S2","S3","S4","S5","S6","S7","S8","S9","S10","S11","S12","S13","S14","S15") Value <- c(9.832217741,13.62390117,13.19671612,14.68552076,9.26683366,11.67886655,14.65083473,12.20969772,11.58494621,13.58474896,12.49053635,10.28208078,12.21945867,12.58276212,15.42648969,9.466436017,11.46582655,10.78725485,10.66159358,10.86701127,12.97863424,12.85276916,8.672953949,10.44587257,13.62135205,13.64038394,12.45778874,8.655142642,10.65925259,13.18336949,11.96595556,13.5552118,11.8337142,14.01763101,11.37502161,14.14801305,13.21640866,9.141392359,11.65848845,14.20350364,14.1829714,11.26202565,11.98431285,13.77216009,11.57303893) data <- data.frame(Group, Subject, Value) 그런 다음 선형 혼합 효과 모델을 실행하여 "값"에 대한 3 개의 그룹 차이를 비교합니다. 여기서 "제목"은 임의의 요소입니다. library(lme4) library(lmerTest) model <- lmer (Value~Group + (1|Subject), data = data) summary(model) 결과는 다음과 …
18 r  lme4-nlme  post-hoc 

1
k-NN 계산 복잡성
순진한 검색 방법 (kd 트리 또는 이와 유사한 것 없음) 을 사용하는 k -NN 알고리즘 의 시간 복잡성은 무엇입니까 ? 하이퍼 파라미터 k 도 고려하여 시간 복잡성에 관심이 있습니다 . 나는 모순 된 답변을 찾았습니다. O (nd + kn), 여기서 n 은 학습 세트의 카디널리티이고 d 는 각 샘플의 차원입니다. …


3
Kullback-Leibler 분기 분석
다음 두 확률 분포를 고려해 봅시다. P Q 0.01 0.002 0.02 0.004 0.03 0.006 0.04 0.008 0.05 0.01 0.06 0.012 0.07 0.014 0.08 0.016 0.64 0.928 나는 인 Kullback-Leibler 분기를 계산 했습니다. 일반적 으로이 숫자가 무엇을 보여주고 싶습니까? 일반적으로 Kullback-Leibler 분기는 하나의 확률 분포가 다른 확률 분포와 얼마나 멀리 떨어져 …

4
베이지안 방법은 빈번한 방법보다 언제 선호됩니까?
나는 베이지안 기법에 대해 정말로 배우고 싶어서 나 자신을 조금 가르치려고 노력했다. 그러나 베이지안 기법을 사용할 때 Frequentist 방법보다 이점을 얻는 데 어려움을 겪고 있습니다. 예를 들어, 나는 일부 사람들이 유익한 정보를 사용하는 반면 다른 사람들은 비 정보적인 정보를 사용하는 방법에 대해 조금 보았습니다. 그러나 당신이 정보가없는 이전을 사용하고 있고 …

2
오버 샘플링 된 불균형 데이터에 대한 분류 테스트
심각하게 불균형 한 데이터를 작업 중입니다. 문헌에서, 리샘플링 (과다 또는 과소 샘플링)을 사용하여 데이터를 재조정하기 위해 여러 방법이 사용됩니다. 두 가지 좋은 접근 방식은 다음과 같습니다. SMOTE : 합성 소수 오버 샘플링 TEchnique ( SMOTE ) ADASYN : 불균형 학습을위한 적응 형 합성 샘플링 접근법 ( ADASYN ) ADASYN은 적응성이 …

1
R- 제곱의 조건부 기대
간단한 선형 모형을 고려하십시오. 와이y = X ' ββ + ϵyy=X′ββ+ϵ\pmb{y}=X'\pmb{\beta}+\epsilon 여기서 및 , p ≥ 2 및 X 는 열을 포함합니다. 상수.ϵ i ∼ i . 나는 . d .N ( 0 , σ 2 ) X ∈ R n × pϵi∼i.i.d.N(0,σ2)\epsilon_i\sim\mathrm{i.i.d.}\;\mathcal{N}(0,\sigma^2)X∈Rn×pX\in\mathbb{R}^{n\times p}p≥2p\geq2XX 내 질문은 E ( X ' …

3
R에서 누락 된 데이터에 대한 전체 정보 최대 가능성
컨텍스트 : 데이터가 누락 된 계층 적 회귀. 질문 : R에서 누락 된 데이터를 처리하기 위해 전체 정보 최대 가능성 (FIML) 추정을 어떻게 사용합니까? 권장하는 패키지가 있으며 일반적인 단계는 무엇입니까? 온라인 자료와 예제도 도움이 될 것입니다. 추신 : 저는 최근에 R을 사용하기 시작한 사회 과학자입니다. 다중 대치가 옵션이지만 Mplus와 같은 …

1
감마 분포를 이용한 디 리클 렛 분포 구성
하자 X1,…,Xk+1X1,…,Xk+1X_1,\dots,X_{k+1} 각 파라미터를 갖는 감마 분포 갖는 상호 독립적 랜덤 변수 일 αi,i=1,2,…,k+1αi,i=1,2,…,k+1\alpha_i,i=1,2,\dots,k+1 것을 보여 는Dirichlet(α1,α2,…,αk;αk+Yi=XiX1+⋯+Xk+1,i=1,…,kYi=XiX1+⋯+Xk+1,i=1,…,kY_i=\frac{X_i}{X_1+\cdots+X_{k+1}},i=1,\dots,kDirichlet(α1,α2,…,αk;αk+1)Dirichlet(α1,α2,…,αk;αk+1)\text{Dirichlet}(\alpha_1,\alpha_2,\dots,\alpha_k;\alpha_{k+1}) ( X 1 , … , X k + 1 ) = e − ∑ k + 1 i = 1 x i x α 1 − 1 1 … x α k …

2
스플라인 기초 시각화
교과서에는 일반적으로 주제를 설명 할 때 균일 한 스플라인의 기초를 보여주는 좋은 예가 있습니다. 선형 스플라인의 경우 작은 삼각형의 행 또는 입방 스플라인의 경우 작은 혹의 행과 같은 것입니다. 이것은 전형적인 예입니다 : http://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_introcom_a0000000525.htm 표준 R 함수 (예 : bs 또는 ns)를 사용하여 스플라인 기준의 플롯을 생성하는 쉬운 방법이 있는지 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.