통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
요인 분석에서 최상의 요인 추출 방법
SPSS는 여러 가지 요인 추출 방법을 제공합니다. 주요 구성 요소 (요인 분석이 아님) 비가 중 최소 제곱 일반화 된 최소 제곱 최대 가능성 주축 알파 팩토링 이미지 팩토링 요인 분석 (주요 성분 분석, PCA)이 아닌 첫 번째 방법을 무시합니다.이 중 어떤 방법이 가장 적합합니까? 다른 방법의 상대적인 장점은 무엇입니까? 그리고 …

3
AIC와 c- 통계량 (AUC)이 실제로 모델 적합을 측정하는 것의 차이점은 무엇입니까?
AIC (Akaike Information Criterion)와 c- 통계량 (ROC 곡선 아래 면적)은 로지스틱 회귀 분석에 적합한 모형의 두 가지 측정치입니다. 두 측정 결과가 일치하지 않을 때 진행 상황을 설명하는 데 문제가 있습니다. 나는 그들이 모델 적합의 약간 다른 측면을 측정하고 있다고 생각하지만, 그 특정 측면은 무엇입니까? 3 가지 로지스틱 회귀 모형이 있습니다. …
29 logistic  roc  aic  auc 

3
로지스틱 회귀 분석에서 확률 예측에 대한 간단한 예측 해석
나는 로지스틱 회귀를 사용하는 것에 다소 익숙하지 않고 다음과 같은 가치에 대한 해석이 일치하지 않을 것이라고 혼동했습니다. 지수 베타 값 베타 값을 사용하여 결과의 ​​예측 확률. 영양 부족과 보험이 모두 이진이며 부가 연속적 인 경우 사용중인 모델의 단순화 된 버전이 있습니다. Under.Nutrition ~ insurance + wealth 내 (실제) 모델은 보험에 …

2
순진 베이와 다항식 순진 베이의 차이점
전에 Naive Bayes 분류기를 다루었습니다 . 최근 에 Multinomial Naive Bayes 에 대해 읽었습니다 . 또한 사후 확률 = (이전 * 가능성) / (증거) . Naive Bayes와 Multinomial Naive Bayes 사이에서 찾은 유일한 주요 차이점 (이 분류자를 프로그래밍하는 동안)은 나이브 베이 즈 다항식은 우도로 계산 단어 / 토큰 카운트 (랜덤 …


3
두 개 이상의 회귀 모형에서 기울기를 비교하기 위해 어떤 테스트를 사용할 수 있습니까?
하나의 예측 변수에 대한 두 변수의 응답 차이를 테스트하고 싶습니다. 최소한의 재현 가능한 예는 다음과 같습니다. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = …

3
포아송 분포는 정규 분포와 어떻게 다릅니 까?
다음과 같이 포아송 분포를 갖는 벡터를 생성했습니다. x = rpois(1000,10) 를 사용하여 히스토그램을 만들면 hist(x)분포는 익숙한 종 모양의 정규 분포처럼 보입니다. 그러나 Kolmogorov-Smirnoff 테스트 ks.test(x, 'pnorm',10,3)는 분포가 매우 작은 p값 으로 인해 정규 분포와 크게 다릅니다 . 그래서 내 질문은 히스토그램이 정규 분포와 너무 비슷해 보일 때 포아송 분포와 정규 …

2
R에서 전이 행렬 계산 (Markov)
R (내장 함수)에 일련의 관측치에서 Markov Chain의 전이 행렬을 계산하는 방법이 있습니까? 예를 들어, 다음과 같은 데이터 세트를 가져와 1 차 전이 행렬을 계산합니까? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

4
기록 된 오류의 급증을 알고리즘 적으로 식별하는 간단한 방법
조기 경보 시스템이 필요합니다. 로드시 성능 문제가있는 것으로 알려진 서버를 처리하고 있습니다. 타임 스탬프와 함께 데이터베이스에 오류가 기록됩니다. 서버로드를 줄이기 위해 수행 할 수있는 몇 가지 수동 개입 단계가 있지만 누군가가 문제를 알고있는 경우에만 ... 오류가 발생한 일련의 시간이 주어지면 오류의 급증이 시작되는 시점을 어떻게 실시간으로 식별 할 수 있습니까? …

4
주제 모델링을 수행하기위한 R 패키지 / LDA :`topicmodels` 및`lda` [폐쇄]
두 개의 R 패키지 만 Latent Dirichlet Allocation 을 수행 할 수있는 것 같습니다 . 하나는 ldaJonathan Chang이 저술 한 것입니다 . 다른 하나는 topicmodelsBettina Grün과 Kurt Hornik 이 저술했습니다. 성능, 구현 세부 사항 및 확장 성 측면에서이 두 패키지의 차이점은 무엇입니까?

1
상관 행렬의 SVD는 부가 적이어야하지만 그렇지 않은 것으로 보인다
방금 다음 논문 인 Gene Expression Data에서 상관 관계있는 Biclusters 찾기 에 대한 주장을 복제하려고합니다 . 법안 4. . 우리는 :XIJ=RICTJXIJ=RICJTX_{IJ}=R_{I}C^{T}_{J} 나는. 경우 첨가제 모델과 완벽한 bicluster는 다음 열에 대한 상관 관계와 완벽한 bicluster이다; ii. 경우 첨가제 모델과 완벽한 bicluster는 다음 X_ {IJ는} 행에 대한 상관 관계와 완벽한 bicluster이다; iii. …


6
Shapiro-Wilk 테스트의 해석
통계가 처음이므로 도움이 필요합니다. 다음과 같이 작은 샘플이 있습니다. H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 R을 사용하여 Shapiro-Wilk 테스트를 실행했습니다. shapiro.test(precisionH4U$H4U) 그리고 나는 다음과 같은 결과를 얻었다 : W = 0.9502, p-value = 0.6921 이제 p- 값보다 0.05의 유의 수준이 알파보다 크면 (0.6921> 0.05) 정규 분포에 …

2
정규화 또는 벌칙을 적용하여 ARIMAX 모델 피팅 (예 : 올가미, 탄성 그물 또는 릿지 회귀)
내가 사용 auto.arima () 의 기능을 예측 공변량의 다양한 ARMAX 모델에 맞게 패키지로 제공된다. 그러나 종종 선택할 변수가 많으며 대개 하위 집합으로 작동하는 최종 모델로 끝납니다. 나는 인간이고 편견의 영향을 받기 때문에 변수 선택에 대한 임시 기술을 좋아하지 않지만 교차 유효성 검사 시계열은 어렵 기 때문에 사용 가능한 변수의 다른 …

3
좋은 Gibbs 샘플링 자습서 및 참조
Gibbs Sampling의 작동 방식을 배우고 싶은 중급 용지에 적합한 기본 용지를 찾고 있습니다. 컴퓨터 과학 배경과 기본 통계 지식이 있습니다. 누구든지 좋은 자료를 읽었습니까? 어디서 배웠어요? 감사
29 references  gibbs 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.