통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
베이지안 생존 분석 : 제발 Kaplan Meier의 사전을 작성하십시오!
시간 이벤트가있는 올바른 검열 관찰을 고려하십시오 t1,t2,…t1,t2,…t_1, t_2, \dots. 시각 에서 감수성이있는 개인의 수 iii는 ninin_i 이며 시각 에서의 사건 수 iii는 didid_i 입니다. 생존 함수가 단계 함수 경우 Kaplan-Meier 또는 곱 추정기는 자연스럽게 MLE로 발생합니다 . 우도는 인 L ( α ) = Π I ( 1 - α …


1
교호 작용을 포함 할 수있는 양방향 ANOVA의 비모수 적 요소는 무엇입니까?
안녕하세요, 나는 상호 작용을 포함 할 수있는 양방향 ANOVA (3x4 디자인)의 비 매개 변수를 찾으려고합니다. Zar 1984의 "Biostatistical analysis"에서 읽은 내용은 Scheirer, Ray, Hare (1976)에서 제시된 방법을 사용하여 가능하지만 온라인의 다른 게시물에 따르면이 방법은 더 이상 적절하지 않다고 추론되었습니다 였다). 누구든지 그렇게하는 데 어떤 방법이 적합한 지 알고 있다면 R …

2
다변량 선형 모형을 다중 회귀로 캐스트
다변량 선형 회귀 모형을 다중 선형 회귀 모형으로 완전히 변환하는 것이 완전히 동일합니까? 단순히 실행을 언급하고 있지 않다 티티t 별도의 회귀. 나는 다변량 선형 모델 을 다중 회귀로 쉽게 다시 매개 변수화 할 수있는 몇 곳 (Bayesian Data Analysis-Gelman et al. 및 Multivariate Old School-Marden)에서 이것을 읽었습니다 . 그러나 어떤 …

3
스플라인 결과 해석
R을 사용하여 GLM에 대한 스플라인을 맞추려고합니다. 스플라인에 맞으면 결과 모델을 가져 와서 Excel 통합 문서에서 모델링 파일을 만들 수 있기를 원합니다. 예를 들어, y가 x의 랜덤 함수이고 특정 지점 (이 경우 @ x = 500)에서 기울기가 갑자기 변하는 데이터 세트가 있다고 가정합니다. set.seed(1066) x<- 1:1000 y<- rep(0,1000) y[1:500]<- pmax(x[1:500]+(runif(500)-.5)*67*500/pmax(x[1:500],100),0.01) y[501:1000]<-500+x[501:1000]^1.05*(runif(500)-.5)/7.5 …
20 splines 


3
수업 확률을 예측하기위한 머신 러닝
예제가 두 클래스 중 하나에 속하는 확률을 출력하는 분류자를 찾고 있습니다. 나는 로지스틱 회귀와 순진한 베이 즈에 대해 알고 있지만 비슷한 방식으로 작동하는 다른 사람들에 대해 말해 줄 수 있습니까? 즉, 예제가 속한 클래스가 아니라 예제가 특정 클래스에 적합 할 확률을 예측하는 분류 자입니까? 로지스틱 회귀 및 순진한 베이를 포함하여 …

3
RMSE의 신뢰 구간
모집단에서 데이터 점 샘플을 가져 왔습니다 . 이러한 각 포인트는 실제 값 (지상 사실에서 알려짐)과 예상 값을 갖습니다. 그런 다음 각 샘플링 포인트에 대한 오류를 계산 한 다음 샘플의 RMSE를 계산합니다.nnn 그런 다음 표본 크기 기준으로이 RMSE 주위의 신뢰 구간을 어떻게 유추 할 수 있습니까?nnn RMSE가 아닌 평균을 사용하는 경우 …

12
음의 왜도를 갖는 분포의 실제 예
" 공통 분포의 실제 예 "에서 영감을 받아 사람들이 부정적인 왜곡을 나타 내기 위해 어떤 교육 학적 예를 사용하는지 궁금합니다. 가르치는 데 사용되는 대칭 또는 정규 분포에 대한 많은 "정규적인"예가 있습니다. 키와 몸무게 같은 것이 생물학적 면밀한 조사에서 살아남지 않더라도! 혈압이 정상에 가까울 수 있습니다. 나는 천문학적 측정 오류를 좋아합니다. …

8
통계는 수학이 아닙니까?
통계 수학입니까? 그것이 대부분 수학 부서에서 가르치고 수학 학점을 얻는다는 것을 감안할 때, 사람들이 수학의 사소한 부분이라고 말하거나 수학을 적용하는 것처럼 반 농담으로 의미하는지 궁금합니다. 기본 공리로 모든 것을 만들 수없는 통계와 같은 것이 수학으로 간주 될 수 있는지 궁금합니다. 예를 들어, 값은 데이터를 이해하기 위해 일어 났지만보다 기본적인 원칙의 …

4
서수 변수의 평균 계산
서수 변수의 평균을 계산하는 것이 부적절하다고 여러 곳에서 읽었습니다. 부적절한 이유에 대한 직감을 얻으려고합니다. 나는 일반적으로 서수 변수가 정상적으로 분포되어 있지 않기 때문에 평균을 계산하면 부정확 한 표현을 얻을 수 있다고 생각합니다. 서수 변수의 평균을 계산하는 것이 부적절한 이유에 대해 더 자세한 추론을 할 수 있습니까?

2
반 감독 학습에서 다양한 가정은 무엇입니까?
나는 반지도 학습에서 매니 폴드 가정이 무엇을 의미하는지 알아 내려고 노력하고 있습니다. 누구나 간단한 방법으로 설명 할 수 있습니까? 나는 그 뒤에 직관을 얻을 수 없습니다. 그것은 당신의 데이터가 고차원 공간에 내장 된 저 차원 매니 폴드에 있다고 말합니다. 나는 그것이 의미하는 것을 얻지 못했습니다.

4
ANOVA와 Kruskal-Wallis 검정의 차이점
저는 R을 배우고 분산 분석을 실험하고 있습니다. 나는 둘 다 실행하고있다 kruskal.test(depVar ~ indepVar, data=df) 과 anova(lm(depVar ~ indepVar, data=dF)) 이 두 테스트간에 실질적인 차이가 있습니까? 내 이해는 둘 다 모집단이 동일한 평균을 갖는 귀무 가설을 평가한다는 것입니다.



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.