통계 및 빅 데이터 r

3

n 차원 연속 값 벡터로 구성된 두 개 이상의 표본 모집단이 있다고 가정 해 보겠습니다. 이러한 표본이 동일한 분포에 속하는지 테스트하는 비모수 적 방법이 있습니까? 그렇다면 R 또는 Python에 함수가 있습니까?

15 r distributions nonparametric python

2

lrtest ()가 anova (test =“LRT”)와 일치하지 않는 이유

모형 적합을 비교하기 위해 R에서 우도 비 검정을 수행하는 방법을 찾고있었습니다. 내가 먼저 나 자신을 코딩, 디폴트 모두 발견 anova()기능도 lrtest()에 lmtest패키지로 제공된다. 그러나 검사 할 때 anova()'test'매개 변수가 "LRT"로 설정되어 있어도 항상 다른 두 값과 약간 다른 p- 값이 생성됩니다. anova()실제로 미묘하게 다른 테스트를 수행하고 있습니까 , 아니면 무언가를 …

15 r anova likelihood-ratio

1

glmnet 로지스틱 회귀 분석은 더미 변수없이 요인 (범주) 변수를 직접 처리 할 수 있습니까? [닫은]

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 삼년 전에 . 나는 기능 LASSO 방법을 사용하여 R에 로지스틱 회귀 분석을 짓고 있어요 cv.glmnet을 선택 lambda하고 glmnet최종 모델. 자동 모델 선택과 관련된 모든 단점을 이미 알고 …

15 r logistic categorical-data lasso glmnet

1

관측치가 1 인 랜덤 효과는 일반 선형 혼합 모형에 어떤 영향을 줍니까?

임의 효과로 사용하려는 변수에 일부 수준에 대한 단일 관측치 만있는 데이터 세트가 있습니다. 이전 질문에 대한 답변을 바탕으로 원칙적으로 이것이 좋을 수 있다는 것을 모았습니다. 관측치가 1 개인 피사체에 혼합 모델을 적용 할 수 있습니까? 무작위 절편 모델-대상 당 하나의 측정 그러나 두 번째 링크에서 첫 번째 답변은 다음과 같습니다. …

14 r mixed-model generalized-linear-model glmm lme4-nlme

3

베타 랜덤 변수의 역 정규 CDF는 어떤 분포를 따르는가?

다음을 정의한다고 가정하십시오. X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) 여기서 Φ−1Φ−1\Phi^{-1} 은 표준 정규 분포 의 CDF의 역수입니다 . 내 질문은 : Y가 따르는 간단한 분포가 있습니까 , 아니면 Y와 근사 할 수 있습니까? YYYYYY나는 α 와 β 가 높을 때 YYY 가 정규 분포로 수렴 한다는 시뮬레이션 결과 (아래 그림 참조)를 기반으로 …

14 r normal-distribution mathematical-statistics beta-distribution

2

caret와 기본 randomForest 패키지를 통한 randomForest의 다른 결과

약간 혼란 스러워요 : 캐럿을 통한 훈련 된 모델의 결과는 원래 패키지의 모델과 어떻게 다를 수 있습니까? 캐럿 패키지와 함께 RandomForest의 FinalModel을 사용하여 예측 전에 사전 처리가 필요한지 여부를 읽습니다 .그러나 나는 여기서 전처리를 사용하지 않습니다. 캐럿 패키지를 사용하고 다른 mtry 값을 조정하여 다른 임의의 포리스트를 학습했습니다. > cvCtrl = …

14 r machine-learning random-forest caret train

1

exp (계수)에서 Odds Ratio까지 및 Logistic Regression에서 요인에 대한 해석

나는 SAT 점수와 가족 / 민족적 배경에 대해 대학에 합격을 선형으로 회귀시켰다. 데이터는 허구입니다. 이것은 이미 답변 된 이전 질문에 대한 후속 조치입니다. 이 질문은 SAT 점수를 단순성으로 남겨 두는 경우 확률 비의 수집 및 해석에 중점을 둡니다. 변수는 Accepted(0 또는 1) 및 Background( "빨간색"또는 "파란색")입니다. 나는 "빨간색"배경의 사람들이 더 …

14 r regression logistic

3

경험적 확률 밀도 간의 중첩을 계산하는 방법은 무엇입니까?

두 샘플 간의 유사성을 측정하기 위해 R에서 두 커널 밀도 추정치 사이의 겹침 영역을 계산하는 방법을 찾고 있습니다. 명확히하기 위해, 다음 예에서, 자 p 중첩 영역의 면적을 정량화해야합니다. library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) + geom_density(alpha=.4, color=NA) 비슷한 질문이 여기 에서 …

14 r probability pdf kernel-smoothing

3

표본 크기, 최소값 및 최대 값에서 정규 분포를 재구성 할 수 있습니까? 중간 점을 사용하여 평균을 프록시 할 수 있습니다

나는 이것이 통계적으로 약간 끈적 거리는 것을 알고 있지만 이것이 내 문제입니다. 변수의 최소, 최대 및 샘플 크기를 말하는 많은 범위 데이터가 있습니다. 이러한 데이터 중 일부에는 평균도 있지만 많지는 않습니다. 각 범위의 변동성을 수량화하고 평균을 비교하기 위해 이러한 범위를 서로 비교하고 싶습니다. 분포가 평균 주위에 대칭이고 데이터에 가우시안 분포가 …

14 r normal-distribution estimation missing-data order-statistics

1

우도 비 검정-lmer R-중첩되지 않은 모형

나는 현재 일부 작업을 검토하고 있으며 다음과 같은 문제를 겪었습니다. lmer을 사용하여 두 가지 혼합 모델이 R로 장착됩니다. 모형은 중첩되지 않으며 우도 비 검정으로 비교됩니다. 요컨대, 내가 가진 것의 재현 가능한 예는 다음과 같습니다. set.seed(105) Resp = rnorm(100) A = factor(rep(1:5,each=20)) B = factor(rep(1:2,times=50)) C = rep(1:4, times=25) m1 = …

14 r lme4-nlme likelihood-ratio nested-models

3

랜덤 포레스트 모델에서 최신 데이터 가중치 부여

6 가지 범주를 구분하기 위해 Random Forest로 분류 모델을 훈련하고 있습니다. 내 거래 데이터에는 약 60k 이상의 관측치와 35 개의 변수가 있습니다. 다음은 대략 어떻게 보이는지에 대한 예입니다. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG …

14 r machine-learning classification random-forest

1

비모수 추정 분포에서 랜덤 표본을 추출하는 방법은 무엇입니까?

연속적이고 일차원 적 인 100 점의 샘플이 있습니다. 커널 메소드를 사용하여 비모수 밀도를 추정했습니다. 이 추정 분포에서 무작위 표본을 추출하려면 어떻게해야합니까?

14 r sampling kernel-smoothing

3

다항 회귀 분석의 신뢰 구간 이해

아래 그래프에 표시된 결과를 이해하려고합니다. 일반적으로 Excel을 사용하고 선형 회귀선을 얻는 경향이 있지만 아래의 경우 R을 사용하고 다음 명령으로 다항식 회귀를 얻습니다. ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() 그래서 내 질문은 이것으로 요약됩니다. 파란색 회귀선 주위의 회색 영역 (화살표 # 1)은 무엇입니까? 다항식 회귀 분석의 표준 편차입니까? 회색 영역 (화살표 …

14 r regression data-visualization outliers

3

각 잎에 선형 회귀 모델이있는 회귀 트리 알고리즘

짧은 버전 : 의사 결정 트리를 작성할 수있는 R 패키지를 찾고 있지만 의사 결정 트리의 각 리프는 완전한 선형 회귀 모델입니다. AFAIK, 라이브러리 rpart는 종속 변수가 각 리프에서 일정한 의사 결정 트리를 만듭니다. rpart그러한 나무를 만들 수 있는 다른 라이브러리 (또는 내가 모르는 설정)가 있습니까? 긴 버전 : 훈련 데이터 …

14 r regression rpart cart

1

R의 비선형 혼합 효과 회귀

놀랍게도 Google을 사용하여 다음 질문에 대한 답변을 찾을 수 없었습니다. 나는 시간에 대략 시그 모이 드 성장 행동을 보여주는 여러 개인의 생물학적 데이터를 가지고 있습니다. 따라서 표준 물류 성장을 사용하여 모델링하고 싶습니다. P(t) = k*p0*exp(r*t) / (k+p0*(exp(r*t)-1)) p = 0은 t = 0에서의 시작 값이고, k는 t-> 무한에서의 점근 한 …

14 r nonlinear-regression mixed-model growth-model

«r» 태그된 질문