통계 및 빅 데이터 r

8

세 가지 범주 형 변수가있는 데이터 세트가 있고 하나의 그래프에서 세 가지의 관계를 시각화하고 싶습니다. 어떤 아이디어? 현재 다음 세 가지 그래프를 사용하고 있습니다. 각 그래프는 일정 수준의 우울함 (가벼움, 보통, 심각)에 대한 것입니다. 그런 다음 각 그래프에서 치료 (0,1)와 우울증 개선 (없음, 보통, 실질적) 사이의 관계를 살펴 봅니다. 이 …

21 r data-visualization categorical-data

2

family = Gamma를 사용하여 GLM에서 매개 변수를 해석하는 방법

이 질문은 교차 검증에서 답변 될 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 5 년 전에 마이그레이션 되었습니다 . 감마 분포 종속 변수가있는 GLM의 매개 변수 해석에 관한 질문이 있습니다. 이것이 로그 링크와 함께 R이 내 GLM에 대해 반환하는 것입니다. Call: glm(formula = income ~ height + age …

21 r generalized-linear-model interpretation gamma-distribution

2

이항 GLMM (glmer)을 yes-no count가 아닌 백분율에 적용하는 방법은 무엇입니까?

종속 변수가 백분율 인 반복 측정 실험이 있고 독립 변수로 여러 요인이 있습니다. 이 설정을 직접 수용하는 것처럼 보이기 때문에 glmerR 패키지 를 사용 lme4하여 로지스틱 회귀 문제 (을 지정하여 family=binomial) 로 취급 하고 싶습니다 . 내 데이터는 다음과 같습니다 > head(data.xvsy) foldnum featureset noisered pooldur dpoolmode auc 1 0 …

21 r logistic mixed-model glmm lme4-nlme

5

랜덤 포레스트 vs 회귀

5 개의 독립 변수가있는 데이터 세트에서 OLS 회귀 모델을 실행했습니다. 독립 변수와 종속 변수는 연속적이고 선형 적으로 관련되어 있습니다. R 광장은 약 99.3 %입니다. 그러나 R에서 임의의 포리스트를 사용하여 동일하게 실행하면 결과는 '% Var 설명 : 88.42'입니다. 임의의 숲 결과가 회귀보다 열등한 이유는 무엇입니까? 나는 임의의 숲이 최소한 OLS 회귀만큼 …

21 r regression random-forest

5

랜덤 포레스트에서 오 분류 비용을 제어하는 방법은 무엇입니까?

R 패키지 randomForest 에서 오 분류 비용을 제어 할 수 있습니까? 내 자신의 연구에서 허위 부정 (예를 들어, 사람이 질병을 앓고있을 수있는 오류가 없음)은 허위 양성보다 훨씬 비쌉니다. 패키지 부품 은 사용자가 잘못 분류 된 가중치를 다르게하는 손실 매트릭스를 지정함으로써 잘못된 분류 비용을 제어 할 수 있도록합니다. 비슷한 것이 randomForest있습니까? …

21 r classification random-forest loss-functions metric

5

R을 통한 통계 / 수학 학습 (실행 중이 아닌) 소스

나는 R을 통해 통계 및 수학 개념을 배우기 위한 소스 (R 코드, R 패키지, 서적, 서적 장, 기사, 링크 등)의 예에 관심이 있습니다 ( 다른 언어를 통해서도 가능하지만 R은 내가 가장 좋아하는 맛입니다). 재료 학습은 알고리즘을 수행하는 코드를 실행하는 방법 만이 아니라 프로그래밍에 의존한다는 것이 문제입니다. 예를 들어 R 이있는 …

21 r references mathematical-statistics

1

MCMC 기반 회귀 모델의 잔차 진단

최근에 MCMC 알고리즘 (실제로 R의 MCMCglmm 함수)을 사용하여 베이지안 프레임 워크에서 회귀 혼합 모델을 피팅하는 데 착수했습니다. 나는 추정 과정의 수렴을 진단하는 방법을 이해했다고 생각합니다 (추적, geweke 플롯, 자기 상관, 사후 분포 ...). 베이지안 프레임 워크에서 저를 놀라게하는 것 중 하나는 이러한 진단을 수행하기 위해 많은 노력을 기울이고있는 반면, 적합 …

21 r bayesian mixed-model mcmc residuals

4

다중 회귀 분석에서 예측 변수의 중요성 : 부분

선형 모델에서 부분 R2R2R^2 와 계수 사이의 정확한 관계가 무엇인지, 그리고 요인의 중요성과 영향을 설명하기 위해 하나 또는 둘 다를 사용 해야하는지 궁금 합니다. 내가 아는 한, summary계수의 추정치와 anova각 요인에 대한 제곱합을 얻으면 한 요인의 제곱합의 합을 제곱의 합과 잔차의 합으로 나눈 비율은 부분 R2R2R^2 ( 다음 코드는에 있습니다 …

21 r regression multiple-regression regression-coefficients r-squared

3

캐럿이있는 스태킹 / 앙상블 모델

나는 종종 caretR을 사용하여 여러 가지 예측 모델을 훈련시키는 것을 자주 발견합니다. 나는를 사용 하여 동일한 교차 검증 폴드에서 모두 훈련 caret::: createFolds한 다음 교차 검증 오류를 기반으로 최고의 모델을 선택합니다. 그러나 여러 모델의 중앙값 예측은 종종 독립 테스트 세트에서 최상의 단일 모델을 능가합니다. 예를 들어 각 교차점에서 각 모델의 …

21 r caret ensemble

1

두 신호를 정렬 / 동기화하려면 어떻게해야합니까?

나는 약간의 연구를하고 있지만 분석 단계에 갇혀 있습니다 (통계 강의에 더 많은 관심을 기울여야 함). 볼륨과 흉부 확장의 변화를 위해 통합 된 유량 두 가지 동시 신호를 수집했습니다. 나는 신호를 비교하고 궁극적으로 가슴 확장 신호에서 볼륨을 도출하기를 희망합니다. 그러나 먼저 데이터를 정렬 / 동기화해야합니다. 기록이 정확히 동시에 시작되지 않고 가슴 …

21 r time-series signal-processing measurement

3

빅 데이터의 첫 번째 단계 (

하루에 수십억 건의 관측치로 거대한 데이터 세트를 분석한다고 가정합니다. 각 관측치에는 수 천 개의 희소하고 중복되는 수치 및 범주 형 변수가 있습니다. 회귀 문제 하나, 불균형 이진 분류 문제 하나 및 "어떤 예측 변수가 가장 중요한지 알아내는 작업"이 있다고 가정하겠습니다. 문제에 접근하는 방법에 대한 내 생각은 다음과 같습니다. 다음과 같은 …

21 r machine-learning data-mining large-data

3

회귀 분석 vs. 분산 분석 불일치 (R에서 aov vs lm)

나는 회귀가 더 일반적인 형태의 분산 분석이고 결과가 동일하다는 인상을 항상 받았다. 그러나 최근에 동일한 데이터에 대해 회귀 분석과 분산 분석을 모두 실행했으며 결과가 크게 다릅니다. 즉, 회귀 모형에서는 주 효과와 교호 작용이 모두 중요하지만 분산 분석에서는 주 효과가 중요하지 않습니다. 나는 이것이 상호 작용과 관련이 있다고 생각하지만 동일한 질문을 …

21 r regression anova

1

R에서 선형 모델의 새로운 입력 값을 어떻게 예측할 수 있습니까?

잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R에서 선형 모델을 만들었습니다 mod = lm(train_y ~ train_x). X 목록을 전달하고 예측 / 예상 / 예측 된 Y를 얻고 싶습니다. 나는을 보았지만 predict()다른 것을위한 것이라고 생각하거나 그것을 사용하는 …

21 r forecasting linear-model

1

R에서 행렬 역의 효율적인 계산

행렬을 역으로 계산하고 solve함수를 사용하고 있습니다. 작은 행렬에서는 잘 작동하지만 solve큰 행렬에서는 속도가 매우 느립니다. SVD, QR, LU 또는 기타 분해 기능을 통해 더 빠른 결과를 얻을 수있는 다른 기능이나 기능 조합이 있는지 궁금합니다.

21 r matrix-decomposition matrix-inverse

1

시계열에 대한 로지스틱 회귀

과거 관측치에 따라 방금 도착한 데이터의 종속 변수 (예 : 행)의 값을 예측하기 위해 스트리밍 데이터 (다차원 시계열) 컨텍스트에서 이진 로지스틱 회귀 모델을 사용하고 싶습니다. 내가 아는 한, 로지스틱 회귀 분석은 전통적으로 사후 분석에 사용되며, 각 종속 변수는 이미 검사 또는 연구의 특성에 의해 설정되었습니다. 그러나 시계열의 경우 어떻게됩니까? 우리는 …

21 r time-series logistic

«r» 태그된 질문