통계 및 빅 데이터 r

2

Type I 오른쪽 검열 된 관측치를 포함하는 n Weibull 분포 수명의 표본을 어떻게 시뮬레이션 할 수 있는지 궁금합니다. 예를 들어, n = 3, 모양 = 3, 스케일 = 1 및 검열 속도 = .15, 검열 시간 = .88로 설정합니다. Weibull 샘플을 생성하는 방법은 알고 있지만 R에서 오른쪽으로 검열 된 유형의 …

11 r survival simulation random-generation

4

N 개의 동일한 그룹으로 데이터 분할

4 열의 값을 포함하는 데이터 프레임이 있습니다. 예를 들면 : ID, price, click count,rating 내가하고 싶은 것은이 데이터 프레임을 N 개의 다른 그룹으로 "분할"하는 것입니다. 각 그룹은 동일한 가격, 클릭 수 및 등급 속성 분포를 가진 동일한 수의 행을 갖습니다. 이 문제를 해결하는 방법에 대한 약간의 아이디어가 없으므로 조언을 부탁드립니다!

11 r distributions

2

선형 회귀 분석에서 이진 / 이분법 독립 예측 변수에 대한 잔차 분석을 수행하는 방법은 무엇입니까?

나는 기금 관리 수익을 예측하기 위해 R에서 아래의 다중 선형 회귀를 수행하고 있습니다. reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) 여기서는 GRI와 MBA 만 이진 / 이분법 예측 변수입니다. 나머지 예측 변수는 연속적입니다. 이 코드를 사용하여 이진 변수에 대한 잔차 그림을 생성하고 있습니다. plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, …

11 r multiple-regression categorical-data heteroscedasticity residuals

4

LASSO로 기능 선택을 위해 데이터를 준비하기 위해 결 측값을 처리하는 방법은 무엇입니까?

내 상황 : 작은 샘플 크기 : 116 이진 결과 변수 설명 변수의 긴 목록 : 44 설명 변수는 내 머리 꼭대기에서 나오지 않았습니다. 그들의 선택은 문헌에 근거했다. 대부분의 경우 샘플과 대부분의 변수에 결 측값이 있습니다. 선택된 기능 선택에 접근 : LASSO R의 glmnet 패키지는 데이터 세트에 누락 된 값이 …

11 r spss lasso data-imputation

1

우도 비 검정과 Wald 검정은 R에서 glm에 대해 다른 결론을 제공합니다.

일반화, 선형 및 혼합 모델 에서 예제를 재현하고 있습니다. 내 MWE는 다음과 같습니다. Dilution <- c(1/128, 1/64, 1/32, 1/16, 1/8, 1/4, 1/2, 1, 2, 4) NoofPlates <- rep(x=5, times=10) NoPositive <- c(0, 0, 2, 2, 3, 4, 5, 5, 5, 5) Data <- data.frame(Dilution, NoofPlates, NoPositive) fm1 <- glm(formula=NoPositive/NoofPlates~log(Dilution), family=binomial("logit"), …

11 r logistic generalized-linear-model likelihood-ratio z-test

3

내 데이터가 로그 정규 분포에 맞는지 확인하는 방법

R내 데이터가 로그 정규 분포 또는 파레토 분포에 맞는지 확인하고 싶습니다 . 내가 어떻게 할 수 있습니까? 아마도 ks.test그렇게하는 데 도움이 될 수 있지만 데이터의 파레토 분포에 대한 및 매개 변수를 어떻게 얻을 수 있습니까?αα\alpha케이케이k

11 r regression distributions lognormal pareto-distribution

3

누적 / 누적 플롯 (또는 "로렌츠 곡선 시각화")

나는 그런 음모가 무엇인지 모르므 로이 질문에 바보 같은 제목을주었습니다. 다음과 같이 정렬 된 데이터 세트가 있다고 가정 해 봅시다. 4253 4262 4270 4383 4394 4476 4635 ... 각 숫자는 특정 사용자가 웹 사이트에 기여한 게시물의 양에 해당합니다. 여기에 정의 된 "참여 불평등"현상을 경험적으로 조사하고 있습니다 . 이해하기 쉽도록 독자가 …

11 r distributions data-visualization

2

R에서 lm 모델에 대한 요약 함수 해석

R의 선형 회귀 모델에서 함수를 사용할 때 의 의미 t value와 의미는 무엇입니까 ?Pr(>|t|)summary() Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 10.1595 1.3603 7.469 1.11e-13 *** log(var) 0.3422 0.1597 2.143 0.0322 *

11 r regression generalized-linear-model

2

Cox PH 분석 및 공변량 선택에서 성향 스코어 가중치

사건 발생 시간 생존 데이터의 Cox 비례 위험 모델링을 수행 할 때 성향 스코어 가중치 (IPTW)와 관련하여 : 대부분의 경우 환자가 이미 기준선에서 복용하고있는 약물의 치료 효과를 살펴 보는 데 관심이있는 예상 레지스트리 데이터가 있습니다. 따라서 데이터를 가장 잘 분석하는 방법을 잘 모르겠습니다. 잠재적으로, 기준 변수 중 일부는 치료에 의해 …

11 r survival cox-model propensity-scores

6

비선형 회귀 분석을위한 특이 치 식별

진드기의 기능적 반응 분야에 대한 연구를하고 있습니다. Rogers 유형 II 함수의 매개 변수 (공격 속도 및 처리 시간)를 추정하기 위해 회귀 분석을 수행하려고합니다. 측정 데이터 세트가 있습니다. 특이 치를 가장 잘 결정할 수있는 방법은 무엇입니까? 합니다 (dateset라는 간단한 2 열 텍스트 파일로 내 회귀를 위해 나는 R에 다음 스크립트 (비 …

11 r outliers nonlinear-regression

2

신경망 안정성을 개선하려면 어떻게합니까?

R의 신경망을 사용하여 14 개의 입력과 하나의 출력으로 NN을 구축하고 있습니다. 동일한 입력 교육 데이터와 동일한 네트워크 아키텍처 / 설정을 사용하여 네트워크를 여러 번 빌드 / 트레이닝합니다. 각 네트워크가 생성 된 후 독립 테스트 데이터 세트에서이를 사용하여 일부 예측 값을 계산합니다. 네트워크를 구축 할 때마다 모든 입력 (훈련 데이터 및 …

11 r machine-learning neural-networks

1

지니 계수 및 오차 한계

각 시점에서 N = 14 카운트의 시계열 데이터가 있으며 각 시점 에서이 추정치에 대한 Gini 계수 및 표준 오류를 계산하려고합니다. 각 시점에서 N = 14 카운트 만 있기 때문에 jackknife 분산을 계산하여 진행했습니다. 즉 톰슨 Ogwang의 식 (7)로부터표준 오차 '지니 인덱스와를 계산하는 편리한 방식'. 여기서G는(N,K는)요소없이 N 값 지니 계수K와 ˉ …

11 r variance econometrics resampling gini

2

R에서 요인에서 숫자 변수로 변환하는 중 문제 발생

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 칠년 전에 . 요인 변수를 숫자로 변환하고 싶지만 as.numeric기대 효과가 없습니다. 아래는 원래 변수를 기반으로 한 숫자 버전의 변수에 대한 요약 통계를 얻습니다. 수단은 1까지 계속 카운트합니다 …

11 r data-transformation

1

내 데이터가 불연속 적이거나 연속적인지 테스트하는 방법

올바른 통계 도구를 선택하려면 먼저 데이터 세트가 불연속인지 연속적인지 식별해야합니다. 데이터가 R과 이산인지 연속인지 테스트하는 방법을 가르쳐 주시겠습니까?

11 r continuous-data discrete-data

1

GLM에 어떤 종류의 잔차와 쿡 거리가 사용됩니까?

쿡의 거리 공식이 무엇인지 아는 사람이 있습니까? 원래 Cook의 거리 공식은 학생 화 된 잔차를 사용하지만 R이 표준을 사용하는 이유는 무엇입니까? GLM에 대한 Cook의 거리 플롯을 계산할 때 Pearson 잔차가 발생합니다. 학생 화 된 잔차가 GLM에 대해 정의되지 않았지만 Cook의 거리를 계산하는 공식은 어떻게 생겼습니까? 다음 예제를 가정하십시오. numberofdrugs <- …

11 r regression generalized-linear-model residuals cooks-distance

«r» 태그된 질문