통계 및 빅 데이터 r

3

나는 구별하는 분류 훈련을 찾고 있어요 Type A하고 Type B있는 절반에 대해, 약 10,000 개체의 합리적 큰 훈련 집합 개체를 Type A그중 절반을 Type B. 데이터 세트는 셀의 물리적 특성 (크기, 평균 반경 등)을 자세히 설명하는 100 개의 연속 기능으로 구성됩니다. 쌍별 산점도 및 밀도 플롯으로 데이터를 시각화하면 많은 특징에서 …

36 r machine-learning random-forest

4

계수의 총계가 1이되도록 제약 된 회귀를 R에 맞추려면 어떻게해야합니까?

비슷한 구속 회귀가 여기에 있습니다. 지정된 점을 통한 제한된 선형 회귀 그러나 내 요구 사항은 약간 다릅니다. 1을 더하는 계수가 필요합니다. 구체적으로, 저는 1 개의 외환 시리즈의 수익률을 3 개의 다른 외환 시리즈에 대해 회귀 시키므로 투자자는 해당 시리즈에 대한 노출을 다른 3에 대한 노출 조합으로 대체 할 수 있습니다. …

36 r regression

5

R의 타이밍 기능 [닫힘]

함수 실행을 반복하는 데 걸리는 시간을 측정하고 싶습니다. 인가 replicate()및 사용 금액에 해당하는-루프? 예를 들면 다음과 같습니다. system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); 선호되는 방법은 무엇입니까? 의 출력 system.time()인 sys+user프로그램을 실행하기위한 실제 CPU 시간은? 가요 elapsed프로그램의 시간 성능의 좋은 측정은?

36 r

2

glmnet을 해석하는 방법?

약 60 개의 예측 변수와 30 개의 관측치가있는 다변량 선형 회귀 모형을 적합 시키려고하기 때문에 p> n 때문에 정규 회귀 분석에 glmnet 패키지를 사용하고 있습니다. 나는 문서와 다른 질문을 겪었지만 여전히 결과를 해석 할 수 없습니다. 여기에는 샘플 코드가 있습니다 (예측 자 20 명과 단순화하기 위해 10 개의 관측치가 있음). …

36 r regression regularization glmnet

1

Mantel의 시험이 왜 Moran 's I보다 선호됩니까?

Mantel의 시험 은 생물학적 연구 , 예를 들어, 유전 적 관련성, 침략 속도 또는 다른 특성과 동물의 공간 분포 (공간에서의 위치) 사이의 상관 관계를 조사하기 위해 생물학적 연구에서 널리 사용됩니다 . 많은 좋은 저널들이 그것을 사용하고 있습니다 ( PNAS, Animal Behaviour, Molecular Ecology ... ). 자연에서 발생할 수있는 몇 가지 …

36 r correlation spatial pattern-recognition

6

두 벡터의 문자열 (R)을 유사하게 일치시키는 방법은 무엇입니까?

이것이 어떻게 표시되어야하는지 잘 모르겠으므로 더 나은 용어를 알고 있다면 수정 해주세요. 두 가지 목록이 있습니다. 55 개 항목 중 하나 (예 : 문자열 벡터), 92 개 중 다른 항목. 항목 이름은 비슷하지만 동일하지는 않습니다. 나는 최선의 후보를 찾고자 들 55 목록의 항목 (I는 다음을 통해 이동하고 올바른 피팅을 선택할 …

36 r text-mining

1

분위수 회귀 : 표준 오류는 무엇입니까?

quantreg 비네팅 의 summary.rq기능 은 Quantile 회귀 계수의 표준 오차 추정에 대한 다양한 선택을 제공합니다. 이들 각각이 최적 / 바람직하게되는 특별한 시나리오는 무엇입니까? Koenker (1994)에 설명 된대로 순위 테스트를 반전하여 추정 된 매개 변수에 대한 신뢰 구간을 생성하는 "순위". 기본 옵션은 오류가 iid 인 것으로 가정하고 iid = FALSE 옵션은 …

35 r standard-error quantile-regression estimators

2

R의 lm에서 조정 된 R- 제곱 공식은 무엇이며 어떻게 해석해야합니까?

조정 된 R- 제곱에 대해 R에서 사용되는 정확한 공식은 무엇입니까 lm() ? 어떻게 해석 할 수 있습니까? 조정 된 R- 제곱 공식 조정 된 R- 제곱을 계산하는 공식이 여러 개있는 것 같습니다. 나룻배의 식 : 1−(1−R2)(n−1)(n−v)1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} McNemar의 식 : 1−(1−R2)(n−1)(n−v−1)1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} 주님의 공식 : 1−(1−R2)(n+v−1)(n−v−1)1−(1−R2)(n+v−1)(n−v−1)1-(1-R^2)\frac{(n+v-1)}{(n-v-1)} 스타 인의 공식 : 1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1−[(n−1)(n−k−1)(n−2)(n−k−2)(n+1)n](1−R2)1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2) 교과서 …

35 r regression r-squared lm shrinkage

3

임의 포리스트에 대한 OOB 및 혼동 행렬을 해석하는 방법은 무엇입니까?

임의의 포리스트 모델을 실행하기 위해 누군가로부터 R 스크립트를 받았습니다. 직원 데이터로 수정하고 실행했습니다. 우리는 자발적인 분리를 예측하려고합니다. 다음은 몇 가지 추가 정보입니다. 분류 모델은 0 = 직원 유지, 1 = 직원 종료, 현재 12 개의 예측 변수 만보고 있습니다. 데이터의 용어는 "불균형"입니다. 총 레코드 세트의 % 다양한 mtry 및 ntree …

35 r classification error random-forest

5

R에서 '주석'기능을 잘 사용하는 것은 무엇입니까?

방금 commentR 에서 함수를 발견 했습니다. 예 : x <- matrix(1:12, 3,4) comment(x) <- c("This is my very important data from experiment #0234", "Jun 5, 1998") x comment(x) 이 기능을 처음 사용했을 때이 기능이 일반적이고 유용한 용도가 무엇인지 궁금했습니다. Google에서 "R 댓글"을 검색하고 관련 결과를 찾기가 매우 어려우므로 여기 누군가가 …

35 r

1

로지스틱 회귀 분석 : anova chi-square test vs. 계수의 유의성 (anova () vs summary () in R)

변수가 8 개인 로지스틱 GLM 모델이 있습니다. 나는 R에서 카이 제곱 테스트를 실행 anova(glm.model,test='Chisq')했으며 변수 중 2 개는 테스트 맨 위에 주문할 때 예측 적이며 맨 아래에 주문할 때는 그렇게 많지 않습니다. 이는 summary(glm.model)계수가 중요하지 않다는 것을 암시합니다 (높은 p- 값). 이 경우 변수가 중요하지 않은 것 같습니다. 모델 요약 …

35 r regression logistic statistical-significance generalized-linear-model

4

클래스가 잘 분리되어 있는데 왜 로지스틱 회귀가 불안정 해 집니까?

클래스가 잘 분리되어있을 때 로지스틱 회귀가 불안정 해지는 이유는 무엇입니까? 잘 분리 된 수업은 무엇을 의미합니까? 누군가가 예를 들어 설명 할 수 있다면 정말 감사하겠습니다.

34 r regression logistic separation

3

R-잔여 용어에 혼동

제곱 평균 제곱 오류 잔차 제곱합 잔차 표준 오차 평균 제곱 오차 테스트 오류 나는이 용어들을 이해하는 데 익숙하다고 생각했지만 통계 문제를 많이할수록 내가 두 번째 추측 할 때 혼란스러워졌다. 나는 약간의 확신과 구체적인 예를 원합니다 온라인에서 방정식을 쉽게 찾을 수는 있지만 이러한 용어에 대한 '5와 같은 설명'설명을 얻는 데 …

34 r regression residuals

2

중첩이있는 혼합 효과 모델

다음과 같이 구성된 실험에서 수집 한 데이터가 있습니다. 각각 30 그루의 나무가있는 두 곳. 15 개가 치료되고 15 개가 각 현장에서 통제됩니다. 각 나무에서 우리는 줄기 세 조각과 뿌리 세 조각을 샘플링하므로 나무 당 6 레벨 1 샘플이 두 요소 수준 (뿌리, 줄기) 중 하나로 표시됩니다. 그런 다음 줄기 / …

34 r mixed-model model nested-data lme4-nlme

3

랜덤 포레스트 모델에서 정확도의 평균 감소 및 평균 감소 GINI를 해석하는 방법

Random Forest 패키지의 변수 중요도 출력을 해석하는 방법을 이해하는 데 어려움이 있습니다. 평균 정확도 감소는 일반적으로 "각 기능의 값을 변경하여 모델 정확도가 감소 함"으로 설명됩니다. 이 기능이 전체 기능 또는 기능 내 특정 값에 대한 설명입니까? 두 경우 모두 모형에서 문제의 특징 (또는 특징의 값)을 제거하여 정확도의 평균 감소가 잘못 …

34 r machine-learning classification random-forest

«r» 태그된 질문