통계 및 빅 데이터 r

1

glmnetR 의 패키지를 사용하여 일부 데이터를 모델링하려고 합니다. 다음 데이터가 있다고 가정 해 봅시다. training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (이것은 단순화입니다. 데이터가 훨씬 더 복잡합니다.) 그런 다음 다음 코드를 사용하여 glmnet 모델을 …

13 r glmnet

6

랜덤 포레스트 : 테스트 세트에서 새로운 요소 수준을 처리하는 방법?

R의 임의 포리스트 모델을 사용하여 예측하려고합니다. 그러나 테스트 세트의 일부 요소가 훈련 세트와 다른 값을 가지므로 오류가 발생합니다. 예를 들어, 테스트 세트에는 학습 세트에 표시되지 않은 Cat_2값 34, 68, 76등 이 있습니다 . 불행히도, 테스트 세트를 제어 할 수 없습니다 ... 나는 그대로 사용해야합니다. 내 유일한 해결 방법은을 사용하여 문제가되는 …

13 r categorical-data random-forest

2

청크 테스트 란 무엇입니까?

에 대한 질문에 대한 대답에서 다중 공선의 존재 모델 선택 , 프랭크 하렐은 제안 : 모든 변수를 모형에 넣지 만 경쟁 변수의 효과에 대해 조정 된 하나의 변수의 효과에 대해서는 테스트하지 않습니다 ... 경쟁 변수의 청크 테스트는 공선 변수가 전체 다중 자유도 연관 검정 대신 힘을 결합하기 때문에 강력합니다. 변수를 …

13 r model-selection multicollinearity

3

통계 워크 벤치로서의 루비

이것은 또한 매우에 관한 질문 워크 벤치 통계 파이썬 과 통계가 작업대로 엑셀 . Ruby와 Python에 대해 큰 토론이 있다는 것을 알고 있지만 이것이이 질문의 핵심은 아닙니다. 루비가 파이썬보다 빠르며 구문이 매우 자연 스럽기 때문에 통계를 이해하는 데 도움이 될 수 있으며 R에 대한 좋은 대안이 될 수 있다고 생각 …

13 r python software ruby

3

randomForest에 대한 올바른 sampSize를 결정하기위한 공식 또는 규칙이 있습니까?

randomForest를 가지고 놀고 있는데 일반적으로 sampSize를 늘리면 성능이 향상됩니다. 최적의 sampSize가 무엇인지 제안하는 규칙 / 공식 / 등이 있습니까? 아니면 시행 착오입니까? 나는 그것을 표현하는 또 다른 방법을 추측한다; 너무 작은 sampSize 또는 너무 큰 (과적 합) 위험은 무엇입니까? 이 질문은 randomForest패키지 에서 임의 포리스트의 R 구현을 나타 냅니다. 이 …

13 r random-forest

2

비율 분석

최대 1을 더하는 여러 비율을 포함하는 데이터 집합이 있습니다. 그래디언트를 따라 이러한 비율을 변경하는 데 관심이 있습니다 (데이터 예는 아래 참조). gradient <- 1:99 A1 <- gradient * 0.005 A2 <- gradient * 0.004 A3 <- 1 - (A1 + A2) df <- data.frame(gradient = gradient, A1 = A1, A2 …

13 r multinomial

1

바이오 마커 연구를위한 검정력 계산 / 샘플 크기

환자에게 암이 있는지 여부를 예측할 수있는 잠재적 인 바이오 마커가 있습니다. 바이오 마커 시험 결과는 이진이 양성 또는 음성이다. 우리는이 바이오 마커가 좋은 예측 인자인지 아닌지를 결정하기 위해 검사를 받아야하는 환자의 양을 어느 정도 이해하려고합니다. 인터넷에서 읽을 때가는 방법은 감도 (사례 수)와 특이성 (컨트롤 수)을 보는 것 같습니다. 이 상황을 …

13 r power

2

로지스틱 회귀 모델 평가

이 질문은 물류 모델이 충분한 지 결정하는 방법에 대한 실제 혼란에서 비롯됩니다. 종속 변수로 형성된 후 2 년 후에 개별 프로젝트 쌍의 상태를 사용하는 모델이 있습니다. 결과는 성공적이거나 (1) 그렇지 않습니다 (0). 쌍 형성시 측정 된 독립 변수가 있습니다. 내 목표는 내가 가정 한 변수가 쌍의 성공에 영향을 미치는지 여부를 …

13 r logistic goodness-of-fit residuals

2

빈도 표를 값 벡터로 변환하는 방법은 무엇입니까?

R 또는 Excel을 사용하여 빈도 표를 값 벡터로 변환하는 가장 쉬운 방법은 무엇입니까? 예 : 다음 주파수 표를 어떻게 변환 하시겠습니까? Value Frequency 1. 2 2. 1 3. 4 4. 2 5. 1 다음 벡터로? 1, 1, 2, 3, 3, 3, 3, 4, 4, 5

13 r dataset excel

4

R에서 하나의 그래프에 여러 플롯을 그리시겠습니까?

다음 코드를 사용하여의 그래프에 네 개의 플롯을 그리려고했습니다 R. 플롯 사이에 공간이 많기 때문에 그림에 만족하지 않으므로 플롯의 너비가 플롯을 분석하기에 충분하지 않습니다. 누군가 네 개의 플롯이있는 멋진 그래프를 생성하도록 도와 줄 수 있습니까? x 축 레이블을 기본 5 레이블 대신 1에서 10으로 유지하려면 어떻게해야합니까? 데이터: a1 : 11.013 13.814 …

13 r data-visualization

5

R 버그에 대한 대안 만 [폐쇄]

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 작년에 문을 닫았 습니다 . 나는 BUGS와 R을 사용하여 베이지안 통계에 대한 과정을 따르고 있습니다. 이제는 이미 BUGS를 알고 있습니다. R에 새로운 베이지안 패키지가 많이 있다는 것을 읽었습니다. …

13 r bayesian bugs

2

R에서 ggplot2를 사용하는 두 가지 요소에 대한 상자 그림

잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 나는 R과 R의 모든 패키지에 매우 익숙하다. ggplot2 문서를 보았지만 이것을 찾을 수 없었다. boxthis두 가지 요인 f1과 관련하여 변수의 상자 그림을 원합니다 f2. 즉, 모두를 가정이다 f1및 f2요인 …

13 r boxplot ggplot2

4

자르지 않은 음수 이항 GEE 용 R / Stata 패키지?

이것은 나의 첫 번째 게시물입니다. 이 커뮤니티에 진심으로 감사드립니다. 0으로 잘린 종단 반응 (응답 변수 = 0이 될 확률)과 평균! = 분산을 분석하려고하므로 포아송보다 음의 이항 분포가 선택되었습니다. 내가 배제한 기능 / 명령 : 아르 자형 R의 gee () 함수는 제로 잘림이나 음의 이항 분포를 고려하지 않습니다 (MASS 패키지가로드 된 …

13 r stata count-data panel-data truncation

2

클러스터링 결과 비교 이해

데이터를 그룹으로 분류하는 실험을하고 있습니다. 나는이 주제를 처음 접했고 일부 분석 결과를 이해하려고 노력했다. Quick-R의 예제를 사용하여 여러 R패키지가 제안됩니다. 이 패키지 중 두 가지 ( 함수 및 )를 fpc사용해 보았습니다 . 내가 이해하지 못하는이 분석의 한 측면은 결과를 비교하는 것입니다.kmeansmclust # comparing 2 cluster solutions library(fpc) cluster.stats(d, fit1$cluster, fit2$cluster) …

13 r clustering

3

LASSO 솔루션 컴퓨팅을위한 GLMNET 또는 LARS?

LASSO 문제에 대한 계수를 얻고 싶습니다 || 와이− Xβ| | +λ | |β||1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. 문제는 glmnet과 lars 함수가 다른 답변을 제공한다는 것입니다. glmnet 함수의 경우 대신에 여전히 다른 답변을 얻습니다.λλ / | |와이| |λ/||Y||\lambda/||Y||λλ\lambda 이것이 예상됩니까? lars 와 glmnet 의 관계는 무엇입니까 ? glmnet이 LASSO 문제에 더 빠르다는 것을 알고 …

13 r machine-learning regression lasso regularization

«r» 태그된 질문