통계 및 빅 데이터 r

2

step 함수를 사용하여 R의 단계별 회귀와 역 회귀의 기본 차이점을 이해하려고합니다. 단계별 회귀 분석을 위해 다음 명령을 사용했습니다. step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="both") 위의 코드에 대한 아래 출력이 있습니다. 뒤로 변수 선택을 위해 다음 명령을 사용했습니다. step(lm(mpg~wt+drat+disp+qsec,data=mtcars),direction="backward") 그리고 나는 뒤로 출력을 얻었습니다. 내가 아는 한, 매개 변수가 지정되지 않은 경우 매개 변수 "upper"및 "lower"가 …

15 r regression

3

로지스틱 회귀 분석 : Scikit Learn 및 glmnet

R의 패키지를 sklearn사용하여 로지스틱 회귀 라이브러리 의 결과를 복제하려고합니다 glmnet. 로부터 sklearn로지스틱 회귀 문서 , L2 페널티 아래의 비용 함수를 최소화하기 위해 노력하고있다 minw,c12wTw+C∑i=1Nlog(exp(−yi(XTi승 + C))+1)minw,c12wTw+C∑나는=1엔로그⁡(특급⁡(−와이나는(엑스나는티승+씨))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) 로부터 네트 의 glmnet그 구현이 약간 다른 비용 함수를 최소화하는 분β, β0− [ 1엔∑나는 = 1엔와이나는( β0+ …

15 r logistic python scikit-learn glmnet

3

0으로 덩어리가있는 음이 아닌 데이터 모델 (Tweedie GLM, 0 팽창 GLM 등)이 정확한 0을 예측할 수 있습니까?

Tweedie 분포는 모수 (평균-분산 관계에서 지수)가 1과 2 사이 일 때 0으로 점 질량을 사용하여 치우친 데이터를 모델링 할 수 있습니다 .ppp 유사하게 0 팽창 된 (그렇지 않으면 연속적이든 불연속적인) 모델은 많은 수의 0을 가질 수 있습니다. 이러한 종류의 모델로 적합치를 예측하거나 계산할 때 모든 예측값이 0이 아닌 이유를 이해하는 …

15 r generalized-linear-model prediction zero-inflation tweedie-distribution

2

랜덤 포레스트에 대해보고 할 훈련 오류는 무엇입니까?

현재 randomForestR 의 패키지를 사용하여 분류 문제에 임의의 포리스트를 적용하고 있으며 이러한 모델의 교육 오류 를보고하는 방법에 대해 잘 모르겠습니다 . 명령으로 얻은 예측을 사용하여 계산하면 내 훈련 오류가 0 %에 가깝습니다. predict(model, data=X_train) X_train훈련 데이터는 어디에 있습니까 ? 관련 질문에 대한 답변에서 , 나는 가방 부족 (OOB) 훈련 오류를 …

15 r machine-learning classification random-forest overfitting

1

가장 잘 맞는 라인이 있습니다. 가장 적합한 라인을 변경하지 않는 데이터 포인트가 필요합니다

피팅 라인에 대한 프레젠테이션을하고 있습니다. 간단한 선형 함수 와이= 1 x + b와이=1x+by=1x+b 있습니다. 내 선이 동일한 방정식에 가장 잘 맞는 분산 형 그림에 넣을 수있는 분산 된 데이터 포인트를 얻으려고합니다. 이 기술을 R 또는 Excel 중 더 쉬운 방법으로 배우고 싶습니다.

15 r regression least-squares excel

1

다변량 생물학적 시계열 : VAR 및 계절성

생물학적 및 환경 변수 상호 작용 (및 일부 외생 변수)을 포함하는 다변량 시계열 데이터 세트가 있습니다. 계절성 외에도 데이터에 명확한 장기 추세는 없습니다. 내 목적은 어떤 변수가 서로 관련되어 있는지 확인하는 것입니다. 예측은 실제로 찾지 못했습니다. 시계열 분석을 처음 접했을 때 몇 가지 참조를 읽었습니다. 내가 이해하는 한, VAR (Vector …

15 r time-series var seasonality

1

왜 glmer (family = binomial) 출력을 Gauss-Newton 알고리즘의 수동 구현과 일치시킬 수 없습니까?

lmer (실제로 glmer)의 출력을 장난감 이항 예제와 일치시키고 싶습니다. 나는 삽화를 읽었고 무슨 일이 일어나고 있는지 이해한다고 믿는다. 그러나 분명히 나는하지 않습니다. 막힌 후, 나는 무작위 효과의 관점에서 "진실"을 고쳤으며, 고정 된 효과 만 추정 한 후에 갔다. 아래 에이 코드를 포함시킵니다. 그것이 합법적임을 알기 위해 주석을 달아 + Z …

15 r mixed-model optimization lme4-nlme

1

여러 선형 모델에서 관계를 시각적으로 표현하는 가장 좋은 방법

저는 약 6 개의 예측 변수가있는 선형 모형을 가지고 있으며 추정치, F 값, p 값 등을 제시 할 것입니다. 그러나 단일 예측 변수의 개별 효과를 나타내는 가장 좋은 시각적 도표가 무엇인지 궁금했습니다. 응답 변수? 산포도? 조건부 플롯? 효과도? 기타? 그 음모를 어떻게 해석합니까? R 에서이 작업을 수행하므로 가능하면 예제를 자유롭게 …

15 r regression data-visualization multiple-regression partial-plot

4

R의 ARIMA 잔차에 대한 Ljung-Box 통계 : 혼란스러운 테스트 결과

계절 ARIMA (0,0,0) (0,1,0) [12] 모델 (= fit2)을 사용하여 예측하려고하는 시계열이 있습니다. R이 auto.arima로 제안한 것과는 다릅니다 (R 계산 된 ARIMA (0,1,1) (0,1,0) [12]가 더 적합 할 것입니다. 그러나 내 시계열의 지난 12 개월 동안 내 모델 (fit2)이 조정될 때 더 잘 맞는 것 같습니다 (만성적으로 편향된 경우, 잔차 평균을 …

15 r time-series statistical-significance arima residuals

2

R에서 더미 코딩 대신 효과 코딩으로 회귀를 수행하는 방법은 무엇입니까?

현재 범주 형 / 요인 변수 만 독립 변수로 사용하는 회귀 모델을 작성 중입니다. 내 종속 변수는 로짓 변환 비율입니다. R이 "인자"유형 인 즉시 인형을 코딩하는 방법을 자동으로 알기 때문에 R에서 정상적인 회귀를 실행하는 것은 매우 쉽습니다. 그러나 이러한 유형의 코딩은 또한 각 변수에서 하나의 범주가 기준으로 사용되어 해석하기 어렵다는 …

15 r regression categorical-data categorical-encoding

1

스플라인을 사용하여 밀도 함수의 국소 극한값 찾기

확률 밀도 함수 (R의 density방법을 사용하여 찾음)에 대한 로컬 최대 값을 찾으려고합니다 . 많은 양의 데이터가 있기 때문에 간단한 "인접 이웃 둘러보기"방법을 사용할 수 없습니다 (이것은 주변 이웃에 대해 로컬 최대 값인지 확인하기 위해 포인트를 둘러 보는 방법). 또한 내결함성 및 기타 매개 변수를 사용하여 "이웃을 둘러보기"를 구축하는 것과 달리 …

15 r pdf splines maximum

4

R에서 관측치 및 / 또는 예측 변수를 추가 할 때 선형 회귀를 효율적으로 업데이트

관측치 또는 예측 변수를 추가 할 때 선형 모델을 효율적으로 업데이트하기 위해 R에서 방법을 찾는 데 관심이 있습니다. biglm에는 관측치를 추가 할 때 업데이트 기능이 있지만 내 데이터는 메모리에 상주 할 정도로 작습니다 (업데이트 할 인스턴스가 많지만). QR 인수 분해 업데이트 (예 : Hammarling 및 Lucas의 "QR 인수 분해 및 …

15 r regression computational-statistics linear-model

2

R의 확장 된 Dickey Fuller 테스트의 지연 이해

케이케이kadf.test케이케이k Dickey-Fuller = -3.9828, Lag order = 4, p-value = 0.01272 alternative hypothesis: stationary # 103^(1/3)=k=4 Dickey-Fuller = -2.7776, Lag order = 0, p-value = 0.2543 alternative hypothesis: stationary # k=0 Dickey-Fuller = -2.5365, Lag order = 6, p-value = 0.3542 alternative hypothesis: stationary # k=6 PP 테스트 결과와 함께 …

15 r time-series trend

2

정밀 리콜 곡선에서 "기준선"이란 무엇입니까

정밀 리콜 곡선을 이해하려고하지만 정밀도와 리콜이 무엇인지 이해하지만 이해하지 못하는 것은 "기준"값입니다. 나는이 링크를 읽고 있었다 https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ "완벽한 분류기의 정밀 리콜 곡선"에 표시된대로 기준 부분을 이해하지 못합니까? 어떻게 계산합니까? 우리가 선택한 임의의 기준입니까? 예를 들어 retweet,status_countetc와 같은 속성을 가진 트위터 데이터가 있고 내 클래스 레이블은 FavoritedFavorited 이면 1이고 Favorited가 아닌 …

15 r machine-learning classification precision-recall

4

어떤 변수가 어떤 PCA 구성 요소를 설명합니까?

이 데이터를 사용하여 : head(USArrests) nrow(USArrests) 다음과 같이 PCA를 수행 할 수 있습니다. plot(USArrests) otherPCA <- princomp(USArrests) 나는 새로운 구성 요소를 얻을 수 있습니다 otherPCA$scores 구성 요소가 설명하는 분산 비율 summary(otherPCA) 그러나 어떤 변수가 주로 어떤 주성분으로 설명되는지 알고 싶다면 어떻게해야합니까? 그리고 그 반대의 경우도 마찬가지입니다 : 예를 들어 PC1 …

15 r pca dimensionality-reduction regression-strategies

«r» 태그된 질문