통계 및 빅 데이터 regression

2

혼합 모델을위한 파라 메트릭, 세미 파라 메트릭 및 비 파라 메트릭 부트 스트랩

이 기사 에서 다음과 같은 이식편을 가져옵니다 . 부트 스트랩을 사용하고 R boot패키지가있는 선형 혼합 모델을 위해 파라 메트릭, 반 파라 메트릭 및 비 파라 메트릭 부트 스트랩 부트 스트랩을 구현하려고 초보자 입니다. R 코드 내 R코드 는 다음과 같습니다 . library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + …

9 r mixed-model bootstrap central-limit-theorem stable-distribution time-series hypothesis-testing markov-process r correlation categorical-data association-measure meta-analysis r anova confidence-interval lm r bayesian multilevel-analysis logit regression logistic least-squares eda regression notation distributions random-variable expected-value distributions markov-process hidden-markov-model r variance group-differences microarray r descriptive-statistics machine-learning references r regression r categorical-data random-forest data-transformation data-visualization interactive-visualization binomial beta-distribution time-series forecasting logistic arima beta-regression r time-series seasonality large-data unevenly-spaced-time-series correlation statistical-significance normalization population group-differences demography

3

임의의 포리스트 회귀 분석에서 반응 분포에 따른 편향

R의 randomForest 패키지 (R 버전 2.13.1, randomForest 버전 4.6-2)를 사용하여 회귀 분석 결과에 큰 편견이 있음을 발견했습니다. 예측 오류는 응답 변수의 값에 따라 다릅니다. 높은 값은 과소 예측되고 낮은 값은 과대 예측됩니다. 처음에는 이것이 내 데이터의 결과라고 생각했지만 다음 간단한 예제는 이것이 임의 포리스트 알고리즘에 내재되어 있음을 나타냅니다. n = …

9 r regression random-forest

1

예측 변수가없는 다중 회귀

다음과 같은 형식의 데이터가 제공되었다고 가정합니다. ( y,엑스1,엑스2, ⋯ ,엑스엔)(y,x1,x2,⋯,xn)(y,x_{1},x_{2},\cdots, x_{n}) 과 ( y,엑스1,엑스2, ⋯ ,엑스n - 1)(y,x1,x2,⋯,xn−1)(y,x_{1},x_{2},\cdots, x_{n-1}). 우리는 예측의 임무가 주어진다와이yy 의 가치에 따라 엑스xx. 다음과 같은 두 가지 회귀를 추정합니다. 와이와이=에프1(엑스1, ⋯ ,엑스n - 1,엑스엔)=에프2(엑스1, ⋯ ,엑스n - 1)(1)(2)(1)y=f1(x1,⋯,xn−1,xn)(2)y=f2(x1,⋯,xn−1) \begin{align} y &=f_{1}(x_{1},\cdots, x_{n-1}, x_{n}) \tag{1} \\ y …

9 regression multiple-regression missing-data multicollinearity multiple-imputation

3

auto.arima는 std 오류로 생성 된 NaN에 경고

내 데이터는 고용 인구의 시계열 L과 기간, 년입니다. n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 In-sample error measures: ME RMSE …

9 r regression arima

2

회귀 모델을 사용하여 예측 : 언제 중지해야합니까?

예측을하기 위해 실험 척도에서 간단한 선형 회귀 모델을 계산했습니다. 사용 가능한 데이터에서 너무 멀리 떨어진 포인트에 대한 예측을 계산해서는 안된다는 것을 읽었습니다. 그러나 얼마나 외삽 할 수 있는지 알 수있는 지침을 찾지 못했습니다. 예를 들어, 50GB의 디스크 크기에 대한 읽기 속도를 계산하면 결과가 실제와 비슷할 것입니다. 100GB, 500GB의 디스크 크기는 …

9 regression prediction

1

회귀 분석에서 표준화 된 잔차를 이해하는 방법은 무엇입니까?

예제의 회귀 분석에 따르면 잔차는 반응 값과 예측 값의 차이이며 모든 잔차는 분산이 다르므로 표준화 된 잔차를 고려해야합니다. 그러나 분산은 값 그룹에 대한 것입니다. 단일 값은 어떻게 분산 될 수 있습니까?

9 regression residuals

1

실험 데이터가 두꺼운 꼬리 분포를 따르는 지 어떻게 확인할 수 있습니까?

서버 응답 지연에 대한 몇 가지 테스트 결과가 있습니다. 우리의 이론 분석에 따르면, 지연 분포 (응답 지연의 확률 분포 함수)는 헤비 테일 동작을 가져야합니다. 그러나 테스트 결과가 두꺼운 꼬리 분포를 따른다는 것을 어떻게 증명할 수 있습니까?

9 regression distributions probability normal-distribution mathematical-statistics

4

계층 적 선형 회귀 분석을위한 표준 알고리즘?

계층 적 선형 회귀 분석을 수행하기위한 표준 알고리즘 (프로그램과 반대)이 있습니까? 사람들은 보통 MCMC를 수행합니까, 아니면 좀 더 전문화 된 부분 폐쇄 형 알고리즘이 있습니까?

9 regression bayesian multiple-regression multilevel-analysis irls

3

변수의 로그 변환 전후에 상관 관계

로그 변환을 수행하기 전에 또는 후에 두 개의 임의 변수 X 및 Y에 대해 피어슨 상관 관계를 계산해야하는지에 대한 일반적인 원칙이 있습니까? 테스트하기에 더 적합한 절차가 있습니까? 로그 변환은 비선형이므로 유사하지만 다른 값을 생성합니다. 로그 후 X 또는 Y가 정규성에 더 가까운 지 여부에 따라 달라 집니까? 그렇다면 왜 중요합니까? …

9 regression correlation logarithm pearson-r

4

다중 회귀 분석에서 변수 수 감소

시간이 지남에 따라 인덱스 펀드의 동작을 예측하기 위해 다중 회귀 분석에 사용할 수있는 수백 가지 재무 변수 값으로 구성된 큰 데이터 세트가 있습니다. 가능한 많은 예측력을 유지하면서 변수 수를 10 정도로 줄이려고합니다. 추가 : 감소 된 변수 세트는 원래 변수의 경제적 의미를 유지하기 위해 원래 변수 세트의 서브 세트 여야합니다. …

9 regression multivariate-analysis model-selection multiple-regression

2

회귀를 맞추는 방법

측정 된 변수가 이산 양수 (수) 인 시계열 데이터가 있습니다. 시간이 지남에 따라 상승 추세가 있는지 테스트하고 싶습니다. 독립 변수 (x)는 0-500 범위에 있고 종속 변수 (y)는 0-8 범위에 있습니다. 나는 y = floor(a*x + b)보통 최소 제곱 (OLS)을 사용 하여 형태의 회귀를 피팅함으로써 이것에 대답한다고 생각했습니다 . R (또는 …

9 r regression python

4

n-1 변수를 사용하여 더미 변수를 구현하는 방법은 무엇입니까?

4 레벨의 변수가있는 경우 이론적으로 3 개의 더미 변수를 사용해야합니다. 실제로 이것은 실제로 어떻게 수행됩니까? 0-3을 사용합니까, 1-3을 사용하고 4를 비워 두나요? 어떤 제안? 참고 : 저는 R에서 일할 것입니다. 업데이트 : AD에 해당하는 1-4를 사용하는 열을 하나만 사용하면 어떻게됩니까? 작동하거나 문제가 발생합니까?

9 r regression categorical-data categorical-encoding

1

회귀 계수의 역 분포

우리가 선형 모형을 가지고 있다고 가정하자 와이나는=β0+β1엑스나는+ϵ나는yi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_i모든 표준 회귀 (Gauss-Markov) 가정을 충족합니다. 우리는 관심이있다θ = 1 /β1θ=1/β1\theta = 1/\beta_1. 질문 1 : 분배에 필요한 가정θ^θ^\hat{\theta} 잘 정의되어 있습니까? β1≠ 0β1≠0\beta_1 \neq 0 다른 사람이 중요할까요? 질문 2 : 오류가 정규 분포를 따른다는 가정을 …

9 regression distributions maximum-likelihood bootstrap

2

변수가 자동 상관 관계인 경우 회귀를 신뢰할 수 있습니까?

두 변수 (종속 및 독립)는 자기 상관 효과를 나타냅니다. 데이터는 시계 열적이며 고정적입니다 회귀 분석을 실행하면 잔차가 상관되지 않은 것으로 보입니다. 내 Durbin-Watson 통계량이 임계 값보다 높으므로 오류 항이 양의 상관 관계가 없다는 증거가 있습니다. 또한 오류에 대해 ACF를 플롯하면 상관 관계가 없으며 Ljung-Box 통계가 임계 값보다 작은 것처럼 보입니다. …

9 regression time-series autocorrelation

2

상한이있는 하나의 변수를 고려할 때 사용할 회귀 유형은 무엇입니까?

두 변수 간의 관계를 모델링하는 데 어떤 방법을 사용해야하는지 잘 모르겠습니다 (xxx 과 yyy)는 다음과 같이 실험에서 설명됩니다. 3 가지 변수가 있습니다 : xaimxaimx_{aim}, xxx 과 yyy. 의 가치 xaimxaimx_{aim}실험을 수행 할 때 설정됩니다. 하나,xxx 과 xaimxaimx_{aim} 항상 같은 것은 아닙니다. 피어슨의 상관 계수 xaimxaimx_{aim} 과 xxx 약 0.9입니다. 피어슨의 …

9 regression correlation

«regression» 태그된 질문