«fitting» 태그된 질문

일부 통계 모델을 특정 데이터 세트에 맞추는 프로세스입니다. 대부분 컴퓨터에서 수행되고 최적화 또는 수치 적분 또는 시뮬레이션과 같은 다양한 수치 방법을 사용합니다.

3
R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]
캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

6
정현파 항을 데이터에 적합
이 게시물을 읽었지만 여전히 내 데이터에 어떻게 적용하고 누군가 나를 도울 수 있기를 바랍니다. 다음과 같은 데이터가 있습니다. y <- c(11.622967, 12.006081, 11.760928, 12.246830, 12.052126, 12.346154, 12.039262, 12.362163, 12.009269, 11.260743, 10.950483, 10.522091, 9.346292, 7.014578, 6.981853, 7.197708, 7.035624, 6.785289, 7.134426, 8.338514, 8.723832, 10.276473, 10.602792, 11.031908, 11.364901, 11.687638, 11.947783, 12.228909, 11.918379, 12.343574, …
26 r  regression  fitting 

1
카운트 데이터에서 특이 값 탐지
나는 여러 가지 카운트 데이터 세트에 대한 이상치 탐지와 관련하여 상당히 직설적 인 문제라고 생각했습니다. 특히, 일련의 카운트 데이터에서 하나 이상의 값이 분포의 나머지 카운트에 비해 예상보다 높거나 낮은 지 확인하고 싶습니다. 혼란스러운 요소는 3,500 개의 분포에 대해이 작업을 수행해야하며 일부는 0으로 과도하게 분산 된 포아송에 적합하고 다른 일부는 음 …

1
분석 야 코비안을 사용할 수있는 경우
합계 제곱 잔차를 최소화하는 일부 모델 매개 변수를 계산하고 있으며 오류가 가우시안이라고 가정합니다. 내 모델은 분석적 미분을 생성하므로 옵티마이 저는 유한 차분을 사용할 필요가 없습니다. 피팅이 완료되면 피팅 된 파라미터의 표준 오차를 계산하려고합니다. 일반적으로이 상황에서 오류 함수의 Hessian은 다음과 같이 공분산 행렬과 관련이 있습니다. 여기서 는 잔차의 분산입니다.σ 2σ2H−1=Cσ2H−1=C \sigma^2 …

1
적합 확률 분포에서 MLE 대 최소 제곱
내가 읽은 여러 논문, 서적 및 기사를 기반으로 얻은 인상은 일련의 데이터에 확률 분포를 맞추는 권장 방법은 최대 가능성 추정 (MLE)을 사용하는 것입니다. 그러나 물리학 자로서보다 직관적 인 방법은 모형의 pdf를 최소 제곱을 사용하여 경험적 pdf에 맞추는 것입니다. 그렇다면 왜 확률 분포를 피팅 할 때 MLE이 최소 제곱보다 낫습니까? 누군가이 …

2
회귀 분석과 곡선 피팅의 차이점
가능한 한 예를 들어 회귀 분석과 곡선 피팅 (선형 및 비선형)의 실제 차이점을 나에게 설명해 줄 수 있습니까? 두 변수 (종속 대 독립) 사이의 관계를 찾은 다음 제안되는 모델과 관련된 매개 변수 (또는 계수)를 결정하려고합니다. 예를 들어 다음과 같은 데이터 세트가있는 경우 : Y = [1.000 1.000 1.000 0.961 0.884 …

3
R의 피팅 t- 분포 : 스케일링 파라미터
t- 분포의 모수, 즉 정규 분포의 '평균'및 '표준 편차'에 해당하는 모수를 어떻게 적합합니까? 나는 그것들을 t- 분포에 대해 '평균'과 '확장 / 자유도'라고 부릅니다. 다음 코드는 종종 '최적화 실패'오류를 발생시킵니다. library(MASS) fitdistr(x, "t") x를 먼저 스케일하거나 확률로 변환해야합니까? 최선을 다하는 방법?

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

5
선형 회귀 분석에서 가설과 입력 데이터 포인트 간의 수직 거리를 기반으로 비용 함수를 사용하는 이유는 무엇입니까?
입력 (예측 자) 및 출력 (응답) 데이터 포인트 A, B, C, D, E가 있고 포인트를 통해 선을 맞추고 싶다고 가정 해 봅시다. 이것은 문제를 설명하기위한 간단한 문제이지만 더 높은 차원으로 확장 될 수도 있습니다. 문제 설명 현재 최상의 적합 또는 가설은 위 의 검은 선으로 표시됩니다 . 파란색 화살표 ( …

3
다른 곡선에 맞게 데이터 계열의 세그먼트를 프로그래밍 방식으로 감지하려면 어떻게해야합니까?
주어진 데이터 집합의 섹션을 가장 적합한 곡선으로 분리하는 문서화 된 알고리즘이 있습니까? 예를 들어,이 데이터 차트를 보는 대부분의 인간은 정현파 세그먼트, 선형 세그먼트 및 역 지수 세그먼트의 세 부분으로 쉽게 나눌 수 있습니다. 사실, 나는 이것을 사인파, 선 및 간단한 지수 공식으로 만들었습니다. 이와 같은 부품을 찾기위한 기존 알고리즘이 있습니까? …


1
지수 적합의 잔차 제곱합을 최소화하는 방법은 무엇입니까?
나는 다음과 같은 데이터를 가지고 있으며 음의 지수 성장 모델에 맞추고 싶다. Days <- c( 1,5,12,16,22,27,36,43) Emissions <- c( 936.76, 1458.68, 1787.23, 1840.04, 1928.97, 1963.63, 1965.37, 1985.71) plot(Days, Emissions) fit <- nls(Emissions ~ a* (1-exp(-b*Days)), start = list(a = 2000, b = 0.55)) curve((y = 1882 * (1 - exp(-0.5108*x))), …

3
스플라인을 값과 1 차 / 2 차 미분이 포함 된 데이터에 맞추려면 어떻게해야합니까?
위치, 속도 및 가속도에 대한 측정 값이 포함 된 데이터 세트가 있습니다. 모두 같은 "실행"에서 나옵니다. 선형 시스템을 구성하고 모든 측정에 다항식을 맞출 수 있습니다. 그러나 스플라인으로도 동일한 작업을 수행 할 수 있습니까? 이것을하는 'R'방법은 무엇입니까? 다음은 내가 원하는 시뮬레이션 데이터입니다. f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) …

1
로그 정규 분포에서 산술 평균이 분포 평균보다 작은 이유는 무엇입니까?
그래서 로그 정규 분포 확률 변수 생성하는 무작위 프로세스가 있습니다. 해당 확률 밀도 함수는 다음과 같습니다.엑스XX 나는 원래 분포의 몇 순간의 분포 를 추정하고 싶었습니다 . 첫 번째 순간, 산술 평균이라고합시다. 그렇게하기 위해 10000 번의 랜덤 변수를 10000 번 그려서 산술 평균의 10000 추정치를 계산할 수있었습니다. 그 평균을 추정하는 두 …

2
차별화 된 시리즈의 ARIMA vs ARMA
R (2.15.2)에서는 시계열에 ARIMA (3,1,3)를 한 번, 한 번 다른 시계열에 ARMA (3,3)를 한 번 장착했습니다. ARIMA의 피팅 방법으로 인해 피팅 매개 변수가 다릅니다. 또한 ARMA (3,3)과 동일한 데이터에 ARIMA (3,0,3)를 피팅하면 내가 사용하는 피팅 방법에 관계없이 동일한 매개 변수가 생성되지 않습니다. ARMA에서와 동일한 피팅 계수를 얻기 위해 ARIMA에 맞는 …
13 r  time-series  arima  fitting  arma 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.