«modeling» 태그된 질문

이 태그는 통계 또는 기계 학습 모델을 만드는 프로세스를 설명합니다. 항상 더 구체적인 태그를 추가하십시오.

1
계수 경로 – 융기, 올가미 및 탄성 그물 회귀 비교
능선, 올가미 및 탄성 그물로 선택한 모델을 비교하고 싶습니다. 아래 그림은 릿지 (그림 A, 알파 = 0), 올가미 (그림 B; 알파 = 1) 및 탄성 그물 (그림 C; 알파 = 0.5)의 세 가지 방법을 모두 사용하여 계수 경로를 보여줍니다. 최적의 솔루션은 선택된 람다 값에 따라 달라지며, 이는 교차 검증을 기반으로 …

1
일반화 된 가산 모델 (GAM), 상호 작용 및 공변량
예측을위한 여러 가지 도구를 살펴 보았으며이 목표를 달성 할 수있는 가장 일반적인 잠재력을 가진 GAM (Generalized Additive Models)을 발견했습니다. GAM은 훌륭합니다! 복잡한 모델을 간결하게 지정할 수 있습니다. 그러나 동일한 간결함은 특히 GAM이 상호 작용 항과 공변량을 어떻게 생각하는지에 관해 혼란을 유발합니다. y몇 개의 가우시안에 의해 혼동 된 단조 함수와 약간의 …
12 r  modeling  gam  mgcv 

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
종속 변수에 "컷오프"가있는 경우 모델링
내가 사용하는 용어가 틀린 경우 사전에 사과하십시오. 정정을 환영합니다. "잘라 내기"라고 부르는 내용이 다른 이름으로 바뀌면 알려 주시면 질문을 업데이트 할 수 있습니다. 내가 관심있는 상황은 이것입니다. 독립 변수 xx\bf{x} 와 단일 종속 변수 yyy 있습니다. 모호하게 남겨 두 겠지만, 이러한 변수에 대해 좋은 회귀 모델을 얻는 것이 비교적 간단하다고 …

1
히든 마르코프 모델에서 "최상의"모델을 선택하기위한 기준
데이터의 잠재 상태 수를 추정하기 위해 HMM (Hidden Markov Model)에 맞추려고하는 시계열 데이터 세트가 있습니다. 이 작업을 수행하는 의사 코드는 다음과 같습니다. for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } 이제 일반적인 회귀 모델에서 BIC는 가장 …

1
R-자유도에서 PROC Mixed과 lme / lmer의 차이점
참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

2
카운트 데이터 분산의 파라 메트릭 모델링
일부 데이터를 모델링하려고하는데 어떤 유형의 모델을 사용할 수 있는지 잘 모르겠습니다. 카운트 데이터가 있고 데이터의 평균과 분산 모두에 대한 모수 추정치를 제공하는 모델을 원합니다. 즉, 다양한 예측 요소가 있으며 그룹 평균뿐만 아니라 분산에 영향을 미치는지 확인하고 싶습니다. 분산이 평균과 같기 때문에 포아송 회귀가 작동하지 않는다는 것을 알고 있습니다. 이 가정은 …

1
Fisher의 정확한 테스트 및 초기 하 분포
피셔의 정확한 테스트를 더 잘 이해하고 싶기 때문에 f와 m이 남성과 여성에 해당하고 n과 y가 "소다 소비"에 해당하는 다음 장난감 예제를 고안했습니다. > soda_gender f m n 0 5 y 5 0 분명히 이것은 과감한 단순화이지만 컨텍스트가 방해되는 것을 원하지 않았습니다. 여기서 나는 남자들이 음료수를 마시지 않고 여자들은 음료수를 마시고 …

1
최소 제곱 대 일반화 선형 모형 대 비선형 최소 제곱을 사용하여 지수 함수 피팅
지수 붕괴를 나타내는 데이터 세트가 있습니다. 지수 함수 를이 데이터 에 맞추고 싶습니다 . 응답 변수를 로그 변환 한 다음 줄에 맞추기 위해 최소 제곱을 사용하려고했습니다. 반응 변수 주위에 로그 링크 함수 및 감마 분포를 갖는 일반화 된 선형 모델을 사용하는 단계; 비선형 최소 제곱을 사용합니다. 두 방법 모두 각 …

4
로그 선형 모형
누군가 왜 우리가 평신도 용어로 로그 선형 모델을 사용하는지 설명해 주시겠습니까? 나는 엔지니어링 배경에서 왔으며, 이것은 실제로 통계적으로 나에게 어려운 주제로 판명되었습니다. 답변 해 주셔서 감사합니다.

1
언제 모델 찾기를 중단해야합니까?
나는 에너지의 주가와 날씨 사이의 모델을 찾고 있습니다. 유럽 ​​국가간에 구매 한 MWatt의 가격과 날씨에 대한 많은 가치가 있습니다 (Grib 파일). 각 시간은 5 년 (2011-2015)입니다. 가격 / 일 이것은 1 년 동안 하루입니다. 나는 5 년에 시간당이 있습니다. 날씨의 예 1 시간 동안 켈빈 단위의 3Dscatterplot. 시간당 데이터 당 …

5
홈런 치기의 평균에 대한 회귀 측정
야구를 따르는 사람은 토론토의 호세 바티스타의 MVP 이외의 성능에 대해 들었을 것입니다. 4 년 전 그는 시즌 당 약 15 홈런을 기록했다. 작년에 그는 54 명을 기록했는데, 이는 야구 역사상 12 명에 불과한 수치입니다. 2010 년에는 240 만 명이 지급되었고 2011 년에는 팀에 1 천 5 백만 명이 요구되었습니다. 760 …
11 r  regression  modeling 

10
모델을 구축하는 예측 이외의 이유는 무엇입니까?
Joshua Epstein은 "Why Model?"이라는 제목의 논문을 썼습니다. http://www.santafe.edu/media/workingpapers/08-09-040.pdf 에서 16 가지 이유 를 확인할 수 있습니다 . 설명 (예측과는 매우 다름) 가이드 데이터 수집 핵심 역학 조명 역동적 인 비유 제안 새로운 질문을 발견하십시오 과학적 사고 습관을 장려 가능한 범위로 바운드 (브래킷) 결과 핵심 불확실성을 밝힙니다. 거의 실시간으로 위기 옵션 …
11 modeling 

1
R / mgcv : te () 및 ti () 텐서 제품이 다른 표면을 생성하는 이유는 무엇입니까?
mgcv에 대한 패키지는 R텐서 제품의 상호 작용을 피팅에 대한 두 가지 기능이 있습니다 : te()와 ti(). 나는 둘 사이의 기본 노동 분열을 이해한다 (비선형 상호 작용에 적합하고이 상호 작용을 주요 효과와 상호 작용으로 분해). 내가 이해할 수없는 것은 왜 te(x1, x2)와 ti(x1) + ti(x2) + ti(x1, x2)(약간) 다른 결과가 발생할 …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

7
모델 구축에서 사회적 차별을 피하십시오
아마존의 최근 채용 스캔들에서 영감을 얻은 질문이 있는데, 채용 과정에서 여성에 대한 차별로 기소되었습니다. 더 많은 정보는 여기에 : Amazon.com Inc의 머신 러닝 전문가는 큰 문제를 발견했습니다. 새로운 채용 엔진은 여성을 좋아하지 않았습니다. 이 팀은 2014 년부터 최고 인재 검색을위한 기계화를 목표로 취업 지원자의 이력서를 검토하기 위해 컴퓨터 프로그램을 구축해 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.