«terminology» 태그된 질문

통계에서 특정 기술 단어 / 개념의 사용법과 의미.

4
반복 횟수가 증가함에 따라 그라디언트 부스팅 기계 정확도가 감소합니다.
caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

2
명목 / 범주 데이터에 대한“더미 변수”대“표시기 변수”
"더미 변수"및 "표시기 변수" 는 0/1 코딩 범주의 멤버 자격을 설명하기 위해 자주 사용되는 용어 레이블입니다. 일반적으로 0 : 범주의 구성원이 아님, 1 : 범주의 구성원. 2014 년 11 월 26 일에 Scholar.google.com (빠른 따옴표 포함)을 빠르게 검색하면 약 318,000 개의 기사에 "더미 변수"가 사용되고 약 112,000 개의 기사에 "인디케이터 …


1
랜덤 화 테스트와 순열 테스트의 차이점
문헌에서 랜덤 화와 치환이라는 용어는 서로 바꾸어 사용될 수 있습니다. 많은 저자들이 "순열 (일명 무작위 화) 테스트"라고 말하고 그 반대의 경우도 마찬가지입니다. 기껏해야 그 차이는 미묘하다고 생각하며, 데이터와 잠재적 결론에 대한 가정에 있습니다. 내 이해가 올바른지 또는 누락 된 더 깊은 차이가 있는지 확인하면됩니다. 순열 테스트는 데이터가 기본 모집단 분포 …

5
'공동 분포'와 '다변량 분포'라는 용어의 차이점은 무엇입니까?
나는 '다변량 분포'를 이해할 가능성이 높은 청중에게 '공동 확률 분포'를 사용하는 것에 대해 쓰고 있으므로 나중에 사용할 것을 고려하고 있습니다. 그러나 나는 이것을하는 동안 의미를 잃고 싶지 않습니다. Wikipedia 는 이것이 동의어임을 나타냅니다. 그들은? 그렇지 않다면 왜 안됩니까?


2
머신 러닝에서 Bayes Error는 무엇입니까?
http://www.deeplearningbook.org/contents/ml.html 페이지 116에 베이 오류가 설명되어 있습니다. 이상적인 모델은 데이터를 생성하는 실제 확률 분포를 단순히 알고있는 오라클입니다. 이러한 모델조차도 많은 문제에서 여전히 약간의 오류가 발생합니다. 왜냐하면 분포에 약간의 노이즈가있을 수 있기 때문입니다. 지도 학습의 경우, x에서 y 로의 매핑은 본질적으로 확률 론적이거나 y는 x에 포함 된 것 이외의 다른 변수를 …

2
Wolfram Mathworld는 확률 밀도 함수를 사용하여 불연속 확률 분포를 설명하는 실수를합니까?
일반적으로 불연속 변수에 대한 확률 분포는 확률 질량 함수 (PMF)를 사용하여 설명됩니다. 연속 랜덤 변수로 작업 할 때 확률 질량 함수가 아닌 확률 밀도 함수 (PDF)를 사용하여 확률 분포를 설명합니다. - 깊은 학습 Goodfellow, Bengio 및 Courville로 그러나 Wolfram Mathworld 는 이산 변수에 대한 확률 분포를 설명하기 위해 PDF를 사용하고 …

1
주어진 데이터 세트에서 가장 큰 값과 가장 작은 값의 평균 이름은 무엇입니까?
주어진 데이터 세트에서 상위 및 하위 극단에서 계산 된 통계적 평균을 무엇이라고합니까? 예를 들어, 세트가있는 경우 : { -2, 0 , 8, 9, 1, 50, -2, 6} 이 세트의 상단 극단은 50이고 하단 극단은 -2입니다. 따라서 극단의 평균은(-2 + 50 / 2) = 48/2 = 24 이런 종류의 통계적 의미에 …

6
"상관 된"의 능동 / 수동 사용에 대한 힌트
나는 이것을 StackExchange 통계 또는 언어 / 영어로 여기에서 물어볼 것을 주저하지만, 다른 포럼에서 통계에 정통한 사용자보다 더 많은 언어 니팅 사용자가있을 수 있다고 생각합니다.) 나는 종종 "우리는 A와 B를 연관시키고 발견했다 ..."에서와 같이 능동적 음성에서 동사로 상관 관계를 언급하는 보고서를 읽는다. 나에게이 동사는 수동적 목소리에서만 의미가 있습니다. 예를 들어 …

3
분포 패밀리의 정의?
분포 패밀리가 다른 분야와 통계에 대해 다른 정의를 가지고 있습니까? 일반적으로, 곡선 군 은 일련의 곡선이며, 각각의 곡선은 하나 이상의 파라미터가 변하는 함수 또는 매개 변수화에 의해 주어진다. 이러한 제품군은 예를 들어 전자 부품 을 특성화 하는 데 사용됩니다 . 통계의 경우 한 소스 에 따른 패밀리 는 모양 매개 …




1
“인자 분석의 기본 정리”는 PCA에 어떻게 적용됩니까? 또는 PCA 로딩은 어떻게 정의됩니까?
저는 현재 "인자 분석"(PCA)에 대한 슬라이드 세트를 사용하고 있습니다. 여기에서 분석에 들어가는 데이터의 상관 행렬 ( )을 인자 로딩 행렬 ( A )을 사용하여 복구 할 수 있다고 주장하는 "인자 분석의 기본 정리"가 도출됩니다 .RR\bf RAA\bf A R=AA⊤R=AA⊤\bf R = AA^\top 그러나 이것은 나를 혼란스럽게합니다. PCA에서 "인자 로딩"의 행렬은 데이터의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.