통계 및 빅 데이터 terminology

4

caretR 의 패키지를 통해 그라디언트 부스팅 머신 알고리즘을 실험하고 있습니다 . 소규모 대학 입학 데이터 세트를 사용하여 다음 코드를 실행했습니다. library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

2

명목 / 범주 데이터에 대한“더미 변수”대“표시기 변수”

"더미 변수"및 "표시기 변수" 는 0/1 코딩 범주의 멤버 자격을 설명하기 위해 자주 사용되는 용어 레이블입니다. 일반적으로 0 : 범주의 구성원이 아님, 1 : 범주의 구성원. 2014 년 11 월 26 일에 Scholar.google.com (빠른 따옴표 포함)을 빠르게 검색하면 약 318,000 개의 기사에 "더미 변수"가 사용되고 약 112,000 개의 기사에 "인디케이터 …

15 categorical-data terminology categorical-encoding

1

통계 및 기계 학습 용어에 대한 동의어 사전

통계 및 기계 학습 용어에 대한 참조 동의어 사전이 있습니까? Wikipedia 기사에 종종 동의어가 포함되어 있음을 알고 있지만, 모든 전문 용어를 알고 있는지 확인하기 위해 쉽게 읽을 수있는 단순한 동의어 사전 (전체 백과 사전)을 갖고 싶습니다.

15 machine-learning terminology

1

랜덤 화 테스트와 순열 테스트의 차이점

문헌에서 랜덤 화와 치환이라는 용어는 서로 바꾸어 사용될 수 있습니다. 많은 저자들이 "순열 (일명 무작위 화) 테스트"라고 말하고 그 반대의 경우도 마찬가지입니다. 기껏해야 그 차이는 미묘하다고 생각하며, 데이터와 잠재적 결론에 대한 가정에 있습니다. 내 이해가 올바른지 또는 누락 된 더 깊은 차이가 있는지 확인하면됩니다. 순열 테스트는 데이터가 기본 모집단 분포 …

15 hypothesis-testing sampling terminology permutation-test

5

'공동 분포'와 '다변량 분포'라는 용어의 차이점은 무엇입니까?

나는 '다변량 분포'를 이해할 가능성이 높은 청중에게 '공동 확률 분포'를 사용하는 것에 대해 쓰고 있으므로 나중에 사용할 것을 고려하고 있습니다. 그러나 나는 이것을하는 동안 의미를 잃고 싶지 않습니다. Wikipedia 는 이것이 동의어임을 나타냅니다. 그들은? 그렇지 않다면 왜 안됩니까?

15 probability terminology joint-distribution definition

3

심층 신경망에서 최소 레이어 수

다중 계층 신경망을 심층 신경망으로 분류하거나 다른 방법으로 '심층 신경망에서 최소 레이어 수는 얼마입니까?'

15 machine-learning neural-networks deep-learning terminology

2

머신 러닝에서 Bayes Error는 무엇입니까?

http://www.deeplearningbook.org/contents/ml.html 페이지 116에 베이 오류가 설명되어 있습니다. 이상적인 모델은 데이터를 생성하는 실제 확률 분포를 단순히 알고있는 오라클입니다. 이러한 모델조차도 많은 문제에서 여전히 약간의 오류가 발생합니다. 왜냐하면 분포에 약간의 노이즈가있을 수 있기 때문입니다. 지도 학습의 경우, x에서 y 로의 매핑은 본질적으로 확률 론적이거나 y는 x에 포함 된 것 이외의 다른 변수를 …

15 machine-learning deep-learning terminology

2

Wolfram Mathworld는 확률 밀도 함수를 사용하여 불연속 확률 분포를 설명하는 실수를합니까?

일반적으로 불연속 변수에 대한 확률 분포는 확률 질량 함수 (PMF)를 사용하여 설명됩니다. 연속 랜덤 변수로 작업 할 때 확률 질량 함수가 아닌 확률 밀도 함수 (PDF)를 사용하여 확률 분포를 설명합니다. - 깊은 학습 Goodfellow, Bengio 및 Courville로 그러나 Wolfram Mathworld 는 이산 변수에 대한 확률 분포를 설명하기 위해 PDF를 사용하고 …

14 probability mathematical-statistics terminology pdf

1

주어진 데이터 세트에서 가장 큰 값과 가장 작은 값의 평균 이름은 무엇입니까?

주어진 데이터 세트에서 상위 및 하위 극단에서 계산 된 통계적 평균을 무엇이라고합니까? 예를 들어, 세트가있는 경우 : { -2, 0 , 8, 9, 1, 50, -2, 6} 이 세트의 상단 극단은 50이고 하단 극단은 -2입니다. 따라서 극단의 평균은(-2 + 50 / 2) = 48/2 = 24 이런 종류의 통계적 의미에 …

14 mean terminology average range

6

"상관 된"의 능동 / 수동 사용에 대한 힌트

나는 이것을 StackExchange 통계 또는 언어 / 영어로 여기에서 물어볼 것을 주저하지만, 다른 포럼에서 통계에 정통한 사용자보다 더 많은 언어 니팅 사용자가있을 수 있다고 생각합니다.) 나는 종종 "우리는 A와 B를 연관시키고 발견했다 ..."에서와 같이 능동적 음성에서 동사로 상관 관계를 언급하는 보고서를 읽는다. 나에게이 동사는 수동적 목소리에서만 의미가 있습니다. 예를 들어 …

14 correlation terminology

3

분포 패밀리의 정의?

분포 패밀리가 다른 분야와 통계에 대해 다른 정의를 가지고 있습니까? 일반적으로, 곡선 군 은 일련의 곡선이며, 각각의 곡선은 하나 이상의 파라미터가 변하는 함수 또는 매개 변수화에 의해 주어진다. 이러한 제품군은 예를 들어 전자 부품 을 특성화 하는 데 사용됩니다 . 통계의 경우 한 소스 에 따른 패밀리 는 모양 매개 …

14 distributions terminology parametric exponential-family

3

"서포트 벡터 머신"및 "제한된 볼츠만 머신"의 "머신"은 무엇을 의미합니까?

왜 그들은 "기계"라고 불리는가? 이 맥락에서 사용 된 "machine"이라는 단어의 기원이 있습니까? "선형 프로그래밍"이라는 이름과 혼동 될 수 있지만 "프로그래밍"이라고하는 이유를 알고 있습니다.

14 svm terminology rbm etymology

4

상위 절반에 대한 "-iles"용어

상위 25 %가 최상위 사 분위수입니다. 상위 10 %는 상위 10 %입니다. 상위 1 %가 최상위 백분위 수입니다. 상위 0.5 %, 즉 200에서 1에 해당하는 것이 있습니까?

14 terminology quantiles

2

다른 변수에 대해 변수를 회귀한다는 것은 무엇을 의미합니까?

우리가 를 X 에 대해 회귀 시키려면 X 가 독립 변수이고 Y가 종속 변수 라는 것을 의미 합니까? 즉 Y = a X + b 입니다.YYYXXXXXXY=aX+bY=aX+비Y =aX + b

14 regression terminology

1

“인자 분석의 기본 정리”는 PCA에 어떻게 적용됩니까? 또는 PCA 로딩은 어떻게 정의됩니까?

저는 현재 "인자 분석"(PCA)에 대한 슬라이드 세트를 사용하고 있습니다. 여기에서 분석에 들어가는 데이터의 상관 행렬 ( )을 인자 로딩 행렬 ( A )을 사용하여 복구 할 수 있다고 주장하는 "인자 분석의 기본 정리"가 도출됩니다 .RR\bf RAA\bf A R=AA⊤R=AA⊤\bf R = AA^\top 그러나 이것은 나를 혼란스럽게합니다. PCA에서 "인자 로딩"의 행렬은 데이터의 …

14 pca factor-analysis terminology definition

«terminology» 태그된 질문