통계 및 빅 데이터

2

쌍을 이루는 t- 검정 은 단방향 반복 측정 (또는 개체 내) 분산 분석과 선형 혼합 효과 모델의 특별한 경우이며 lme () 함수를 사용하여 R의 nlme 패키지 아래 그림과 같이. #response data from 10 subjects under two conditions x1<-rnorm(10) x2<-1+rnorm(10) # Now create a dataframe for lme myDat <- data.frame(c(x1,x2), c(rep("x1", …

20 r mixed-model t-test repeated-measures lme4-nlme

3

비선형 상관 관계를 감지하기위한 MIC 알고리즘을 직관적으로 설명 할 수 있습니까?

최근에는 두 기사를 읽었습니다. 첫 번째 는 상관의 역사에 관한 것이고 두 번째는 는 는 MIC (Maximal Information Coefficient)라는 새로운 방법에 관한 것입니다. 변수 간의 비선형 상관 관계를 추정하기 위해 MIC 방법을 이해하는 데 도움이 필요합니다. 또한 R에서의 사용 지침은 작성자 웹 사이트 ( Downloads 아래 ) 에서 찾을 수 …

20 correlation nonparametric bioinformatics information-theory mutual-information

3

언제 더미 코딩 대 ANCOVA로 다중 회귀를 사용해야합니까?

최근에 ANCOVA를 사용하여 2 개의 범주 형 변수와 1 개의 연속 형 변수를 조작 한 실험을 분석했습니다. 그러나 검토자는 더미 변수로 코딩 된 범주 형 변수를 사용한 다중 회귀가 범주 형 변수와 연속 형 변수를 모두 사용하는 실험에 더 적합한 테스트라고 제안했습니다. 더미 변수와 함께 ANCOVA 대 다중 회귀 분석을 …

20 regression multiple-regression ancova categorical-encoding

2

비율 대 백분율에 대한 선형 모델을 작성 하시겠습니까?

어떤 종류의 비율이나 백분율을 예측하는 모델을 만들고 싶다고 가정 해보십시오. 예를 들어, 파티에 참석할 소년 대 소녀의 수를 예측하고 모델에서 사용할 수있는 파티의 기능은 파티의 광고량, 행사장의 크기, 장소와 같은 것들입니다. 파티 등에서 술을 마시 게됩니다. (이것은 단지 예일 뿐이며 기능은 중요하지 않습니다.) 내 질문은 비율과 백분율을 예측하는 것의 차이점은 …

20 regression logistic

3

선형 회귀 분석에서 왜 절편을 억제합니까?

SAS, SPSS 등을 포함한 여러 통계 패키지에는 "절편을 억제"하는 옵션이 있습니다. 왜 그렇게 하시겠습니까?

20 regression

2

분산 분석에서 변수의 순서는 중요하지 않습니까?

다중 요인 분산 분석에 변수를 지정하는 순서가 차이를 만들지 만 다중 선형 회귀 분석을 수행 할 때 순서는 중요하지 않다는 것을 이해하는 것이 맞습니까? 측정 된 혈액 손실 y 및 두 가지 범주 형 변수와 같은 결과를 가정 선종 절제술 방법 a , 편도 절제술 방법 b . 모델 y~a+b이 …

20 regression hypothesis-testing anova unbalanced-classes sums-of-squares

1

게놈 전체 협회 연구에서 주요 구성 요소는 무엇입니까?

에서 게놈 전체 연구 협회 (GWAS) 주요 구성 요소는 무엇입니까? 왜 사용됩니까? 그들은 어떻게 계산됩니까? PCA를 사용하지 않고 게놈 전체의 연관성 연구를 수행 할 수 있습니까?

20 pca genetics gwas

4

생존 분석 : 연속 대 이산 시간

생존 분석에서 시간을 연속 또는 불연속으로 처리할지 여부를 결정하는 방법에 대해 혼란스러워합니다. 특히 생존 분석을 사용하여 남학생과 여학생의 생존 (5 세까지)에 미치는 영향이 가장 큰 아동 및 가정 수준 변수를 식별하려고합니다. 아동 연령 (개월), 아동의 생존 여부, 사망 연령 (개월) 및 기타 아동 및 가구 수준 변수에 대한 지표와 함께 …

20 survival ties

3

분포의 순간-부분 또는 더 높은 순간에 사용?

특정 속성을 설명하기 위해 분포의 두 번째, 세 번째 및 네 번째 순간을 사용하는 것이 일반적입니다. 네 번째보다 큰 부분 모멘트 또는 모멘트가 분포의 유용한 특성을 설명합니까?

20 distributions moments partial-moments

7

상자 그림에 대한 대안은 무엇입니까?

사용자가 선택한 다각형에 대한 인구 조사 데이터를 표시하고 다양한 매개 변수 (매개 변수 당 하나의 그래프)의 분포를 그래픽으로 표시하려는 웹 사이트를 만드는 중입니다. 데이터에는 일반적으로 다음과 같은 속성이 있습니다. 샘플 크기가 큰 경향이 있습니다 (예 : 약 10,000 개의 데이터 포인트) 값의 범위는 크게 요구되는 경향이 있습니다 (예 : 최소 …

20 distributions data-visualization boxplot

9

시계열의 Ljung-Box 테스트에 몇 개의 지연이 있습니까?

ARMA 모델이 시계열에 적합하면 Ljung-Box portmanteau 테스트 (다른 테스트 중)를 통해 잔차를 확인하는 것이 일반적입니다. Ljung-Box 테스트는 p 값을 반환합니다. 테스트 할 지연 수인 매개 변수 h 가 있습니다. 일부 텍스트는 h = 20을 사용하는 것이 좋습니다 . 다른 사람들은 h = ln (n); 대부분은 무슨 말을하지 않는 시간을 사용 …

20 time-series

6

항상 강력한 (흰색) 표준 오류를보고 하시겠습니까?

Angrist와 Pischke는 견고성 (즉, 이분산성 또는 불균등 한 편차에 강함) 표준 오류는 테스트하기보다는 물론 문제로보고되었다고 제안했습니다. 두 가지 질문 : 동종 동태성이있을 때 표준 오류에 미치는 영향은 무엇입니까? 실제로 그들의 작업에서 이것을하는 사람이 있습니까?

20 regression standard-error heteroscedasticity robust-standard-error

3

XGBoost vs Python Sklearn 그라디언트 부스트 트리

XGBoost가 어떻게 작동하는지 이해하려고합니다. Python sklearn에서 그라디언트 향상 트리가 어떻게 작동하는지 이미 알고 있습니다. 분명하지 않은 것은 XGBoost가 동일한 방식으로 작동하지만 더 빠르거나 파이썬 구현과 근본적인 차이점이 있는지입니다. 이 논문을 읽을 때 http://learningsys.org/papers/LearningSys_2015_paper_32.pdf XGboost에서 나온 최종 결과가 Python 구현에서와 같은 것처럼 보이지만 주요 차이점은 XGboost가 각 회귀 트리에서 만들 수있는 …

20 scikit-learn boosting gbm xgboost

2

최대 가능성 추정기-다변량 가우스

문맥 다변량 가우스는 머신 러닝에서 자주 나타나며 다음 결과는 많은 ML 서적과 과정에서 파생되지 않고 사용됩니다. 행렬의 형태로 주어진 데이터 치수의 , 우리는 데이터를 따른다고 가정하면 -variate 가우시안 변수와 분포 평균 ( ) 및 공분산 행렬 ( ) 최대 가능성 추정치 는 다음과 같이 제공됩니다.XX\mathbf{X} m×pm×p m \times ppppμμ\mup×1p×1p \times …

20 normal-distribution maximum-likelihood estimators multivariate-normal

5

딥 러닝 : 어떤 변수가 중요한지 어떻게 알 수 있습니까?

신경망 용어 (y = Weight * x + bias)와 관련하여 어떤 변수가 다른 변수보다 더 중요한지 어떻게 알 수 있습니까? 10 개의 입력, 20 개의 노드가있는 1 개의 숨겨진 레이어 및 1 개의 노드가있는 1 개의 출력 레이어가있는 신경망이 있습니다. 어떤 입력 변수가 다른 변수보다 더 영향력이 있는지 아는 방법을 …

20 machine-learning neural-networks bias tensorflow theano