통계 및 빅 데이터

3

'epoch', 'batch'및 'minibatch'의 차이점은 무엇입니까?

내가 아는 한 Stochastic Gradient Descent를 학습 알고리즘으로 채택 할 때 누군가는 전체 데이터 세트에 'epoch'를 사용하고 단일 업데이트 단계에서 사용되는 데이터에 'batch'를 사용하고 다른 하나는 'batch'와 'minibatch'를 사용합니다. 다른 사람들은 'epoch'와 'minibatch'를 사용합니다. 이것은 논의하는 동안 많은 혼란을 가져옵니다. 그렇다면 올바른 말은 무엇입니까? 아니면 그들은 모두 허용되는 방언입니까?

36 machine-learning

5

p- 값은 본질적으로 쓸모없고 사용하기에 위험합니까?

NY Times 의이 기사 " Odds, 지속적으로 업데이트"가 제 관심을 끌었습니다. 간단히 말해서, 그것은 [Bayesian statistics]는 2013 년 해안 경비대가 누락 된 어부 John Aldridge를 찾기 위해 사용한 것과 같은 검색을 포함하여 복잡한 문제에 접근하는 데 특히 유용하다는 것을 증명하고 있습니다 (지금까지 말레이시아 항공 370 호를 찾지 못했습니다). ...... 베이지안 …

36 hypothesis-testing statistical-significance bayesian p-value reproducible-research

2

효과 패키지를 통해 lmer 객체의 신뢰 구간은 얼마나 신뢰할 수 있습니까?

Effectspackage 는 package 를 통해 얻은 선형 혼합 효과 모델 결과 를 플로팅 하기위한 매우 빠르고 편리한 방법을 제공 lme4합니다 . 이 effect함수는 신뢰 구간 (CI)을 매우 빠르게 계산하지만 이러한 신뢰 구간은 얼마나 신뢰할 수 있습니까? 예를 들면 다음과 같습니다. library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + …

36 r mixed-model confidence-interval effects lme4-nlme

2

어떤 교차 검증 방법이 가장 좋은지 어떻게 알 수 있습니까?

내 상황에 가장 적합한 교차 유효성 검사 방법을 찾으려고합니다. 다음 데이터는 문제를 해결하기위한 예제 (R)이지만 실제 X데이터 ( xmat)는 서로 상관 관계가 있으며 y변수 ( ymat)를 사용하여 다른 정도와 상관 관계가 있습니다. R 코드를 제공했지만 R에 대한 질문이 아니라 메서드에 대한 질문입니다. XmatX 변수 V1-V100을 ymat포함하고 단일 y 변수 를 …

36 r regression cross-validation linear-model

2

로지스틱 회귀 분석 vs. LDA 2 클래스 분류기

선형 판별 분석 과 로지스틱 회귀 분석 의 통계적 차이를 둘러 보려고합니다 . 두 클래스 분류 문제의 경우 LDA가 교차하는 선형 경계를 만드는 두 개의 정규 밀도 함수 (각 클래스마다 하나씩)를 예측하는 반면, 로지스틱 회귀는 두 클래스 사이의 로그 홀드 함수 만 예측 한다는 것을 이해하고 있습니까? 경계를 만들지 만 …

36 regression logistic classification discriminant-analysis

5

FDR 제어를위한 일반적인 방법을 사용하기위한 조건으로 "긍정적 종속성"의 의미

Benjamini와 Hochberg 는 FDR (False Discovery Rate)을 제어하기위한 첫 번째 (아직 가장 널리 사용되는) 방법을 개발했습니다. 각기 다른 비교를 위해 P 값을 묶어 시작하고 FDR을 지정된 값 (예 : 10 %)으로 제어하여 "발견"이라고 할 정도로 낮은 값을 결정하려고합니다. 일반적인 방법의 한 가정은 비교 세트가 독립적이거나 "긍정적 의존성"을 가지고 있지만 P …

36 multiple-comparisons non-independent false-discovery-rate

4

다항식 적합에서 계수를 해석하는 방법?

내가 가진 일부 데이터에 2 차 다항식 적합을 만들려고합니다. 이 적합도를 플로팅한다고 가정 해 봅시다 ggplot(). ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) 나는 얻다: 따라서 두 번째 주문 적합은 아주 잘 작동합니다. R로 계산합니다. summary(lm(data$bar ~ poly(data$foo, 2))) 그리고 나는 얻는다 : lm(formula = data$bar ~ poly(data$foo, …

36 r regression interpretation regression-coefficients

6

금액을 무작위로 나누면 지수 분포 (예 : 소득 및 부)가 발생한다는 것을 분석적으로 어떻게 증명할 수 있습니까?

과학 의 현재 기사에서 다음이 제안되고 있습니다. 10,000 명의 사람들 사이에서 5 억의 수입을 무작위로 나눕니다. 모든 사람에게 동등한 50,000의 몫을 줄 수있는 방법은 한 가지뿐입니다. 따라서 수입을 무작위로 배분한다면 평등은 거의 불가능합니다. 그러나 소수의 사람들에게 많은 돈을주고 많은 사람들에게 약간의 돈을 줄 수있는 수많은 방법이 있습니다. 실제로 소득을 분배 …

36 distributions mathematical-statistics exponential

3

PCA 또는 FA에서 점수 또는 하중 표시는 의미가 있습니까? 부호를 뒤집을 수 있습니까?

두 가지 다른 함수 ( prcomp및 princomp)를 사용하여 R을 사용하여 주성분 분석 (PCA)을 수행 했으며 PCA 점수가 다른 것으로 나타났습니다. 어떻게 할 수 있습니까? 이걸 고려하세요: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 …

36 r pca factor-analysis

1

이 분산 데이터에 대한 일원 분산 분석의 대안

샘플 크기가 다른 ( , , ) 3 개의 조류 바이오 매스 그룹 ( , , ) 에서 얻은 데이터를 가지고 그룹이 같은 집단에 속하는지 비교하고 싶습니다.AAAC n A = 15 n B = 13 n C = 12BBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 일원 분산 분석은 확실히 갈 길이지만 내 데이터에 대한 정규성 테스트를 …

36 r anova data-transformation heteroscedasticity

2

이항 추정치 0 또는 1에 대한 신뢰 구간

추정값이 (또는 유사하게 p = 1 )이고 표본 크기가 비교적 작은 경우 (예 : n = 25 ) 이항 실험의 신뢰 구간을 계산하는 가장 좋은 방법은 무엇입니까 ?p = 0p=0p=0p = 1p=1p=1n = 25n=25n=25

36 confidence-interval binomial

3

선형 회귀 분석에서 계수 공분산 행렬을 도출하는 방법

선형 회귀에 대한 책을 읽고 의 분산 공분산 행렬을 이해하는 데 어려움이 있습니다 .bb\mathbf{b} 대각선 항목은 충분히 쉽지만 대각선이 아닌 항목은 조금 더 어렵습니다. σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 그러나 여기에는 및 흔적이 없습니다 .β0β0\beta_0β1β1\beta_1

36 regression

4

R에서 음이 아닌 변수의 밀도 플롯에 대한 좋은 방법?

plot(density(rexp(100)) 분명히 0 왼쪽의 모든 밀도는 바이어스를 나타냅니다. 통계가 아닌 사람들을 위해 일부 데이터를 요약하려고하는데, 음이 아닌 데이터가 왜 밀도가 0의 왼쪽인지에 대한 질문을 피하고 싶습니다. 플롯은 무작위 검사 용입니다. 처리 및 제어 그룹별로 변수 분포를 보여주고 싶습니다. 분포는 종종 지수 적입니다. 히스토그램은 여러 가지 이유로 까다 롭습니다. 빠른 Google …

36 r pdf gamma-distribution kernel-smoothing

2

다항 로지스틱 회귀 분석과 일대일 이진 로지스틱 회귀 분석

범주가 적고 독립 변수 세트 가있는 종속 변수 가 있다고 가정 해 봅시다 . YYY 이항 로지스틱 회귀 분석에 비해 다항 로지스틱 회귀 분석의 장점은 무엇입니까 (즉, 1 대 휴식 계획 )? 이항 로지스틱 회귀 집합을 사용 하면 일 때 각 범주 대해 target = 1로 별도의 이진 로지스틱 회귀 …

36 logistic categorical-data multinomial

3

가설 검정에서 p- 값 해석

나는 최근에 "널 가설 유의성 테스트의 무의미" 논문 인 Jeff Gill (1999)을 보았습니다 . 저자는 가설 검정과 p- 값에 대한 몇 가지 일반적인 오해를 제기했습니다. p- 값은 기술적으로 이며, 논문에서 지적한 바와 같이 일반적으로 대해서는 아무 것도 알려주지 않습니다 . 우리가 한계 분포를 알지 않는 한 "매일"가설 검정에서는 거의 해당되지 …

36 hypothesis-testing p-value