통계 및 빅 데이터

3

많은 논의에서 비슷한 결론을 보았습니다. 미니 배치 크기가 커질수록 SGD의 수렴이 실제로 더 어려워지고 악화됩니다. 이 논문 과 이 답변을 . 또한 초기 단계에서 소규모 학습 속도 또는 배치 크기와 같은 트릭을 사용하여 배치 크기가 큰 문제를 해결하는 사람들에 대해 들었습니다. 그러나 미니 배치의 평균 손실이 데이터 분포에 대한 예상 …

18 machine-learning neural-networks optimization gradient-descent sgd

2

지수 패밀리에 모든 분포가 포함되지 않는 이유는 무엇입니까?

나는 책을 읽고있다 : 감독, 패턴 인식 및 기계 학습 (2006) 지수 패밀리를 형식의 분포로 정의합니다 (식 2.194). p(x|η)=h(x)g(η)exp{ηTu(x)}p(x|η)=h(x)g(η)exp⁡{ηTu(x)}p(\mathbf x|\boldsymbol \eta) = h(\mathbf x) g(\boldsymbol \eta) \exp \{\boldsymbol \eta^\mathrm T \mathbf u(\mathbf x)\} 그러나 h(x)h(x)h(\mathbf x) 또는 u(x)u(x)\mathbf u(\mathbf x) . 이것은 h (\ mathbf x) 와 \ mathbf u …

18 mathematical-statistics exponential-family

2

미니 배치 훈련 신경망을 위해 무작위로 추출 된 훈련 샘플을 교체없이 추출해야합니까?

우리는 에포크가 사용 가능한 모든 훈련 샘플 전체를 통과 한 것으로 정의하고, 미니 배치 크기는 그라디언트를 내리는 데 필요한 가중치 / 바이어스에 대한 업데이트를 평균화하는 평균 샘플 수로 정의합니다. 내 질문은 에포크 내에서 각 미니 배치를 생성하기 위해 일련의 교육 예제를 대체하지 않고 끌어 야하는지 여부입니다. 실제로 에포크 종료 요구 …

18 machine-learning neural-networks optimization deep-learning

2

커널 밀도 추정을 수행 할 때 Epanechnikov 커널이 이론적으로 최적이라면 왜 더 일반적으로 사용되지 않습니까?

커널 밀도 추정을 수행 할 때 Epanechnikov 커널이 이론적으로 적어도 최적이라는 것을 읽었습니다 (예 : here ). 이것이 사실이라면 왜 가우시안이 밀도 추정 라이브러리에서 기본 커널 또는 많은 경우 유일한 커널처럼 자주 표시됩니까?

18 nonparametric kernel-smoothing

3

순서 형 범주 형 변수를 독립 변수로 처리하는 방법

로짓 모델을 사용하고 있습니다. 내 종속 변수는 이진입니다. 그러나 범주 형이며 응답이 포함 된 독립 변수가 있습니다 1.very good, 2.good, 3.average, 4.poor and 5.very poor. 따라서 서수입니다 ( "정량적 범주 형"). 모델에서 이것을 처리하는 방법을 잘 모르겠습니다. 사용하고 gretl있습니다. [@ttnphns의 참고 사항 : 문제는 모델이 로짓이라고 가정하지만 (종속적 독립 변수 …

18 regression logistic ordinal-data predictor

2

하이퍼 파라미터 튜닝을위한 베이지안 최적화에 비해 입자 떼 최적화의 장점은 무엇입니까?

ML 하이퍼 파라미터를 튜닝하기위한 베이지안 최적화 (1)에 대한 실질적인 현대 연구가 있습니다 . 여기서의 동기 부여는 모델 교육에 시간이 많이 걸리기 때문에 약간의 노력이 필요하기 때문에 (객관적인 함수 호출이 비싸므로 더 적은 것을 만드는 것이 좋습니다) 어떤 정보를 선택해야하는지에 대한 최소한의 데이터 포인트가 필요하다는 것입니다. 내가 작업 한 큰 SVM …

18 hyperparameter bayesian-optimization optunity

2

강화 학습에서 보상 기능을 만드는 방법

강화 학습을 공부하는 동안 저는 , 및 현재 상태에만 의존하는 보상 기능 등 여러 형태의 보상 기능을 접했습니다. 하지만 보상 기능을 '만들거나'정의하기가 쉽지 않다는 것을 깨달았습니다.R(s,a)R(s,a)R(s,a)R (s,a,s′)R(s,a,s')R(s,a,s') 내 질문은 다음과 같습니다. 보상 기능을 만드는 방법에 대한 규칙이 있습니까? 보상 기능에는 다른 형태가 있습니까? 예를 들어, 아마도 국가에 따라 다항식 형태입니까?

18 machine-learning reinforcement-learning

2

볼록하지 않은 기능에 그래디언트 디센트를 적용 할 수 있습니까?

나는 단지 최적화에 대해 배우고 있고 볼록과 비 볼록 최적화의 차이점을 이해하는데 어려움을 겪고 있습니다. 내 이해에서 볼록 함수는 "함수 그래프의 두 지점 사이의 선분이 그래프 위에 있거나 그래프 위에있는 것"입니다. 이 경우 그라디언트 하강 알고리즘을 사용할 수 있습니다. 단일 최소값이 있고 그라디언트가 항상 최소값으로 이동하기 때문입니다. 그러나이 그림의 기능은 …

18 optimization

1

t-SNE를 적용하기 전에 데이터를 중앙에 맞추고 스케일링해야합니까?

내 데이터의 일부 기능은 큰 값을 갖는 반면 다른 기능은 훨씬 작은 값을 갖습니다. t-SNE를 적용하기 전에 더 큰 값을 향한 편향을 방지하기 위해 데이터를 중앙에 + 스케일해야합니까? 기본 유클리드 거리 측정법으로 Python의 sklearn.manifold.TSNE 구현을 사용합니다.

18 normalization dimensionality-reduction high-dimensional tsne

2

Wilcoxon 사인 랭크 테스트에 대한 효과 크기?

일부 저자 (예 : Pallant, 2007, p. 225; 아래 이미지 참조)는 검정 통계량을 관측치 수의 제곱근으로 나누어 Wilcoxon 부호있는 순위 검정의 효과 크기를 계산하도록 제안합니다. r=Znx+ny√r=Znx+nyr = \frac{Z}{\sqrt{n_x + n_y}} ZSPSS (아래 이미지 참조) 및 wilcoxsign_testR 의 테스트 통계 출력입니다 (내 관련 질문 : wilcoxsign_test의 teststatistic vs linearstatistic 참조 ) …

18 effect-size wilcoxon-signed-rank

4

와

18 conditional-expectation notation definition

2

REML 또는 ML 두 가지 혼합 효과 모델을 다른 고정 효과와 비교하지만 동일한 임의 효과를 비교합니까?

배경 : 참고 : 내 데이터 세트와 r 코드는 텍스트 아래에 포함됩니다. R의 lme4 패키지를 사용하여 생성 된 두 가지 혼합 효과 모델을 비교하기 위해 AIC를 사용하고 싶습니다. 각 모델에는 하나의 고정 효과와 하나의 임의 효과가 있습니다. 고정 효과는 모델마다 다르지만 임의 효과는 모델간에 동일하게 유지됩니다. REML = T를 사용하면 …

18 maximum-likelihood random-effects-model fixed-effects-model mixed-model lme4-nlme

5

않습니다

rrr 제곱 값에 ppp 값 이 있는지 이해하려고 애 쓰고 있는 것 같습니다 . 내가 알고있는 것처럼, 데이터 포인트의 세트와 선형 상관 관계에 rrr 이르기까지 값을 가질 수 −1−1-1 에 111 이 값을, 그것이 무엇이든하는 수 ppp 경우 어떤 쇼 - 값을 큰 차이가 (즉, 두 변수간에 선형 상관 관계가있는 …

18 statistical-significance p-value r-squared

5

cv.glmnet 결과의 다양성

cv.glmnet예측 변수를 찾는 데 사용 하고 있습니다. 내가 사용하는 설정은 다음과 같습니다. lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] 메이크업에 확인 결과는 재현 I 있습니다 set.seed(1). 결과는 매우 다양합니다. 결과가 얼마나 변수인지 확인하기 위해 정확히 동일한 코드 100을 실행했습니다. 98/100 런에서 하나의 특정 예측 변수가 항상 선택되었습니다 (때로는 그 자체 만 가능합니다). …

18 r cross-validation feature-selection glmnet

4

“무작위 표본”및“iid 임의 변수”동의어입니까?

나는 "임의의 샘플"과 "iid random variable"의 의미를 이해하기가 힘들었습니다. 여러 출처에서 의미를 찾으려고 노력했지만 점점 더 혼란스러워졌습니다. 내가 시도한 것을 여기에 게시하고 있습니다. Degroot의 확률 및 통계는 다음과 같이 말합니다. 랜덤 샘플 / iid / 샘플 크기 : 실수 라인에서 pf 또는 pdf 로 표시 될 수있는 주어진 확률 분포를 …

18 sampling terminology iid