통계 및 빅 데이터

4

데이터에는 많은 기능 (예 : 100)이 있으며 인스턴스 수는 100,000입니다. 데이터가 드물다. 로지스틱 회귀 또는 svm을 사용하여 데이터를 맞추고 싶습니다. 비선형 인 경우 커널 트릭을 사용할 수 있도록 기능이 선형인지 비선형인지 어떻게 알 수 있습니까?

21 machine-learning logistic svm data-mining

2

소프트 플러스에 비해 ReLU를 활성화 기능으로 사용하면 어떤 이점이 있습니까?

정류 선형 단위 (ReLU)는 선형적이고 계산이 빠르기 때문에 softplus 단위를 대체했습니다. 소프트 플러스가 여전히 희소성을 유도하는 이점이 있습니까? 아니면 ReLU로 제한됩니까? 내가 묻는 이유는 ReLU의 제로 기울기의 부정적인 결과에 대해 궁금해하기 때문입니다. 이 속성이 재 활성화 가능성을 제공하는 데 도움이되는 단위를 "트랩"하지 않습니까?

21 machine-learning neural-networks

3

nls ()가 왜“초기 모수 추정에서 특이 기울기 행렬”오류를 발생 시키는가?

배출량 감축 및 차량 당 비용에 대한 몇 가지 기본 데이터가 있습니다. q24 <- read.table(text = "reductions cost.per.car 50 45 55 55 60 62 65 70 70 80 75 90 80 100 85 200 90 375 95 600 ",header = TRUE, sep = "") 나는 이것이 지수 함수라는 것을 알고 …

21 r self-study exponential starting-values

2

극한 가치 이론-Show : Normal to Gumbel

최대 iid Standardnormals는 극한값 이론 에 따라 표준 Gumbel 분포로 수렴됩니다 .X1,…,Xn.∼X1,…,Xn.∼X_1,\dots,X_n. \sim 우리는 어떻게 그것을 보여줄 수 있습니까? 우리는 P(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = F(x)^n 다음 과 같은 상수의 시퀀스 를 찾거나 선택해야 …

21 probability normal-distribution convergence extreme-value

2

여러 조건으로 조건부 확률의 정의

21 probability conditional-probability

4

PCA 공간에 새로운 벡터를 투영하는 방법?

주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

lmer ()의 "모델 수렴에 실패했습니다"경고

다음 데이터 세트를 사용하여 사이트, 계절, 기간 및 상호 작용과 관련하여 응답 (효과)이 변경되는지 확인하고 싶었습니다. 통계에 관한 일부 온라인 포럼에서는 선형 혼합 효과 모델로 계속 진행할 것을 제안했지만 문제는 각 스테이션 내에서 복제가 무작위 화되므로 연속 시즌에 정확히 동일한 지점에서 샘플을 수집 할 기회가 거의 없다는 것입니다 (예 : …

21 r mixed-model lme4-nlme

5

경험적 CDF 대 CDF

경험적 누적 분포 함수에 대해 배우고 있습니다. 하지만 난 여전히 이해가 안돼 왜 '실증적'이라고 불리는가? 경험적 CDF와 CDF간에 차이가 있습니까?

21 distributions terminology cdf ecdf

2

통계에서 완전도를 편향 추정량을 형성하는 것이 불가능한 것으로 정의하는 직관은 무엇입니까 ?

고전 통계에서, 데이터 세트 의 통계량 는 매개 변수 대해 완전하도록 정의 정의가 비 편향 추정량 을 형성하는 것은 불가능하다 . 즉, 모든 대해 을 갖는 유일한 방법 은 가 거의 이되도록하는 것입니다.TTTy1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E h(T (y )) = 0θθ\thetahhh000 이것 뒤에 직관이 있습니까? 이것을 정의하는 다소 기계적인 방법 인 …

21 mathematical-statistics intuition unbiased-estimator definition complete-statistics

4

누구나“임의 변수의 합”이라는 개념을 명확히 할 수 있습니까?

내 확률 클래스에서는 "임의 변수의 합"이라는 용어가 지속적으로 사용됩니다. 그러나 나는 그것이 정확히 무엇을 의미하는지 고집하고 있습니까? 우리는 임의의 변수로부터 많은 실현의 합에 대해 이야기하고 있습니까? 그렇다면 하나의 숫자를 합산하지 않습니까? 임의의 변수 실현의 합은 어떻게 우리에게 어떤 종류의 분포 또는 cdf / pdf / 함수를 가져 옵니까? 그리고 무작위 …

21 probability self-study random-variable terminology

3

“제한적”분포와“정적”분포의 차이점은 무엇입니까?

Markov 체인에 대한 질문을하고 있으며 마지막 두 부분은 다음과 같이 말합니다. 이 Markov 체인에는 제한적인 분포가 있습니다. 답이 "예"이면 제한 분포를 찾으십시오. 대답이 "아니오"인 경우 이유를 설명하십시오. 이 Markov 체인에는 고정 분포가 있습니까? 답이 "예"이면 고정 분포를 찾으십시오. 대답이 "아니오"인 경우 이유를 설명하십시오. 차이점은 무엇입니까? 이전에는 제한 분포가 사용하여 계산할 …

21 markov-process

7

RMSE vs. 결정 계수

실제 모델을 평가 중이며 여기에서 사용해야하는 방법 중 하나를 알고 싶습니다 (RMSE와 계수 R2 사이). 문제는 다음과 같습니다. 입력 값 x, 대한 예측을 출력하는 함수가 yx¯¯¯¯¯=f(x)yx¯=f(x)\overline{y_x}= f(x)있습니다. 또한 라는 해당 값에 대한 실제 관찰이 있습니다.yxyxy_x 내 질문은 RMSE 또는 의 장단점이 무엇인가 입니다. 나는 내가 연구하고있는 문제에 대한 논문에서 두 …

21 error

11

여러 주사위의 결과 분포를 쉽게 결정하는 방법은 무엇입니까?

주사위 조합의 총합에 대한 확률 분포를 계산하고 싶습니다. 나는 확률이 총 조합 수에 대해 그 수를 합한 조합의 수라는 것을 기억합니다 (주사위가 균일 한 분포를 갖는다 고 가정). 공식은 무엇입니까 총 조합 수 특정 수를 합한 조합 수

21 probability dice

2

배치 정규화는 이동 평균을 사용하여 훈련 할 때 모델의 정확도를 추적하는 방법과 이유는 무엇입니까?

배치 정규화 (BN) 용지를 읽고 있었으며 (1) 모형의 정확성을 추적하기 위해 이동 평균을 사용해야하는 필요성을 이해하지 못했으며, 그것이 옳은 일임을 인정하더라도 이해가되지 않습니다. 그들이 정확히하고있는 일. 내 이해 (내 잘못)를 위해, 논문은 모델이 훈련을 마치면 미니 배치 통계보다는 인구 통계를 사용한다고 언급합니다. 편견없는 추정치에 대한 논의를 마치면 (나에게 중요한 것처럼 …

21 machine-learning neural-networks deep-learning conv-neural-network batch-normalization

2

각 값을 벡터의 합으로 나눌 수 있지만 확률을 계산하기 위해 softmax 함수를 사용하는 이유는 무엇입니까?

벡터에 softmax 함수를 적용하면 "확률"과 000 과 111 사이의 값이 생성됩니다 . 그러나 각 값을 벡터의 합으로 나눌 수 있으며 이는 000 과 111 사이의 확률과 값을 생성 합니다. 여기 에 대한 답변을 읽었 지만 그 이유는 두 기능이 모두 다르지만 이유가 다르기 때문이라고 말합니다.

20 machine-learning neural-networks softmax