통계 및 빅 데이터

1

적절한 점수 규칙은 '진정한'모델에 의해 극대화되는 규칙이며 시스템을 '헤지'하거나 게임을 할 수 없습니다 (점수를 향상시키기 위해 모델의 진정한 신념에 따라 다른 결과를 의도적으로보고 함). 브리 어 점수는 적절하고 정확성 (비율이 올바르게 분류 됨)이 부적절하며 종종 낙담합니다. 때로는 AUC가 준 정확한 스코어링 규칙이라고 불리는데, 이는 정확성으로 완벽하지는 않지만 적절한 규칙보다 덜 …

16 classification references roc measurement-error scoring-rules

2

어떤 분포 형태가“피타고라스의 기대”를 산출합니까?

하자 와 Y ~ DIST ( θ YX∼Dist(θX)X∼Dist(θX)X \sim \text{Dist}(\theta_X) 동일 불특정 분포 형태에서하지만 상이한 파라미터 값에 대한 허용 생성 독립적 연속 확률 변수 일. 허용 가능한 모든 모수 값에 대해 다음 샘플링 확률이 유지되는 모수 분포 양식을 찾는 데 관심이 있습니다.Y∼Dist(θY)Y∼Dist(θY)Y \sim \text{Dist}(\theta_Y) P(X>Y|θX,θY)=θ2Xθ2X+θ2Y.P(X>Y|θX,θY)=θX2θX2+θY2.\mathbb{P}(X > Y| \theta_X, \theta_Y) = …

16 probability distributions

4

베이지안 통계는 이전의 부재를 어떻게 처리합니까?

이 질문은 제가 최근에 이력서 에서 두 개, 경제 에서 다른 두 가지 상호 작용에서 영감을 얻었습니다 . 나는 대답이 게시 한 잘 알려진 "봉투 역설"(당신을 마음을하지로를 "정답"하지만 상황의 구조에 대해 특정 가정에서 흐르는 답변으로). 얼마 후 사용자가 비판적인 의견을 게시하고 그의 요점을 이해하려고 대화에 참여했습니다. 그가 베이지안 방법을 생각이 …

16 bayesian mathematical-statistics prior theory philosophical

4

3 개의 벡터가 모두 음의 쌍별 상관 관계를 가질 수 있습니까?

세 개의 벡터 , b 및 c 가 주어지면 a 와 b , a , c , b 와 c 사이 의 상관 관계 가 모두 음수 일 수 있습니까? 즉, 이것이 가능합니까?aaabbbcccaaabbbaaacccbbbccc corr(a,b)<0corr(a,c)<0corr(b,c)<0corr(a,b)<0corr(a,c)<0corr(b,c)<0\begin{align} \text{corr}(a,b) < 0\\ \text{corr}(a,c) < 0 \\ \text{corr}(b,c) < 0\\ \end{align}

16 correlation correlation-matrix

6

정규 분포를 어떻게 알 수 있습니까?

정규 분포의 첫 번째 유도가 무엇을 할 수 있습니다 그 유도를 재현 하고 또한 역사적 맥락에서 그것을 설명 ? 만약 인류가 정규 분포를 잊어 버렸다면, 그것을 재발견 할 가능성이 가장 높은 방법은 무엇입니까? 나는 이항과 같은 기본적인 이산 확률 분포를 계산하는 빠른 방법을 찾으려고 노력하면서 첫 번째 파생물이 부산물로 왔을 …

16 probability distributions normal-distribution references history

1

Akaike 정보 기준이 기계 학습에 더 많이 사용되지 않는 이유는 무엇입니까?

방금 "Akaike information criterion"에 부딪 쳤고 모델 선택에 관한 많은 양의 문헌을 보았습니다 (BIC와 같은 것들도 존재 함). 현대 기계 학습 방법이 이러한 BIC 및 AIC 모델 선택 기준을 활용하지 않는 이유는 무엇입니까?

16 machine-learning model-selection aic bic

2

감마 랜덤 변수의 로그 왜곡

고려 감마 확률 변수 . 평균, 분산 및 왜곡에 대한 깔끔한 수식이 있습니다.X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} 이제 로그 변환 된 랜덤 변수 . Wikipedia는 평균과 분산에 대한 공식을 제공합니다.Y=log(X)Y=log⁡(X)Y=\log(X) E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} 감마 함수의 로그의 1 차 및 2 차 미분으로 정의되는 디 …

16 gamma-distribution skewness logarithm

1

R에서 혼합 모형 공식의 랜덤 효과에 대한 (1 | id)와 같은 Wilkinson 스타일 표기법의 원점

R의 모형 공식 ( 예 : y ~ x + a*b + c:d 소위 기반으로 윌킨슨 표기 : 윌킨슨과 로저스 1973, 분산 분석을위한 요인 모델의 기호 설명 . 이 백서는 혼합 모델에 대한 표기법에 대해서는 다루지 않았습니다 (이전에는 존재하지 않았을 수도 있음). 그래서 lme4R 에서 혼합 된 모델 공식 과 …

16 r mixed-model lme4-nlme notation history

1

Kaggle의 개인 리더 보드는 우승 모델의 샘플 외부 성능을 예측하는 좋은 방법입니까?

개인 테스트 세트의 결과를 사용하여 모델을 더 세분화 할 수는 없지만 개인 테스트 세트 결과를 기반으로 수행되는 수많은 모델 중에서 모델을 선택하지 않습니까? 그 과정만으로도 개인 테스트 세트에 과도하게 적합하지 않습니까? "의사 수학 및 금융 자선주의 : 백 테스트 과적 합이 표본 외 성능에 미치는 영향" 에 따르면 Bailey et.al. …

16 model-selection overfitting out-of-sample

4

좋은 로그 손실로 간주되는 것은 무엇입니까?

로그 손실과 작동 방식을 더 잘 이해하려고하지만 찾을 수없는 것 중 하나는 로그 손실 번호를 일종의 컨텍스트에 넣는 것입니다. 내 모델의 로그 손실이 0.5이면 좋습니까? 좋은 점수와 나쁜 점수는 무엇입니까? 이러한 임계 값은 어떻게 변경됩니까?

16 machine-learning loss-functions log-loss

4

“as”는 무엇을 의미합니까?

나는 기사를 읽고 있었고 다음 문장을 보았다 : 주어진 martingale에 대해 상한 또는 하한이 있으면 martingale은 수렴해야합니다. 가능성은 항상 음이 아니므로 0은 하한입니다. "as"는 무엇을 의미합니까? 일반적인 사용법입니까? 내 추측은 "무증상"이지만 확인하고 싶습니다.

16 abbreviation

3

회귀 분석에서 귀무 모델은 무엇이며 귀무 가설과 어떤 관련이 있습니까?

회귀 분석에서 귀무 모델은 무엇이며 귀무 모델과 귀무 가설 사이의 관계는 무엇입니까? 내 이해를 위해, 그것은 의미 하는가 연속 반응 변수를 예측하기 위해 "응답 변수의 평균"을 사용 하는가? 이산 반응 변수를 예측할 때 "라벨 분포"를 사용하십니까? 이 경우 귀무 가설간에 연결이 누락 된 것 같습니다.

16 regression hypothesis-testing classification terminology model

5

앙상블 방법은 모든 구성 요소를 어떻게 능가합니까?

나는 앙상블 학습에 대해 약간 혼란스러워합니다. 간단히 말해서, k 모델을 실행하고 이러한 k 모델의 평균을 얻습니다. k 모델의 평균이 다른 모델보다 우수하다는 것을 어떻게 보장 할 수 있습니까? 편견이 "확산"또는 "평균화"되었음을 이해합니다. 그러나 앙상블에 두 개의 모델 (예 : k = 2)이 있고 그 중 하나가 다른 것보다 나쁘면 앙상블이 …

16 machine-learning ensemble

1

불연속 균일 분포로 교체하지 않고 채취 한 시료 간 최대 간격

이 문제는 실험실에서 로봇 적용 범위에 대한 연구와 관련이 있습니다. 교체없이 { 1 , 2 , … , m } 집합에서 nnn 숫자를 임의로 그리고 오름차순으로 정렬합니다. 1 ≤ n ≤ m .{1,2,…,m}{1,2,…,m}\{1,2,\ldots,m\}1≤n≤m1≤n≤m1\le n\le m 숫자 소트 목록에서 {a(1),a(2),…,a(n)}{a(1),a(2),…,a(n)}\{a_{(1)},a_{(2)},…,a_{(n)}\} : 연속 번호와 경계 사이의 차이를 생성 g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\} . …

16 probability mathematical-statistics uniform combinatorics order-statistics

4

두 표준 정규 랜덤 변수는 항상 독립적입니까?

평균과 분산이 각각 0과 1로 고정되어 있기 때문에 표준 정규 분포가 고유하다는 것을 알았습니다. 이 사실로, 두 표준 랜덤 변수가 독립적이어야하는지 궁금합니다.

16 normal-distribution independence