통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
AUC가 준 적절한 득점 규칙이라는 것은 무엇을 의미합니까?
적절한 점수 규칙은 '진정한'모델에 의해 극대화되는 규칙이며 시스템을 '헤지'하거나 게임을 할 수 없습니다 (점수를 향상시키기 위해 모델의 진정한 신념에 따라 다른 결과를 의도적으로보고 함). 브리 어 점수는 적절하고 정확성 (비율이 올바르게 분류 됨)이 부적절하며 종종 낙담합니다. 때로는 AUC가 준 정확한 스코어링 규칙이라고 불리는데, 이는 정확성으로 완벽하지는 않지만 적절한 규칙보다 덜 …

2
어떤 분포 형태가“피타고라스의 기대”를 산출합니까?
하자 와 Y ~ DIST ( θ YX∼Dist(θX)X∼Dist(θX)X \sim \text{Dist}(\theta_X) 동일 불특정 분포 형태에서하지만 상이한 파라미터 값에 대한 허용 생성 독립적 연속 확률 변수 일. 허용 가능한 모든 모수 값에 대해 다음 샘플링 확률이 유지되는 모수 분포 양식을 찾는 데 관심이 있습니다.Y∼Dist(θY)Y∼Dist(θY)Y \sim \text{Dist}(\theta_Y) P(X>Y|θX,θY)=θ2Xθ2X+θ2Y.P(X>Y|θX,θY)=θX2θX2+θY2.\mathbb{P}(X > Y| \theta_X, \theta_Y) = …

4
베이지안 통계는 이전의 부재를 어떻게 처리합니까?
이 질문은 제가 최근에 이력서 에서 두 개, 경제 에서 다른 두 가지 상호 작용에서 영감을 얻었습니다 . 나는 대답이 게시 한 잘 알려진 "봉투 역설"(당신을 마음을하지로를 "정답"하지만 상황의 구조에 대해 특정 가정에서 흐르는 답변으로). 얼마 후 사용자가 비판적인 의견을 게시하고 그의 요점을 이해하려고 대화에 참여했습니다. 그가 베이지안 방법을 생각이 …


6
정규 분포를 어떻게 알 수 있습니까?
정규 분포의 첫 번째 유도가 무엇을 할 수 있습니다 그 유도를 재현 하고 또한 역사적 맥락에서 그것을 설명 ? 만약 인류가 정규 분포를 잊어 버렸다면, 그것을 재발견 할 가능성이 가장 높은 방법은 무엇입니까? 나는 이항과 같은 기본적인 이산 확률 분포를 계산하는 빠른 방법을 찾으려고 노력하면서 첫 번째 파생물이 부산물로 왔을 …


2
감마 랜덤 변수의 로그 왜곡
고려 감마 확률 변수 . 평균, 분산 및 왜곡에 대한 깔끔한 수식이 있습니다.X∼Γ(α,θ)X∼Γ(α,θ)X\sim\Gamma(\alpha, \theta) E[X]Var[X]Skewness[X]=αθ=αθ2=1/α⋅E[X]2=2/α−−√E[X]=αθVar⁡[X]=αθ2=1/α⋅E[X]2Skewness⁡[X]=2/α\begin{align} \mathbb E[X]&=\alpha\theta\\ \operatorname{Var}[X]&=\alpha\theta^2=1/\alpha\cdot\mathbb E[X]^2\\ \operatorname{Skewness}[X]&=2/\sqrt{\alpha} \end{align} 이제 로그 변환 된 랜덤 변수 . Wikipedia는 평균과 분산에 대한 공식을 제공합니다.Y=log(X)Y=log⁡(X)Y=\log(X) E[Y]Var[Y]=ψ(α)+log(θ)=ψ1(α)E[Y]=ψ(α)+log⁡(θ)Var⁡[Y]=ψ1(α)\begin{align} \mathbb E[Y]&=\psi(\alpha)+\log(\theta)\\ \operatorname{Var}[Y]&=\psi_1(\alpha)\\ \end{align} 감마 함수의 로그의 1 차 및 2 차 미분으로 정의되는 디 …

1
R에서 혼합 모형 공식의 랜덤 효과에 대한 (1 | id)와 같은 Wilkinson 스타일 표기법의 원점
R의 모형 공식 ( 예 : y ~ x + a*b + c:d 소위 기반으로 윌킨슨 표기 : 윌킨슨과 로저스 1973, 분산 분석을위한 요인 모델의 기호 설명 . 이 백서는 혼합 모델에 대한 표기법에 대해서는 다루지 않았습니다 (이전에는 존재하지 않았을 수도 있음). 그래서 lme4R 에서 혼합 된 모델 공식 과 …

1
Kaggle의 개인 리더 보드는 우승 모델의 샘플 외부 성능을 예측하는 좋은 방법입니까?
개인 테스트 세트의 결과를 사용하여 모델을 더 세분화 할 수는 없지만 개인 테스트 세트 결과를 기반으로 수행되는 수많은 모델 중에서 모델을 선택하지 않습니까? 그 과정만으로도 개인 테스트 세트에 과도하게 적합하지 않습니까? "의사 수학 및 금융 자선주의 : 백 테스트 과적 합이 표본 외 성능에 미치는 영향" 에 따르면 Bailey et.al. …


4
“as”는 무엇을 의미합니까?
나는 기사를 읽고 있었고 다음 문장을 보았다 : 주어진 martingale에 대해 상한 또는 하한이 있으면 martingale은 수렴해야합니다. 가능성은 항상 음이 아니므로 0은 하한입니다. "as"는 무엇을 의미합니까? 일반적인 사용법입니까? 내 추측은 "무증상"이지만 확인하고 싶습니다.

3
회귀 분석에서 귀무 모델은 무엇이며 귀무 가설과 어떤 관련이 있습니까?
회귀 분석에서 귀무 모델은 무엇이며 귀무 모델과 귀무 가설 사이의 관계는 무엇입니까? 내 이해를 위해, 그것은 의미 하는가 연속 반응 변수를 예측하기 위해 "응답 변수의 평균"을 사용 하는가? 이산 반응 변수를 예측할 때 "라벨 분포"를 사용하십니까? 이 경우 귀무 가설간에 연결이 누락 된 것 같습니다.

5
앙상블 방법은 모든 구성 요소를 어떻게 능가합니까?
나는 앙상블 학습에 대해 약간 혼란스러워합니다. 간단히 말해서, k 모델을 실행하고 이러한 k 모델의 평균을 얻습니다. k 모델의 평균이 다른 모델보다 우수하다는 것을 어떻게 보장 할 수 있습니까? 편견이 "확산"또는 "평균화"되었음을 이해합니다. 그러나 앙상블에 두 개의 모델 (예 : k = 2)이 있고 그 중 하나가 다른 것보다 나쁘면 앙상블이 …

1
불연속 균일 분포로 교체하지 않고 채취 한 시료 간 최대 간격
이 문제는 실험실에서 로봇 적용 범위에 대한 연구와 관련이 있습니다. 교체없이 { 1 , 2 , … , m } 집합에서 nnn 숫자를 임의로 그리고 오름차순으로 정렬합니다. 1 ≤ n ≤ m .{1,2,…,m}{1,2,…,m}\{1,2,\ldots,m\}1≤n≤m1≤n≤m1\le n\le m 숫자 소트 목록에서 {a(1),a(2),…,a(n)}{a(1),a(2),…,a(n)}\{a_{(1)},a_{(2)},…,a_{(n)}\} : 연속 번호와 경계 사이의 차이를 생성 g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g={a(1),a(2)−a(1),…,a(n)−a(n−1),m+1−a(n)}g = \{a_{(1)},a_{(2)}−a_{(1)},\ldots,a_{(n)}−a_{(n-1)},m+1-a_{(n)}\} . …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.