통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
그래픽 모델에서 그래프 이론은 어디에 있습니까?
그래픽 모델에 대한 소개는 그것들을 "... 그래프 이론과 확률 이론의 결혼"으로 묘사합니다. 확률 이론 부분을 얻었지만 정확한 그래프 이론이 어디에 적합한 지 이해하는 데 어려움이 있습니다. 그래프 이론의 통찰력은 불확실성에서 확률 분포와 의사 결정에 대한 이해를 심화시키는 데 도움이 되었습니까? PGM을 "트리"또는 "이중"또는 "비 지향"으로 분류하는 등 PGM에서 그래프 이론 …

1
OLS 모델의 계수가 (nk) 자유도의 t- 분포를 따르는 지 증명
배경 회귀 모형에 계수 가있는 정규 최소 제곱 모형이 있다고 가정합니다 . kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} 여기서 이다 계수들의 벡터는, 은 IS 설계 행렬 에 의해 정의 된ββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots …

5
부트 스트랩 간격에 끔찍한 적용 범위가있는 이유는 무엇입니까?
나는 t-interval을 부트 스트랩 간격과 비교하고 두 범위의 적용 확률을 계산하는 클래스 데모를 원했습니다. 데이터가 기울어 진 분포에서 나오기를 원했기 때문에 exp(rnorm(10, 0, 2)) + 1시프트 된 로그 노멀에서 크기가 10 인 표본으로 데이터를 생성하기로 결정했습니다 . 나는 1000 개의 표본을 추출하는 스크립트를 작성했으며, 각 표본에 대해 1000 개의 반복 …

3
부트 스트랩 배포의 평균을보고하지 않는 이유는 무엇입니까?
표준 오류를 얻기 위해 매개 변수를 부트 스트랩하면 매개 변수의 분포를 얻습니다. 왜 우리는 그 분포의 평균을 우리가 얻으려는 모수에 대한 결과 또는 추정치로 사용하지 않습니까? 분포가 실제 분포와 비슷하지 않아야합니까? 그러므로 우리는 "실제"가치의 좋은 추정치를 얻을 수 있을까요? 그러나 샘플에서 얻은 원래 매개 변수를보고합니다. 왜 그런가요? 감사

2
감마 대 로그 정규 분포
실험적으로 관찰 된 분포가 감마 또는 대수 정규 분포와 매우 유사 해 보입니다. 로그 정규 분포 는 의 평균과 분산 이 고정 되는 임의의 변형 대한 최대 엔트로피 확률 분포 라는 것을 읽었습니다 . 감마 분포에 비슷한 특성이 있습니까?엑스엑스Xln( X)ln⁡(엑스)\ln(X)

2
부트 스트랩은 추정기의 샘플링 분포에 얼마나 근접합니까?
최근에 부트 스트랩을 연구 한 결과, 여전히 퍼즐 문제가 있습니다. 모집단이 있고 모집단 속성 (예 : 을 알고 싶습니다 . 여기서 를 사용 하여 모집단을 나타냅니다. 이 는 예를 들어 인구 평균 일 수 있습니다. 일반적으로 모집단에서 모든 데이터를 얻을 수는 없습니다. 따라서 크기가 표본 를 그립니다.P θ Xθ=g(P)θ=g(P)\theta=g(P)PPPθθ\thetaXXXNNN모집단에서 N …

2
신뢰 구간에 속하지 않은 가설과 동일한 p- 값을 사용하여 가설을 기각합니까?
공식적으로 추정치의 신뢰 구간을 도출하면서 ppp 값이 계산 되는 방식과 매우 유사한 공식으로 끝났습니다 . 따라서 질문은 공식적으로 동등합니까? 즉,이 가설은 거부된다 H0=0H0=0H_0 = 0 임계 값 αα\alpha 에 해당 000 임계 값과의 신뢰 구간에 속하지 않는 αα\alpha ?

3
쌍별 t- 검정이없는 경우 분산 분석이 유의할 수 있습니까?
쌍별 t- 검정이 없는 경우 일원 ( 그룹 또는 "수준") 분산 분석에서 유의미한 차이를보고 할 수 있습니까?N ( N - 1 ) / 2N>2N>2N>2N(N−1)/2N(N−1)/2N(N-1)/2 에서 이 응답 @whuber 썼다 : 글로벌 ANOVA F 검정은 어떤 쌍의 수단에 대한 개별적인 [조정되지 않은 쌍별] t- 검정이 유의미한 결과를 산출하지 않는 경우에도 평균의 …

10
평균 대 도박꾼의 잘못에 대한 회귀
한편으로는 평균에 대한 회귀가 있고 다른 한편으로는 도박꾼의 오류가 있습니다. 도박꾼의 오류는 Miller와 Sanjurjo (2019)에 의해 "임의의 시퀀스가 ​​반전에 대한 체계적인 경향을 가지고 있다는 잘못된 생각, 즉 유사한 결과의 줄무늬가 계속되는 것보다 더 끝날 가능성이 높다"는 것으로 정의됩니다. 다음 시험에서는 연속으로 시간이 불균형 적으로 떨어질 것으로 생각됩니다. 나는 마지막 경기에서 …

1
메틸화 데이터에 대한 glmnet을 사용한 피처 선택 및 모델 (p >> N)
GLM과 Elastic Net을 사용하여 관련 기능을 선택하고 선형 회귀 모델을 작성하고 싶습니다 (예 : 예측과 이해 모두 상대적으로 적은 매개 변수로 남겨 두는 것이 좋습니다). 출력은 연속적입니다. 그것은이다 당 유전자 의 경우. 패키지 에 대해 읽었 지만 다음 단계에 대해 100 % 확신하지 못합니다.200002000020000505050glmnet CV를 수행 하여 입력 데이터가 주어지면 …

3
SVM과 퍼셉트론의 차이점
SVM과 퍼셉트론의 차이점과 약간 혼동됩니다. 여기에 나의 이해를 요약하려고 노력하고, 내가 잘못한 부분을 수정하고 내가 놓친 것을 채우십시오. 퍼셉트론은 분리 "거리"를 최적화하려고 시도하지 않습니다. 두 세트를 분리하는 초평면을 찾으면 좋습니다. 반면에 SVM은 "지원 벡터", 즉 가장 가까운 두 개의 샘플 지점 사이의 거리를 최대화하려고합니다. SVM은 일반적으로 "커널 기능"을 사용하여 샘플 …

1
로지스틱 회귀 분석에서 적합치에 대한 표준 오차는 어떻게 계산됩니까?
로지스틱 회귀 모형에서 적합치를 예측할 때 표준 오차는 어떻게 계산됩니까? I는 평균에 대한 피팅 값 (피셔 정보 행렬을 포함하는)이 아닌 계수들에 대한. 난 단지와 번호를 얻는 방법을 발견 R(예를 여기에 , 또는 R-도움에 여기 스택 오버플로),하지만 난 공식을 찾을 수 없습니다. pred <- predict(y.glm, newdata= something, se.fit=TRUE) 온라인 소스를 제공 …

3
Fisher 정보는 어떤 종류의 정보입니까?
랜덤 변수 X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta) 가 있다고 가정 해 봅시다 . 경우 θ0θ0\theta_0 실제 파라미터 있었다 상기 우도 함수를 최대화 제로 유도체 같아야한다. 이것이 최대 가능성 추정기의 기본 원리입니다. 내가 알기로 Fisher 정보는 다음과 같이 정의됩니다. I(θ)=E[(∂∂θf(X|θ))2]I(θ)=E[(∂∂θf(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] 따라서 θ0θ0\theta_0 이 참 매개 변수이면 I(θ)=0I(θ)=0I(\theta) …


4
ROC 곡선 아래 면적 대 전체 정확도
ROC의 AUC (Area Under Curve)와 전체 정확도에 대해 약간 혼란 스럽습니다. AUC가 전체 정확도에 비례합니까? 다시 말해, 전체 정확도가 클 때 AUC가 커질까요? 또는 정의상 양의 상관 관계가 있습니까? 그것들이 양의 상관 관계에있는 경우, 왜 우리는 일부 출판물에서 두 가지를 모두보고해야 하는가? 실제로 분류 작업을 수행 한 결과는 다음과 같습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.