통계 및 빅 데이터

1

회귀 모형에서 단계적 / 앞으로 / 뒤로 선택의 문제점을 잘 알고 있습니다. 방법을 비난하고 더 나은 대안을 제시하는 연구자들이 많이 있습니다. 통계 분석에 존재하는 이야기가 있는지 궁금합니다. 단계적 회귀를 사용했습니다. 최종 모델을 기반으로 중요한 결론을 내 렸습니다. 결론이 잘못되어 개인, 연구 또는 조직에 부정적인 결과를 초래 함 단계적인 방법이 나쁘면 …

20 regression stepwise-regression history

3

작업 환경에서 올바른 통계를 제공합니까?

이 질문이 어디에 있는지 확실하지 않습니다 : Cross Validated 또는 The Workplace. 그러나 내 질문은 모호하게 통계와 관련이 있습니다. "데이터 과학 인턴"으로 일하면서이 질문이 생겼습니다. 이 선형 회귀 모형을 작성하고 잔차 그림을 조사했습니다. 나는 이분산성의 명백한 표시를 보았다. 이분산성은 신뢰 구간 및 t- 검정과 같은 많은 검정 통계량을 왜곡한다는 것을 …

20 careers

1

적응 형 MCMC를 신뢰할 수 있습니까?

적응 형 MCMC 에 대해 읽고 있습니다 (예 : Markov Chain Monte Carlo 핸드북 4 장 , Brooks et al., 2011 및 Andrieu & Thoms, 2008 참조 ). nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 이 결과는 직관적이며 무증상입니다. 적응의 양은 0이되는 경향이 있기 때문에 결국 에르고 디 시티를 망칠 수 …

20 simulation mcmc random-generation metropolis-hastings

2

F- 통계량이 F- 분포를 따른다는 증거

이 질문에 비추어 : OLS 모델의 계수가 (nk) 자유도의 t- 분포를 따르는 증거 왜 그런지 이해하고 싶습니다 에프= ( TSS − RSS ) / ( p − 1 )RSS / ( n − p ),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, 여기서 는 모형 모수 의 개수 이고 은 관측치의 수이며 는 총 …

20 regression hypothesis-testing least-squares f-distribution f-statistic

5

주사위가 4가 아닌 다른 숫자가 될 때까지 굴립니다. 결과가 4보다 클 확률은 얼마입니까?

플레이어는 공정한 6 면체 주사위를받습니다. 이기려면 4보다 큰 숫자 (예 : 5 또는 6)를 굴려야합니다. 그녀가 4를 굴리면 다시 굴려야합니다. 그녀가 이길 확률은 무엇입니까? 이길 확률은 다음과 같이 재귀 적으로 표현 될 수 있다고 생각합니다 .피( W)피(여)P(W) 피( W) = P( r = 5 ∪ r = 6 ) + …

20 probability

6

3x3 상관 행렬 완성하기 : 주어진 3 개의 계수 2 개

나는 인터뷰에서이 질문을 받았다. [ 1 0.6 0.8 0.6 1 γ 0.8 γ 1 ] 형식의 상관 행렬이 있다고 가정하겠습니다 . ⎡⎣⎢10.60.80.61γ0.8γ1⎤⎦⎥[10.60.80.61γ0.8γ1]\begin{bmatrix}1&0.6&0.8\\0.6&1&\gamma\\0.8&\gamma&1\end{bmatrix} 이 상관 관계 매트릭스를 감안할 때 감마 값을 찾아야했습니다. 고유 값으로 모두 0 이상이어야하기 때문에 무언가를 할 수 있다고 생각했습니다 (매트릭스는 양의 반올림해야합니다). 트릭이 없습니다. 동일한 문제를 해결하기위한 …

20 pearson-r correlation-matrix

5

다중 회귀 가정 : 정규 가정은 상수 분산 가정과 어떻게 다릅니 까?

다중 회귀 모델을 사용하기위한 조건이라는 것을 읽었습니다. 모형의 잔차는 거의 정상입니다. 잔차의 변동성은 거의 일정합니다 잔차는 독립적이며 각 변수는 결과와 선형으로 관련됩니다. 1과 2는 어떻게 다릅니 까? 여기서 하나를 볼 수 있습니다. 따라서 위의 그래프는 2 표준 편차 인 잔차가 Y-hat에서 10 떨어져 있다고합니다. 이는 잔차가 정규 분포를 따른다는 것을 …

20 regression multiple-regression assumptions

1

웨이블릿 도메인 가우스 프로세스 : 공분산이란 무엇입니까?

나는 Maraun et al , "웨이블릿 도메인의 비정규 가우스 프로세스 : 합성, 추정 및 중요한 테스트"(2007)를 읽고 웨이블릿 도메인의 승수에 의해 지정 될 수있는 비 정지 GP 클래스를 정의합니다. 하나 개의 이러한 GP의 실현은 : 여기서백색 노이즈이고,연속 웨이블렛 웨이블릿에 대하여 변환이다,스케일과 승산기 (다소 푸리에 계수 등)이다및 시간및은 IS 재구성 웨이블릿역 …

20 normal-distribution stochastic-processes gaussian-process fourier-transform wavelet

1

기하학적 혼합에서 어떻게 시뮬레이션 할 수 있습니까?

만약 알고리즘 사용할 수있는, 즉 내가 시뮬레이션 할 수있는 밀도를, 알려져있다. 생성물 경우 적분되면,이 사용이 제품 밀도에서 시뮬레이션하는 일반적인 접근법이 존재 의 시뮬레이터 ?k ∏ i = 1 f i ( x ) α if1,…,fkf1,…,fkf_1,\ldots,f_k∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0fifif_i

20 simulation monte-carlo geometric-mean scalability finite-mixture-model

3

코인 플립의 결과를 정확하게 추측 할 수있는 가능성을 최대화하려면 항상 가장 가능한 결과를 선택해야합니까?

이것은 숙제가 아닙니다. 이 간단한 통계 문제로 내 논리가 올바른지 이해하고 싶습니다. 머리를 뒤집을 확률이 이고 꼬리를 뒤집을 확률이 1 - P ( H ) 인 양면 동전이 있다고 가정하겠습니다 . 모든 플립에 독립적 인 확률이 있다고 가정 해 봅시다. 이제 동전이 다음 플립에서 머리인지 꼬리인지 예측할 수있는 가능성을 최대화하고 …

20 probability

1

"스펙트럼 분해"를 통한 릿지 회귀를 사용한 수축 계수 증명

릿지 회귀가 어떻게 계수를 기하학적으로 0으로 축소하는지 이해했습니다. 또한 특수한 "정상적인 경우"에서이를 증명하는 방법을 알고 있지만 "스펙트럼 분해"를 통해 일반적인 경우에 어떻게 작동하는지 혼동됩니다.

20 regression multiple-regression regularization ridge-regression svd

7

SPD (Symmetric Positive Definite) 행렬이 중요한 이유는 무엇입니까?

SPD (symmetric positive definite) 행렬의 정의를 알고 있지만 더 이해하고 싶습니다. 왜 그렇게 직관적으로 중요합니까? 여기 내가 아는 것입니다. 또 뭐요? 주어진 데이터에 대해 공분산 행렬은 SPD입니다. 공분산 행렬은 중요한 측정 항목 입니다. 직관적 인 설명 은이 게시물 을 참조하십시오 . 이차 형태 A가 SPD12엑스⊤A x - b⊤x + c12x⊤Ax−b⊤x+c\frac …

20 mathematical-statistics optimization covariance-matrix intuition linear-algebra

4

신경망에 대한 각도 데이터 인코딩

대상 데이터가 각도 벡터 (0 ~ 2 * pi) 인 신경망 (자세한 내용은 중요하지 않음)을 훈련하고 있습니다. 이 데이터를 인코딩하는 방법에 대한 조언을 찾고 있습니다. 현재 내가 시도하고있는 것은 (성공적으로 제한적입니다) : 1) 1-C 인코딩 : 설정 가능한 각도를 1000 정도의 이산 각도로 비운 다음 관련 인덱스에 1을 넣어 특정 …

20 neural-networks circular-statistics

3

왜 AUC = 1 분류기에서도 표본의 절반이 잘못 분류 되었습니까?

확률을 반환하는 분류기를 사용하고 있습니다. AUC를 계산하기 위해 pROC R 패키지를 사용하고 있습니다. 분류기의 출력 확률은 다음과 같습니다. probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probs클래스 '1'에있을 확률을 나타냅니다. 도시 된 바와 같이, 분류기는 모든 샘플을 클래스 '1'로 분류 하였다. 실제 레이블 벡터는 다음과 같습니다. truel=c(1, 1, …

20 machine-learning auc

4

학습과 추론의 차이점은 무엇입니까?

기계 학습 연구 논문은 종종 학습과 추론을 두 가지 별도의 작업으로 취급하지만 그 차이점이 무엇인지는 분명하지 않습니다. 에서 이 책의 예를 들어 그들은 작업의 두 종류의 베이지안 통계를 사용하지만, 그 구분에 대한 동기 부여를 제공하지 않습니다. 몇 가지 모호한 아이디어가 있을지 모르지만 탄탄한 정의와 내 아이디어의 반박 또는 확장을보고 싶습니다. …

20 machine-learning terminology