통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
단계적 회귀를 사용하여 발생하는 짖는 짐승
회귀 모형에서 단계적 / 앞으로 / 뒤로 선택의 문제점을 잘 알고 있습니다. 방법을 비난하고 더 나은 대안을 제시하는 연구자들이 많이 있습니다. 통계 분석에 존재하는 이야기가 있는지 궁금합니다. 단계적 회귀를 사용했습니다. 최종 모델을 기반으로 중요한 결론을 내 렸습니다. 결론이 잘못되어 개인, 연구 또는 조직에 부정적인 결과를 초래 함 단계적인 방법이 나쁘면 …

3
작업 환경에서 올바른 통계를 제공합니까?
이 질문이 어디에 있는지 확실하지 않습니다 : Cross Validated 또는 The Workplace. 그러나 내 질문은 모호하게 통계와 관련이 있습니다. "데이터 과학 인턴"으로 일하면서이 질문이 생겼습니다. 이 선형 회귀 모형을 작성하고 잔차 그림을 조사했습니다. 나는 이분산성의 명백한 표시를 보았다. 이분산성은 신뢰 구간 및 t- 검정과 같은 많은 검정 통계량을 왜곡한다는 것을 …
20 careers 

1
적응 형 MCMC를 신뢰할 수 있습니까?
적응 형 MCMC 에 대해 읽고 있습니다 (예 : Markov Chain Monte Carlo 핸드북 4 장 , Brooks et al., 2011 및 Andrieu & Thoms, 2008 참조 ). nnnp(n)p(n)p(n)limn→∞p(n)=0limn→∞p(n)=0\lim_{n \rightarrow \infty} p(n) = 0 이 결과는 직관적이며 무증상입니다. 적응의 양은 0이되는 경향이 있기 때문에 결국 에르고 디 시티를 망칠 수 …

2
F- 통계량이 F- 분포를 따른다는 증거
이 질문에 비추어 : OLS 모델의 계수가 (nk) 자유도의 t- 분포를 따르는 증거 왜 그런지 이해하고 싶습니다 에프= ( TSS − RSS ) / ( p − 1 )RSS / ( n − p ),F=(TSS−RSS)/(p−1)RSS/(n−p), F = \frac{(\text{TSS}-\text{RSS})/(p-1)}{\text{RSS}/(n-p)}, 여기서 는 모형 모수 의 개수 이고 은 관측치의 수이며 는 총 …

5
주사위가 4가 아닌 다른 숫자가 될 때까지 굴립니다. 결과가 4보다 클 확률은 얼마입니까?
플레이어는 공정한 6 면체 주사위를받습니다. 이기려면 4보다 큰 숫자 (예 : 5 또는 6)를 굴려야합니다. 그녀가 4를 굴리면 다시 굴려야합니다. 그녀가 이길 확률은 무엇입니까? 이길 확률은 다음과 같이 재귀 적으로 표현 될 수 있다고 생각합니다 .피( W)피(여)P(W) 피( W) = P( r = 5 ∪ r = 6 ) + …

6
3x3 상관 행렬 완성하기 : 주어진 3 개의 계수 2 개
나는 인터뷰에서이 질문을 받았다. [ 1 0.6 0.8 0.6 1 γ 0.8 γ 1 ] 형식의 상관 행렬이 있다고 가정하겠습니다 . ⎡⎣⎢10.60.80.61γ0.8γ1⎤⎦⎥[10.60.80.61γ0.8γ1]\begin{bmatrix}1&0.6&0.8\\0.6&1&\gamma\\0.8&\gamma&1\end{bmatrix} 이 상관 관계 매트릭스를 감안할 때 감마 값을 찾아야했습니다. 고유 값으로 모두 0 이상이어야하기 때문에 무언가를 할 수 있다고 생각했습니다 (매트릭스는 양의 반올림해야합니다). 트릭이 없습니다. 동일한 문제를 해결하기위한 …

5
다중 회귀 가정 : 정규 가정은 상수 분산 가정과 어떻게 다릅니 까?
다중 회귀 모델을 사용하기위한 조건이라는 것을 읽었습니다. 모형의 잔차는 거의 정상입니다. 잔차의 변동성은 거의 일정합니다 잔차는 독립적이며 각 변수는 결과와 선형으로 관련됩니다. 1과 2는 어떻게 다릅니 까? 여기서 하나를 볼 수 있습니다. 따라서 위의 그래프는 2 표준 편차 인 잔차가 Y-hat에서 10 떨어져 있다고합니다. 이는 잔차가 정규 분포를 따른다는 것을 …

1
웨이블릿 도메인 가우스 프로세스 : 공분산이란 무엇입니까?
나는 Maraun et al , "웨이블릿 도메인의 비정규 가우스 프로세스 : 합성, 추정 및 중요한 테스트"(2007)를 읽고 웨이블릿 도메인의 승수에 의해 지정 될 수있는 비 정지 GP 클래스를 정의합니다. 하나 개의 이러한 GP의 실현은 : 여기서백색 노이즈이고,연속 웨이블렛 웨이블릿에 대하여 변환이다,스케일과 승산기 (다소 푸리에 계수 등)이다및 시간및은 IS 재구성 웨이블릿역 …

1
기하학적 혼합에서 어떻게 시뮬레이션 할 수 있습니까?
만약 알고리즘 사용할 수있는, 즉 내가 시뮬레이션 할 수있는 밀도를, 알려져있다. 생성물 경우 적분되면,이 사용이 제품 밀도에서 시뮬레이션하는 일반적인 접근법이 존재 의 시뮬레이터 ?k ∏ i = 1 f i ( x ) α if1,…,fkf1,…,fkf_1,\ldots,f_k∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0fifif_i

3
코인 플립의 결과를 정확하게 추측 할 수있는 가능성을 최대화하려면 항상 가장 가능한 결과를 선택해야합니까?
이것은 숙제가 아닙니다. 이 간단한 통계 문제로 내 논리가 올바른지 이해하고 싶습니다. 머리를 뒤집을 확률이 이고 꼬리를 뒤집을 확률이 1 - P ( H ) 인 양면 동전이 있다고 가정하겠습니다 . 모든 플립에 독립적 인 확률이 있다고 가정 해 봅시다. 이제 동전이 다음 플립에서 머리인지 꼬리인지 예측할 수있는 가능성을 최대화하고 …


7
SPD (Symmetric Positive Definite) 행렬이 중요한 이유는 무엇입니까?
SPD (symmetric positive definite) 행렬의 정의를 알고 있지만 더 이해하고 싶습니다. 왜 그렇게 직관적으로 중요합니까? 여기 내가 아는 것입니다. 또 뭐요? 주어진 데이터에 대해 공분산 행렬은 SPD입니다. 공분산 행렬은 중요한 측정 항목 입니다. 직관적 인 설명 은이 게시물 을 참조하십시오 . 이차 형태 A가 SPD12엑스⊤A x - b⊤x + c12x⊤Ax−b⊤x+c\frac …

4
신경망에 대한 각도 데이터 인코딩
대상 데이터가 각도 벡터 (0 ~ 2 * pi) 인 신경망 (자세한 내용은 중요하지 않음)을 훈련하고 있습니다. 이 데이터를 인코딩하는 방법에 대한 조언을 찾고 있습니다. 현재 내가 시도하고있는 것은 (성공적으로 제한적입니다) : 1) 1-C 인코딩 : 설정 가능한 각도를 1000 정도의 이산 각도로 비운 다음 관련 인덱스에 1을 넣어 특정 …

3
왜 AUC = 1 분류기에서도 표본의 절반이 잘못 분류 되었습니까?
확률을 반환하는 분류기를 사용하고 있습니다. AUC를 계산하기 위해 pROC R 패키지를 사용하고 있습니다. 분류기의 출력 확률은 다음과 같습니다. probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probs클래스 '1'에있을 확률을 나타냅니다. 도시 된 바와 같이, 분류기는 모든 샘플을 클래스 '1'로 분류 하였다. 실제 레이블 벡터는 다음과 같습니다. truel=c(1, 1, …

4
학습과 추론의 차이점은 무엇입니까?
기계 학습 연구 논문은 종종 학습과 추론을 두 가지 별도의 작업으로 취급하지만 그 차이점이 무엇인지는 분명하지 않습니다. 에서 이 책의 예를 들어 그들은 작업의 두 종류의 베이지안 통계를 사용하지만, 그 구분에 대한 동기 부여를 제공하지 않습니다. 몇 가지 모호한 아이디어가 있을지 모르지만 탄탄한 정의와 내 아이디어의 반박 또는 확장을보고 싶습니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.