통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


1
가정이 충족되지 않을 때 회귀 모형이 얼마나 잘못 되었습니까?
회귀 모델을 피팅 할 때 출력의 가정이 충족되지 않으면 어떻게됩니까? 잔차가 동형이 아닌 경우 어떻게됩니까? 잔차가 잔차 대 적합 그림에서 증가하거나 감소하는 패턴을 나타내는 경우 잔차가 정규 분포를 따르지 않고 Shapiro-Wilk 테스트에 실패하면 어떻게됩니까? 정규성 Shapiro-Wilk 검정은 매우 엄격한 검정이며, 경우에 따라 정상 -QQ 플롯이 다소 합리적으로 보일지라도 데이터가 검정에 …

4
많은 p- 값의 균일 한 분포는 HO가 참이라는 통계적 증거를 제공합니까?
단일 통계 검정은 귀무 가설 (H0)이 거짓이므로 대립 가설 (H1)이 참이라는 증거를 제공 할 수 있습니다. 그러나 H0을 기각하지 못한다고해서 H0이 참이라는 의미는 아니기 때문에 H0이 참임을 나타내는 데 사용할 수 없습니다. 그러나 서로 독립적 인 많은 데이터 집합이 있기 때문에 통계 테스트를 여러 번 수행 할 수 있다고 가정 …

2
통계의 화이트 노이즈
다른 통계 모델을 읽을 때 종종 백색 잡음이라는 용어가 나타납니다. 그러나 이것이 무엇을 의미하는지 완전히 확신하지 못한다는 것을 인정해야합니다. 일반적으로 로 축약됩니다 . 그것은 그것이 정상적으로 배포되었거나 배포를 따를 수 있다는 것을 의미합니까?여엔( 0 , σ2)WN(0,σ2)WN(0,σ^2)

3
매니 폴드 란 무엇입니까?
Principal Component Analysis, LDA 등과 같은 차원 축소 기법에서는 종종 매니 폴드라는 용어가 사용됩니다. 비 기술 용어의 매니 폴드 란 무엇입니까? 점 x엑스x 가 치수를 줄이려는 구에 속하고 잡음 y와이y 와 와 가 서로 관련 이 없으면 잡음으로 인해 실제 점 가 서로 멀리 떨어져 있습니다. 따라서 노이즈 필터링이 필요합니다. …

1
R의 초 / 분 간격 데이터에 대한 "주파수"값
예측을 위해 R (3.1.1) 및 ARIMA 모델을 사용하고 있습니다. 다음과 같은 시계열 데이터를 사용하는 경우 함수에 할당 된 "frequency"매개 변수ts() 가 무엇인지 알고 싶습니다 . 분 단위로 구분되며 180 일에 걸쳐 분산 됨 (1440 분 / 일) 초 단위로 구분되며 180 일 (86,400 초 / 일)에 걸쳐 분산됩니다. 정의를 올바르게 …

3
Brain-teaser : 균일 한 [0,1] 분포에서 도출 될 때 단조롭게 증가하는 iid 서열의 예상 길이는 얼마입니까?
여기 에보고 된 정량적 분석가의 인터뷰 질문입니다 . 균일 한 분포 에서 그림을 그리고 그림이 iid 라고 가정 합니다. 단조 증가 분포의 예상 길이는 얼마입니까? 즉, 현재 그리기가 이전 그리기보다 작거나 같으면 그리기를 중지합니다.[0,1][0,1][0,1] 처음 몇 개를 얻었습니다 : \ Pr (\ text {length} = 2) = \ int_0 ^ …

2
계층화 된 교차 검증을 사용하는 이유는 무엇입니까? 이것이 왜 분산 관련 혜택을 손상시키지 않습니까?
응답 클래스의 균형이 맞지 않을 때 특히 계층화 된 교차 유효성 검사를 사용하는 것이 좋습니다. 교차 검증의 한 가지 목적이 원래의 훈련 데이터 샘플의 무작위성을 설명하는 데 도움이되는 경우, 원래 훈련 세트에 대표 클래스 분포가 있는지 확실하지 않은 한 각 배에 동일한 클래스 분포를 갖는 것은 이것에 대해 작동하는 것입니다. …


2
단계적 선택을 수행 한 후 p- 값이 잘못된 이유는 무엇입니까?
예를 들어 선형 회귀 모델을 생각해 봅시다. 데이터 마이닝에서 AIC 기준을 기반으로 단계별 선택을 수행 한 후 각 실제 회귀 계수가 0이라는 귀무 가설을 테스트하기 위해 p- 값을 보는 것이 잘못되었다고 들었습니다. 모델에 남아있는 모든 변수를 0과 다른 실제 회귀 계수로 간주해야한다고 들었습니다. 아무도 왜 나에게 설명 할 수 있습니까? …

2
glmnet 능형 회귀 분석이 왜 수동 계산과 다른 답변을 제공합니까?
능선 회귀 추정치를 계산하기 위해 glmnet을 사용하고 있습니다. 나는 glmnet이 실제로 내가 생각하는 것을하고 있다는 것을 의심하게 만드는 몇 가지 결과를 얻었습니다. 이를 확인하기 위해 solve에서 수행 한 능선 회귀와 glmnet의 결과를 비교하는 간단한 R 스크립트를 작성했습니다. n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y …

2
"아이리스"데이터 세트의 어떤 측면이 예제 / 교육 / 테스트 데이터 세트로서 성공을 거두었습니까?
"아이리스" 데이터 세트는 아마 여기에 대부분의 사람들에게 익숙한 - 그것은 정규 테스트 데이터 세트 및 데이터 시각화에서 기계 학습에 이르기까지의 예를 이동-에 데이터 세트입니다. 예를 들어, 이 질문의 모든 사람들은 치료로 분리 된 산점도에 대해 토론하기 위해 그것을 사용했습니다. 아이리스 데이터 세트가 유용한 이유는 무엇입니까 ? 그게 먼저 있었어? 누군가가 …
28 dataset 


1
폐쇄 형 올가미 솔루션의 파생이 왜 올바르지 않습니까?
βlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX 그러나 왜 일반적으로 닫힌 양식 솔루션이 없는지 이해하지 못합니다. 차등을 사용하여 다음을 얻었습니다. ( XXX 는 n×pn×pn \times p 매트릭스입니다) = n ∑ i = 1 ( y i - X i β ) 2 + α p ∑ …

7
이전 코인 플립의 결과가 후속 코인 플립에 대한 신념에 영향을 미치는 통계적 오류의 이름은 무엇입니까?
우리 모두 알다시피, 꼬리처럼 머리를 착륙시킬 확률이 같은 동전을 뒤집 으면 동전을 여러 번 뒤집 으면 머리를 얻는 시간의 절반, 꼬리를 얻는 시간의 절반이됩니다. 친구와 이것을 토론 할 때, 동전을 1000 번 뒤집고 머리에 처음으로 100 번 착륙한다고하면 꼬리를 착륙 할 확률이 증가했습니다 (논리적 편견이 없다면 논리, 그런 다음 1000 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.