통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
주제 (이중) 공간에서 PCA의 기하학적 이해
주요 구성 요소 분석 (PCA) 이 주제 (이중) 공간에서 작동하는 방식을 직관적으로 이해하려고 합니다. . 두 개의 변수 x1x1x_1 과 x2x2x_2 와 nnn 데이터 포인트를 갖는 2D 데이터 세트를 고려하십시오 (데이터 매트릭스 XX\mathbf X 는 n×2n×2n\times 2 이며 중앙에 있다고 가정). PCA의 일반적인 표현은 우리 가 R 2 에서 nnn …

3
시계열 벡터 예측을 위해 RNN (LSTM) 사용 (Theano)
나는 매우 간단한 문제가 있지만 그것을 해결할 수있는 올바른 도구를 찾을 수 없습니다. 길이가 같은 벡터 시퀀스가 ​​있습니다. 이제이 시퀀스의 기차 샘플에 대해 LSTM RNN을 학습 한 다음 여러 프라이밍 벡터를 기반으로 길이 의 새로운 벡터 시퀀스를 예측하려고합니다 .엔엔n 이 작업을 수행하는 간단한 구현을 찾을 수 없습니다. 내 기본 언어는 …

3
줄리아 : 어떻게 지내고 있는지 재고
이 게시물은 빠르게 변화하는 이벤트와 관련이 있습니다. 나는 다양한 유형의 통계 작업에 대한 R / Python의 대안으로 Julia에 대해 매우 좋은 토론을 한 2012 년 질문을 보았습니다. 여기 Julia의 약속에 관한 2012 년의 원래 질문이 있습니다. 불행히도 Julia는 당시 매우 새롭고 통계 작업에 필요한 툴킷은 다소 원시적이었습니다. 버그가 해결되었습니다. 배포판을 …
19 r  python  computing  julia 

5
상관 된 데이터 시뮬레이션을 위해 Cholesky 분해 또는 대안을 사용하는 방법
Cholesky 분해를 사용하여 상관 행렬이 주어지면 상관 랜덤 변수를 시뮬레이션합니다. 문제는 주어진 상관 관계 구조를 결코 재현하지 못한다는 것입니다. 다음은 상황을 설명하기위한 Python의 작은 예입니다. import numpy as np n_obs = 10000 means = [1, 2, 3] sds = [1, 2, 3] # standard deviations # generating random independent variables …

3
신경망에서 바이어스 노드의 중요성
바이어스 노드가 현대 신경 네트워크의 효과에 얼마나 중요한지 알고 싶습니다. 입력 변수가 적은 얕은 네트워크에서 중요 할 수 있음을 쉽게 이해할 수 있습니다. 그러나 딥 러닝과 같은 현대 신경망에는 종종 특정 뉴런이 트리거되는지 여부를 결정하기 위해 많은 입력 변수가 있습니다. 예를 들어 LeNet5 또는 ImageNet에서 단순히 제거하면 실제 영향이 있습니까?

3
희귀 사건 로지스틱 회귀 편향 : 최소한의 예제로 과소 평가 된 p를 시뮬레이션하는 방법은 무엇입니까?
CrossValidated는 King and Zeng (2001) 의 희귀 사건 편향 보정을 언제 어떻게 적용 할 것인지에 대한 몇 가지 질문을 가지고 있습니다 . 바이어스가 존재한다는 최소한의 시뮬레이션 기반 데모를 통해 다른 것을 찾고 있습니다. 특히 왕과 eng 주 "... 드문 사건 데이터에서 확률의 편향은 수천의 표본 크기에서 실질적으로 의미가 있으며 예측 …

1
이 올가미 줄거리에서 결론을 내릴 것 (glmnet)
다음은 mtcarsR로 설정된 데이터를 mpgDV로 사용하고 다른 변수는 예측 변수로 사용하여 기본 알파 (1, 따라서 올가미)를 사용하는 glmnet의 플롯입니다 . glmnet(as.matrix(mtcars[-1]), mtcars[,1]) 우리는 무엇 특히, 다른 변수에 대해이 플롯에서 결론을 내릴 수 am, cyl과 wt(빨강, 검정 및 밝은 파란색 선)? 보고서에 출력 할 내용을 어떻게 표현할 것인가? 나는 다음을 생각했다. …

3
Pearson 파라 메트릭 및 Spearman이 비모수 인 이유
분명히 Pearson의 상관 계수는 파라 메트릭이고 Spearman의 rho는 비모수입니다. 이것을 이해하는 데 문제가 있습니다. 내가 알기로 Pearson은 로 계산되고 Spearman은 모든 값을 순위로 대체한다는 점을 제외하고는 동일한 방식으로 계산됩니다.아르 자형x y= c o v ( X, Y)σ엑스σ와이아르 자형엑스와이=씨영형V(엑스,와이)σ엑스σ와이 r_{xy} = \frac{cov(X,Y)}{\sigma_x\sigma_y} 위키 백과 는 말합니다 파라 메트릭 모델과 비 파라 …

3
상관 랜덤 변수 생성 공식은 어떻게 작동합니까?
2 개의 상관 관계가없는 임의의 변수 가 있으면 수식을 사용하여 2 개의 상관 관계가있는 임의 변수를 만들 수 있습니다엑스1, X2엑스1,엑스2X_1, X_2 와이= ρ X1+ 1 − ρ2−−−−−√엑스2와이=ρ엑스1+1−ρ2엑스2Y=\rho X_1+ \sqrt{1-\rho^2} X_2 다음 상관 것 와 .ρ X 1와이와이Yρρ\rho엑스1엑스1X_1 누군가이 수식의 출처를 설명 할 수 있습니까?

3
잘못된 발견 비율 및 다중 테스트와의 혼동 (Colquhoun 2014)
나는 David Colquhoun이 쓴이 위대한 논문을 읽었습니다 : 잘못된 발견 률과 p- 값의 잘못된 해석에 대한 조사 (2014). 본질적으로 그는 α = 0.05로 유형 I 오류를 제어하더라도 FDR (False Discovery Rate)이 까지 높은 이유를 설명합니다 .30%30%30\%α=0.05α=0.05\alpha=0.05 그러나 여러 테스트의 경우 FDR 제어를 적용하면 어떻게되는지 여전히 혼란 스럽습니다. 여러 변수 각각에 …

2
탄성 / 리지 / lasso 분석은 무엇입니까?
예측 변수 축소 / 선택을위한 탄력적 순 절차에 실제로 관심이 있습니다. 매우 강력 해 보입니다. 그러나 과학적 관점에서 계수를 얻은 후에는 어떻게해야할지 잘 모릅니다. 어떤 질문에 대답하고 있습니까? 이것들은 그 결과에 가장 큰 영향을 미치는 변수 들이며 이것들은 검증하는 동안 최고의 분산 / 바이어스 비율을 제공하는 계수들입니까? 물론 이것은 전통적인 …


5
스트리밍 데이터 용 t-SNE 버전이 있습니까?
t-SNE 와 Barnes-Hut 근사에 대한 나의 이해는 모든 힘 상호 작용이 동시에 계산되고 각 점이 2d (또는 낮은 차원) 맵에서 조정될 수 있도록 모든 데이터 점이 필요하다는 것입니다. 스트리밍 데이터를 효율적으로 처리 할 수있는 t-sne 버전이 있습니까? 따라서 관측치가 한 번에 하나씩 도착하면 2d 맵에서 가장 좋은 위치를 찾아서 새 …

1
교차 검증 (CV)에 기반한 예측 구간
교과서와 유튜브 강연에서 나는 부스팅과 같은 반복 모델에 대해 많은 것을 배웠지 만 예측 간격을 도출하는 것에 대해서는 아무것도 보지 못했습니다. 교차 검증은 다음에 사용됩니다. 모델 선택 : 다른 모델을 사용 해보고 가장 적합한 모델을 선택하십시오. 부스팅의 경우 CV를 사용하여 튜닝 파라미터를 선택하십시오. 모델 평가 : 선택한 모델의 성능 추정 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.