통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

3
시계열에서의 AIC와 교차 검증 : 작은 샘플 사례
시계열 설정에서 모델 선택에 관심이 있습니다. 구체적으로 지연 순서가 다른 ARMA 모델 풀에서 ARMA 모델을 선택한다고 가정합니다. 궁극적 인 의도는 예측 입니다. 모델 선택은 교차 검증, 정보 기준 (AIC, BIC) 사용 다른 방법들 중에서도 Rob J. Hyndman은 시계열에 대해 교차 검증 을 수행하는 방법을 제공합니다 . 비교적 작은 샘플의 경우, …

4
데이터 분포가 대칭인지 확인하는 방법
중간 값과 평균이 거의 같으면 대칭 분포가 있음을 의미하지만이 특별한 경우 확실하지 않습니다. 평균과 중앙값은 상당히 가깝고 (0.487m / 갤런 차이) 대칭 분포가 있다고 말하지만 박스 플롯을 보면 약간 긍정적으로 치우친 것처럼 보입니다 (확인 된 중앙값은 Q3보다 Q1에 가깝습니다) 값으로). (이 소프트웨어에 대한 특정 조언이 있으면 Minitab을 사용하고 있습니다.)

2
왜 윌크스의 1938 증거가 잘못 지정된 모델에 대해 작동하지 않습니까?
유명한 1938 년 논문 ( " 복합 가설 테스트를위한 가능성 비율의 대규모 표본 분포 ", Annals of Mathematical Statistics, 9 : 60-62)에서 Samuel Wilks는 (로그 가능성 비율) 의 점근 분포를 도출했습니다. 더 큰 가설이 올바르게 지정되었다는 가정하에 내포 된 가설의 경우 제한 분포는 자유도를 갖는 (chi-squared)이며 , 여기서 는 더 …

2
하드 마진 SVM의 손실 기능은 무엇입니까?
max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺엑스나는+비))\max(0,1-y_i(w^\intercal x_i+b))‖w‖2최대(0,1-YI(w⊺XI+B))12∥ w ∥2+ C∑나는max(0,1−yi(w⊺xi+b))12‖w‖2+C∑imax(0,1−yi(w⊺xi+b)) \frac{1}{2}\|w\|^2+C\sum_i\max(0,1-y_i(w^\intercal x_i+b)) ∥w∥2‖w‖2\|w\|^2max(0,1−yi(w⊺xi+b))max(0,1−yi(w⊺xi+b))\max(0,1-y_i(w^\intercal x_i+b)) 그러나 하드 마진 SVM의 경우 전체 목적 함수는 12∥w∥212‖w‖2 \frac{1}{2}\|w\|^2 . 이는 하드 마진 SVM이 손실 기능없이 정규화기만 최소화한다는 의미입니까? 매우 이상하게 들립니다. 만약이 경우에 12∥w∥212‖w‖2\frac{1}{2}\|w\|^2 가 손실 함수라면, 2 차 손실 함수라고 부를 수 있습니까? 그렇다면 왜 하드 마진 SVM의 …

2
자기 상관 시간의 정의 (유효한 표본 크기)
나는 약한 고정 시계열의 자기 상관 시간에 대한 문헌에서 두 가지 정의를 발견했다 τ에이= 1 + 2 ∑k = 1∞ρ케이대τ비= 1 + 2 ∑k = 1∞| ρ케이|τ에이=1+2∑케이=1∞ρ케이대τ비=1+2∑케이=1∞|ρ케이| \tau_a = 1+2\sum_{k=1}^\infty \rho_k \quad \text{versus} \quad \tau_b = 1+2\sum_{k=1}^\infty \left|\rho_k\right| 여기서 는 지연 에서의 자기 상관 입니다. kρ케이= 코브 [ X티, Xt …

3
최대 엔트로피 분포의 통계적 해석
다양한 환경에서 여러 분포의 사용을 정당화하기 위해 최대 엔트로피의 원리를 사용했습니다. 그러나, 나는 최대 엔트로피의 정보 이론적 해석과는 반대로 통계를 공식화 할 수 없었다. 즉, 엔트로피를 최대화하면 분포의 통계적 특성에 대해 무엇을 의미합니까? 누구든지 건너 뛰거나 아마도 최대의 통계적 해석을 발견했습니다. 정보에 호소하지 않고 확률 론적 개념에만 호응하는 엔트로피 분포? …

2
통계의 맥락에서“기준”이란 무엇입니까?
내가 Google을 위해 "fisher" "fiducial" ... 나는 많은 인기를 얻었지만, 내가 따르는 모든 것은 내 이해력을 완전히 뛰어 넘습니다. 이 모든 히트는 공통점이 한 가지 인 것 같습니다. 모두 염색 된 통계 학자, 이론, 실제, 역사 및 통계학에 철저한 관심을 가진 사람들을 위해 작성된 것입니다. (따라서,이 설명들 중 어느 것도 …

4
검증 세트에서 테스트하는 대신 연구원이 10 배 교차 검증을 사용하는 이유는 무엇입니까?
정서 분류 및 관련 주제에 대한 많은 연구 논문을 읽었습니다. 대부분은 10 배 교차 검증을 사용하여 분류기를 훈련시키고 테스트합니다. 즉, 별도의 테스트 / 검증이 수행되지 않습니다. 왜 그런가요? 이 방법의 장점, 단점은 무엇입니까? 특히 연구를하는 사람들에게는 어떤가요?

6
훈련보다 높은 테스트 정확도. 해석하는 방법?
많은 기능 (1000 이상)이있는 최대 150 개의 예제 (훈련 및 테스트에 분할)가 포함 된 데이터 세트가 있습니다. 데이터에서 잘 수행되는 분류기와 기능 선택 방법을 비교해야합니다. 그래서 다른 검색 방법 (Greedy, BestFirst)과 함께 세 가지 분류 방법 (J48, NB, SVM)과 두 가지 기능 선택 방법 (CFS, WrapperSubset)을 사용하고 있습니다. 비교하면서 저는 …

1
개별 데이터가있는 Kolmogorov-Smirnov : R에서 dgof :: ks.test를 올바르게 사용하는 방법은 무엇입니까?
초보자 질문 : 두 개의 개별 데이터 세트가 동일한 분포에서 나온 것인지 테스트하고 싶습니다. Kolmogorov-Smirnov 테스트가 제게 제안되었습니다. Conover ( Practical Nonparametric Statistics , 3d)는 Kolmogorov-Smirnov Test가이 목적으로 사용될 수 있다고 말하지만, 그 동작은 불연속 분포와 함께 "보수적"이며, 이것이 무엇을 의미하는지 잘 모르겠습니다. 다른 질문에 대한 DavidR의 의견 은 "... …

2
다변량 회귀 분석을위한 랜덤 포레스트
입력 기능 및 출력에 다중 출력 회귀 문제가 있습니다. 출력에는 복잡한 비선형 상관 구조가 있습니다.디엑스디엑스d_x디와이디와이d_y 임의의 숲을 사용하여 회귀를 수행하고 싶습니다. 내가 알 수있는 한 회귀를위한 임의의 포리스트는 단일 출력에서만 작동하므로 임의의 포리스트를 각 출력마다 하나씩 훈련해야합니다 . 이것은 상관 관계를 무시합니다.디와이디와이d_y 출력 상관 관계를 고려한 임의 포리스트에 대한 확장이 …

3
AIC 및 BIC 번호 해석
AIC (Akaike 정보 기준) 및 BIC (Bayesian 정보 기준) 추정값을 해석하는 방법에 대한 예를 찾고 있습니다. BIC 간의 부정적인 차이가 한 모델의 다른 승산 확률로 해석 될 수 있습니까? 이것을 어떻게 말로 표현할 수 있습니까? 예를 들어 BIC = -2는 다른 모델에 비해 더 나은 모델의 확률이 대략 입니까?e2=7.4e2=7.4e^2= 7.4 …

4
PCA에 대한 결 측값 대치
이 prcomp()함수를 사용하여 R에서 PCA (주성분 분석)를 수행했습니다. 그러나 해당 함수에 na.action매개 변수가 작동하지 않는 버그 가 있습니다. 나는 stackoverflow에 대한 도움을 요청했다 . 두 명의 사용자가 두 가지 방법으로 NA가치 를 처리했습니다 . 그러나 두 솔루션의 문제점은 NA값 이있을 때 해당 행이 삭제되고 PCA 분석에서 고려되지 않는다는 것입니다. 내 …

1
R에서 자연 입방 스플라인에서 매듭 설정
상호 관련 기능이 많은 데이터가 있으며 LDA를 실행하기 전에 부드러운 기본 기능으로 기능을 줄이는 것으로 시작하고 싶습니다. 함수 splines와 함께 패키지 에 자연스러운 큐빅 스플라인을 사용하려고 ns합니다. 매듭을 지정하는 방법은 무엇입니까? 기본 R 코드는 다음과 같습니다. library(splines) lda.pred <- lda(y ~ ns(x, knots=5)) 그러나에서 매듭을 선택하는 방법에 대해서는 전혀 모른다 …
23 r  splines 

4
통계 컴퓨팅을위한 C ++ 라이브러리
C / C ++로 이식하려는 특정 MCMC 알고리즘이 있습니다. 비싼 계산의 많은 부분이 이미 Cython을 통해 C로 이루어졌지만 전체 샘플러를 컴파일 된 언어로 작성하여 Python / R / Matlab / 무엇이든 래퍼를 작성할 수 있기를 원합니다. 주위를 파고 난 후 C ++에 기대어 있습니다. 내가 아는 관련 라이브러리는 Armadillo (http://arma.sourceforge.net/)와 …
23 mcmc  software  c++  computing 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.