통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
순환 데이터를 사용하여 분산의 동등성을 테스트하는 방법
8 개의 서로 다른 표본 (각각 다른 모집단의 표본) 내 변동량을 비교하는 데 관심이 있습니다. F- 검정 분산의 동등성, Levene 검정 등의 비율 데이터를 사용하여 여러 가지 방법 으로이 작업을 수행 할 수 있음을 알고 있습니다. 그러나 내 데이터는 원형 / 방향입니다 (즉, 풍향 및 일반적으로 각도 데이터 또는 시간과 …

4
이 경우 최소 제곱 솔루션의 결과가 좋지 않은 이유는 무엇입니까?
Bishop의 "패턴 인식 및 머신 러닝"4 장 204 페이지 4 장에 최소 사각형 솔루션이 왜 나쁜 결과를 제공하는지 이해하지 못하는 이미지가 있습니다. 이전 단락은 다음 이미지에서 볼 수 있듯이 최소 제곱 솔루션이 특이 치에 대한 견고성이 부족하다는 사실에 관한 것이었지만 다른 이미지에서 진행되는 일을 얻지 못하고 LS가 결과가 좋지 않은 …

3
p- 값, 유의 수준 및 유형 I 오류 비교 및 ​​대조
p- 값, 유의 수준 및 유형 I 오류의 정의 및 사용에 대해 간결한 요약을 제공 할 수 있는지 궁금합니다. p- 값은 "실제로 관찰 한 것 이상으로 테스트 통계를 얻을 확률"로 정의되는 반면, 유의 수준은 p- 값이 유의한지 여부를 측정하기위한 임의의 컷오프 값일뿐입니다. . 유형 I 오류는 참 가설을 기각 한 …

3
양수가 아닌 공분산 행렬은 내 데이터에 대해 무엇을 알려줍니까?
여러 다변량 관측 값이 있으며 모든 변수에 대한 확률 밀도를 평가하려고합니다. 데이터가 정규 분포되어 있다고 가정합니다. 적은 수의 변수에서는 모든 것이 예상대로 작동하지만 더 큰 수로 이동하면 공분산 행렬이 양의 한정이 아닙니다. Matlab의 문제를 다음과 같이 줄였습니다. load raw_data.mat; % matrix number-of-values x number of variables Sigma = cov(data); [R,err] …

1
MCMC 기반 회귀 모델의 잔차 진단
최근에 MCMC 알고리즘 (실제로 R의 MCMCglmm 함수)을 사용하여 베이지안 프레임 워크에서 회귀 혼합 모델을 피팅하는 데 착수했습니다. 나는 추정 과정의 수렴을 진단하는 방법을 이해했다고 생각합니다 (추적, geweke 플롯, 자기 상관, 사후 분포 ...). 베이지안 프레임 워크에서 저를 놀라게하는 것 중 하나는 이러한 진단을 수행하기 위해 많은 노력을 기울이고있는 반면, 적합 …

4
다중 회귀 분석에서 예측 변수의 중요성 : 부분
선형 모델에서 부분 R2R2R^2 와 계수 사이의 정확한 관계가 무엇인지, 그리고 요인의 중요성과 영향을 설명하기 위해 하나 또는 둘 다를 사용 해야하는지 궁금 합니다. 내가 아는 한, summary계수의 추정치와 anova각 요인에 대한 제곱합을 얻으면 한 요인의 제곱합의 합을 제곱의 합과 잔차의 합으로 나눈 비율은 부분 R2R2R^2 ( 다음 코드는에 있습니다 …

4
회귀 분석과 분산 분석의 차이점은 무엇입니까?
이 질문은 교차 검증에서 답변 될 수 있기 때문에 Mathematics Stack Exchange에서 마이그레이션 되었습니다. 7 년 전에 이주했습니다 . 회귀 분석과 분산 분석에 대해 지금 배우고 있습니다. 회귀 분석에서는 하나의 변수가 고정되어 있으며 변수가 다른 변수와 어떻게 진행되는지 알고 싶습니다. 분산 분석에서 예를 들어 :이 특정 동물성 식품이 동물의 무게에 …
21 regression 

3
캐럿이있는 스태킹 / 앙상블 모델
나는 종종 caretR을 사용하여 여러 가지 예측 모델을 훈련시키는 것을 자주 발견합니다. 나는를 사용 하여 동일한 교차 검증 폴드에서 모두 훈련 caret::: createFolds한 다음 교차 검증 오류를 기반으로 최고의 모델을 선택합니다. 그러나 여러 모델의 중앙값 예측은 종종 독립 테스트 세트에서 최상의 단일 모델을 능가합니다. 예를 들어 각 교차점에서 각 모델의 …
21 r  caret  ensemble 

5
새로운 혁신적인 데이터 마이닝 방법?
다음 발췌문은 Schwager의 헤지 펀드 마켓 위저드 (2012 년 5 월)에서 지속적으로 성공적인 헤지 펀드 관리자 인 Jaffray Woodriff와의 인터뷰 에서 발췌 한 것입니다 . 질문 : "데이터 마이닝에서 사람들이 만드는 최악의 오류는 무엇입니까?": 많은 사람들이 훈련에 샘플 데이터를 사용하고 테스트에 샘플 외부 데이터를 사용하기 때문에 괜찮다고 생각합니다. 그런 다음 …

1
두 신호를 정렬 / 동기화하려면 어떻게해야합니까?
나는 약간의 연구를하고 있지만 분석 단계에 갇혀 있습니다 (통계 강의에 더 많은 관심을 기울여야 함). 볼륨과 흉부 확장의 변화를 위해 통합 된 유량 두 가지 동시 신호를 수집했습니다. 나는 신호를 비교하고 궁극적으로 가슴 확장 신호에서 볼륨을 도출하기를 희망합니다. 그러나 먼저 데이터를 정렬 / 동기화해야합니다. 기록이 정확히 동시에 시작되지 않고 가슴 …

3
빅 데이터의 첫 번째 단계 (
하루에 수십억 건의 관측치로 거대한 데이터 세트를 분석한다고 가정합니다. 각 관측치에는 수 천 개의 희소하고 중복되는 수치 및 범주 형 변수가 있습니다. 회귀 문제 하나, 불균형 이진 분류 문제 하나 및 "어떤 예측 변수가 가장 중요한지 알아내는 작업"이 있다고 가정하겠습니다. 문제에 접근하는 방법에 대한 내 생각은 다음과 같습니다. 다음과 같은 …

1
Markov가 임의 필드
그들의 교과서, 그래픽 모델, 지수 가족 및 변형 추론 에서 M. Jordan 과 M. Wainwright 는 지수 패밀리 와 Markov Random Fields (무 방향 그래픽 모델) 의 연관성을 논의합니다 . 다음 질문을 통해 그들 사이의 관계를 더 잘 이해하려고합니다. 모든 MRF가 지수 패밀리의 구성원입니까? 지수 가족의 모든 구성원을 MRF로 나타낼 …

2
"조사자 의도"및 임계 값 / p- 값
John Kruschke의 "Doing Bayesian Data Analysis"슬라이드를 읽고 있지만 실제로 t- 검정 및 / 또는 전체 귀무 가설 유의성 테스트 프레임 워크에 대한 그의 해석에 대한 질문이 있습니다. 그는 p- 값이 조사자의 의도에 의존하기 때문에 잘못 정의되어 있다고 주장한다. 특히, 그는 두 치료법을 비교하는 동일한 데이터 세트를 수집하는 두 실험실의 예 …

3
차원이 샘플 수보다 큰 경우 PCA
나는 분류기에 전달 해야하는 14000 데이터 포인트 (치수)를 포함하는 10 명 (100 샘플)에 대해 10 개의 신호 / 사람이있는 시나리오를 보았습니다. 이 데이터의 차원을 줄이고 싶습니다. PCA가 그렇게하는 것 같습니다. 그러나 샘플 수가 차원 수보다 큰 PCA의 예만 찾을 수있었습니다. SVD를 사용하여 PC를 찾는 PCA 응용 프로그램을 사용하고 있습니다. 100x14000 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.