통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
교차 검증 (CV) 및 일반 교차 검증 (GCV) 통계
선형 검증 과 관련된 교차 검증 (CV) 통계 및 일반 교차 검증 (GCV) 통계에 대해 상충되는 정의를 찾았습니다 ( Y=Xβ+εY=Xβ+εY = X\boldsymbol\beta + \boldsymbol\varepsilon정상적인 동형 오류 벡터 포함). 굵은 기호 \ varepsilonεε\boldsymbol\varepsilon ). 한편 Golub, Heath & Wahba는 GCV 추정치 λ^λ^\hat{\lambda} 를 (p. 216)으로 정의합니다 . V \ left (\ …

7
Bonferroni 조정에 어떤 문제가 있습니까?
다음 문서를 읽었습니다. Perneger (1998) Bonferroni 조정에 문제가 있습니다. 저자는 Bonferroni 조정이 생의학 연구에서 기껏해야 응용이 제한적이며 특정 가설에 대한 증거를 평가할 때 사용해서는 안된다고 요약했습니다. 요약 포인트 : 연구 데이터 (Bonferroni 방법)에서 수행 된 테스트 수에 대한 통계적 유의성을 조정하면 해결하는 것보다 더 많은 문제가 발생합니다. Bonferroni 방법은 일반적인 …

5
이제 다음의 귀무 가설을 기각 했습니까?
나는 몇 번이고 귀무 가설 을 기각 하거나 기각 하지 못했습니다 . 거부에 실패한 경우 거부에 대한 증거가 충분하지 않으며 "이동"합니다 (예 : 더 많은 데이터 수집, 실험 종료 등). 그러나 귀무 가설을 "거부"할 때 대립 가설에 대한 몇 가지 증거를 제공 하면 대립 가설이 실제로 적용된다는 것을 실제로 "증명"할 …

2
주제 모델의 주제 안정성
일련의 개방형 에세이의 내용에 대한 정보를 추출하려는 프로젝트를 진행 중입니다. 이 특정 프로젝트에서 148 명이 더 큰 실험의 일환으로 가상의 학생 조직에 대한 에세이를 썼습니다. 내 분야 (사회 심리학)에서 이러한 데이터를 분석하는 일반적인 방법은 수필로 수필을 코딩하는 것이지만 수작업으로 코딩하는 것은 노동 집약적이며 너무 주관적이기 때문에 정량적으로 수행하고 싶습니다. 미각. …

2
Scikit-learn의 평균 절대 백분율 오차 (MAPE) [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . Python과 scikit-learn을 사용하여 예측의 평균 절대 백분율 오차 (MAPE)를 어떻게 계산할 수 있습니까? 에서 워드 프로세서 , 우리는 회귀 만이 4 개 미터 …

2
ARMA를 사용하여 비 정적 프로세스를 모델링 한 결과는 무엇입니까?
고정되지 않은 시계열을 모델링 할 때 ARIMA를 사용해야한다는 것을 알고 있습니다. 또한, 내가 읽은 모든 것은 ARMA는 고정 시계열에만 사용해야한다고 말합니다. 내가 이해하려고하는 것은 모델을 잘못 분류하고 d = 0정지하지 않은 시계열을 가정 할 때 실제로 어떻게됩니까 ? 예를 들면 다음과 같습니다. controlData <- arima.sim(list(order = c(1,1,1), ar = .5, …

2
CHAID vs CRT (또는 CART)
약 20 개의 예측 변수가있는 데이터 세트 (몇 가지 범주로 범주화 된)에서 SPSS 를 사용하여 의사 결정 트리 분류를 실행하고 있습니다. CHAID (Chi-squared Automatic Interaction Detection)와 CRT / CART (Classification and Regression Trees)는 다른 트리를 제공합니다. 누구나 CHAID와 CRT의 상대적인 장점을 설명 할 수 있습니까? 한 방법을 다른 방법으로 사용하면 …
23 spss  cart 


4
(일부) 의사 난 수화의 문제점
나는 50 세가 넘는 환자들이 출생 연도에 의해 의사 난 수화되는 연구를 보았습니다. 출생 연도가 짝수 인 경우, 평소의 치료, 홀수 인 경우, 중재. 구현하기가 쉽고, 전복하기가 더 어렵고 (환자가 어떤 치료를 받아야하는지 쉽게 확인할 수 있음) 기억하기 쉽습니다 (지정은 몇 년 동안 진행되었습니다). 그러나 여전히 마음에 들지 않습니다. 적절한 …

4
매우 드문 데이터로 잘 작동하는 랜덤 포레스트 구현이 있습니까?
매우 드문 데이터로 잘 작동하는 R 임의 포리스트 구현이 있습니까? 나는 수천 또는 수백만의 부울 입력 변수를 가지고 있지만 주어진 예에서 수백 개 정도만 참입니다. R을 처음 접했고 스파 스 데이터를 처리하기위한 '매트릭스'패키지가 있지만 표준 'randomForest'패키지는이 데이터 유형을 인식하지 못하는 것 같습니다. 중요한 경우 입력 데이터는 R 외부에서 생성되어 가져옵니다. …

3
ARIMA 모델의 특수 사례로 볼 수있는 일반적인 예측 모델은 무엇입니까?
오늘 아침에 나는 궁금해했다. (이것은 지난 밤에 잠을 잘 못 잤기 때문일 수있다) : 교차 검증은 적절한 시계열 예측의 초석 인 것 같아서, "정상적으로해야하는 모델은 무엇인가?" "에 대한 교차 검증? 나는 몇 가지 (쉬운) 것들을 생각해 냈지만 곧 ARIMA 모델의 특별한 경우가 아니라는 것을 깨달았습니다. 이제 궁금합니다. 이것이 실제 질문입니다. …

2
테스트 세트와 트레이닝 세트의 분포 차이를 처리하는 방법은 무엇입니까?
머신 러닝이나 파라미터 추정의 기본 가정 중 하나는 보이지 않는 데이터가 훈련 세트와 동일한 분포에서 나온다고 생각합니다. 그러나 실제 사례의 경우 테스트 세트의 분포가 훈련 세트와 거의 다릅니다. 제품 설명을 약 17,000 개의 클래스로 분류하려는 대규모 다중 분류 문제가 있다고 가정 해보십시오. 훈련 세트는 수업에 치우친 수업이 있기 때문에 일부 …


3
Bernoulli 시험 또는 George Lucas 영화 실험에서 K의 성공
나는 지금 "Drunkard 's Walk"를 읽고 있는데 한 이야기를 이해할 수 없습니다. 여기 간다: George Lucas가 새로운 Star Wars 영화를 만들고 한 테스트 시장에서 미친 실험을하기로 결정했다고 상상해보십시오. 그는 "스타 워즈 : 에피소드 A"와 "스타 워즈 : 에피소드 B"라는 두 가지 제목으로 동일한 영화를 발표합니다. 각 영화에는 자체 마케팅 캠페인 …

3
가우스 혼합으로 학생 t
k>0k>0k > 0 자유도, 위치 모수 및 밀도를 갖는 스케일 모수 를 갖는 학생 t- 분포 사용의lllsss Γ(k+12)Γ(k2kπs2−−−−√){1+k−1(x−ls)}−(k+1)/2,Γ(k+12)Γ(k2kπs2){1+k−1(x−ls)}−(k+1)/2,\frac{\Gamma \left(\frac{k+1}{2}\right)}{\Gamma\left(\frac{k}{2}\sqrt{k \pi s^2}\right)} \left\{ 1 + k^{-1}\left( \frac{x-l}{s}\right)\right\}^{-(k+1)/2}, , 를 통해 학생 분포를 가우시안 분포의 혼합으로 쓸 수 있음 을 보여주는 방법 , 조인트 밀도 f (x, \ tau | \ mu) …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.