통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
2x2보다 큰 우발 상황 테이블에서 Fisher의 정확한 테스트
피셔의 정확한 테스트를 2x2 인 비상 대표에만 적용하도록 배웠습니다. 질문 : Fisher 자신도이 테스트를 2x2보다 큰 테이블에서 사용하도록 구상 했습니까? ( 노인이 차에 차 를 넣었 는지, 차에 차 를 넣었 는지 여부를 알 수있을 때 시험을 고안하는 이야기를 알고 있습니다. ) Stata를 사용하면 Fisher의 정확한 테스트를 모든 우발 상황 …



11
통계 팟 캐스트
통계 분석과 관련된 일부 팟 캐스트는 무엇입니까? ITunes U에 대한 대학 강의의 오디오 녹음을 찾았지만 통계 팟 캐스트는 알지 못합니다. 내가 아는 가장 가까운 것은 운영 리서치 팟 캐스트 The Science of Better 입니다. 통계 문제에 대해서는 다루지 만 통계적으로 보여주는 것은 아닙니다.
29 references 

6
이진 분류를위한 변수 선택 절차
학습 세트의 관측치보다 많은 변수 / 기능이있을 때 이진 분류에 선호 하는 변수 / 기능 선택 은 무엇입니까 ? 여기서 목표는 분류 오류를 최대한 줄이는 기능 선택 절차가 무엇인지 논의하는 것입니다. 우리는 할 수 있습니다 표기법을 수정 일관성을 위해 : 대한 ,하자 수 관찰 학습 세트를 그룹에서 . 따라서 은 …

3
PCA를 통해 직교 회귀 (총 최소 제곱)를 수행하는 방법은 무엇입니까?
나는 항상 lm()R 에서 에 선형 회귀를 수행하기 위해 사용 합니다. 이 함수는 와 같은 계수 반환합니다x β y = β x .와이와이y엑스엑스xββ\beta와이= βx .와이=β엑스.y = \beta x. 오늘 나는 최소 최소 제곱 에 대해 배웠고 그 princomp()기능 (주성분 분석, PCA)을 사용하여 그것을 수행 할 수 있습니다. 나에게 좋을 것입니다 …


6
유한 분산을 테스트 하시겠습니까?
표본이 주어진 랜덤 변수의 분산의 유한성 (또는 존재)을 테스트 할 수 있습니까? 널 (null)로서 {분산이 존재하고 유한함} 또는 {분산이 존재하지 않거나 무한함}이 허용됩니다. 철학적으로 (그리고 계산적으로), 유한 분산이없는 모집단과 매우 큰 분산이있는 모집단 (> ) 사이에 차이가 없어야하기 때문에 이것은 매우 이상하게 보입니다 . 해결되었습니다.104001040010^{400} 나에게 제안 된 한 가지 …

1
부트 스트랩 예측 간격
선형 회귀 또는 다른 회귀 방법 (k- 최근 접 이웃, 회귀 트리 등)에서 얻은 점 예측에 대한 예측 간격을 계산하는 데 사용할 수있는 부트 스트랩 기술이 있습니까? 어떻게 든 포인트 예측을 부트 스트랩하는 제안 된 방법 (예 : kNN 회귀에 대한 예측 구간 참조 )이 예측 구간이 아니라 신뢰 구간을 …

1
MAPE (Mean Absolute Percentage Error)의 단점은 무엇입니까?
평균 절대 에러 백분율 ( MAPE는 ), 시계열 예측 등 정밀도를위한 공통 또는 에러 척도 MAPE=100n∑t=1n|At−Ft|At%,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, 여기서 는 실제 값이고 해당 예측 또는 예측입니다.AtAtA_tFtFtF_t MAPE는 백분율이므로 계열간에 쉽게 비교할 수 있으며 사람들은 백분율을 쉽게 이해하고 해석 할 수 있습니다. 그러나 MAPE에는 단점이 있다고 들었습니다. MAPE를 사용할지 또는 …
29 accuracy  mape 

4
맥파든의 의사 R2 해석
지불 (1 = 지불 및 0 = 지불 없음)이라는 종속 변수가있는 McFadden의 의사 R 제곱이 0.192 인 이진 로지스틱 회귀 모델이 있습니다. 이 의사 R- 제곱의 해석은 무엇입니까? 중첩 모델에 대한 상대 비교입니까 (예 : 6 개의 변수 모델의 McFadden의 의사 R- 제곱은 0.192이지만 5 개의 변수 모델 (상기 6 …


1
교차 검증 포아송 모델에 대한 오류 메트릭
카운트를 예측하려는 모델을 교차 검증하고 있습니다. 이진 분류 문제인 경우 접기 AUC를 계산하고이 문제가 회귀 문제인 경우 접기 RMSE 또는 MAE를 계산합니다. 포아송 모델의 경우 표본 외 예측의 "정확도"를 평가하기 위해 어떤 오류 메트릭을 사용할 수 있습니까? 예측이 실제 값을 얼마나 잘 정렬하는지 보여주는 AUC의 포아송 확장이 있습니까? 카운트에 대한 …

4
RMSLE (Root Mean Squared Logarithmic Error)를 어떻게 해석합니까?
RMSLE (Root Mean Squared Logarithmic Error)을 사용하여 장비 범주의 판매 가격을 예측하는 성능을 평가하는 기계 학습 경쟁을 해왔습니다. 문제는 최종 결과의 성공을 해석하는 방법을 잘 모르겠다는 것입니다. 예를 들어 의 RMSLE을 달성 하면 지수 지수 높이고 rmse처럼 해석 할 수 있습니까? (예 : )?1.0521.0521.052eeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE 그런 다음 내 예측이 실제 가격과 …

3
scikit-learn을 사용한 다항식 회귀
다항식 회귀 분석에 scikit-learn을 사용하려고합니다. 다항식 회귀를 읽는 것에서 선형 회귀의 특별한 경우가 있습니다. scikit의 일반 선형 모델 중 하나가 고차 다항식에 맞게 매개 변수화 될 수 있기를 바랐지만 그렇게 할 수있는 옵션이 없습니다. 폴리 커널과 함께 Support Vector Regressor를 사용했습니다. 그것은 내 데이터의 하위 집합과 잘 작동하지만 더 큰 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.