통계 및 빅 데이터

4

피셔의 정확한 테스트를 2x2 인 비상 대표에만 적용하도록 배웠습니다. 질문 : Fisher 자신도이 테스트를 2x2보다 큰 테이블에서 사용하도록 구상 했습니까? ( 노인이 차에 차 를 넣었 는지, 차에 차 를 넣었 는지 여부를 알 수있을 때 시험을 고안하는 이야기를 알고 있습니다. ) Stata를 사용하면 Fisher의 정확한 테스트를 모든 우발 상황 …

29 spss stata contingency-tables fishers-exact

5

가중 표준 편차는 어떻게 계산합니까? Excel에서?

따라서 다음과 같은 백분율 데이터 세트가 있습니다. 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) 백분율의 표준 편차를 찾고 싶지만 데이터 볼륨에 가중치를 둡니다. 즉, 첫 번째 및 마지막 데이터 포인트가 계산을 지배해야합니다. 어떻게합니까? …

29 standard-deviation excel weighted-mean

3

Kolmogorov-Smirnov 검정은 이산 분포에서 유효합니까?

샘플을 비교하고 샘플이 분리 된 개별 분포로 분포하는지 확인하고 있습니다. 그러나 Kolmogorov-Smirnov가 적용되는지 확실하지 않습니다. Wikipedia 는 그렇지 않은 것으로 보입니다. 그렇지 않은 경우 표본 분포를 어떻게 테스트 할 수 있습니까?

29 hypothesis-testing discrete-data kolmogorov-smirnov

11

통계 팟 캐스트

통계 분석과 관련된 일부 팟 캐스트는 무엇입니까? ITunes U에 대한 대학 강의의 오디오 녹음을 찾았지만 통계 팟 캐스트는 알지 못합니다. 내가 아는 가장 가까운 것은 운영 리서치 팟 캐스트 The Science of Better 입니다. 통계 문제에 대해서는 다루지 만 통계적으로 보여주는 것은 아닙니다.

29 references

6

이진 분류를위한 변수 선택 절차

학습 세트의 관측치보다 많은 변수 / 기능이있을 때 이진 분류에 선호 하는 변수 / 기능 선택 은 무엇입니까 ? 여기서 목표는 분류 오류를 최대한 줄이는 기능 선택 절차가 무엇인지 논의하는 것입니다. 우리는 할 수 있습니다 표기법을 수정 일관성을 위해 : 대한 ,하자 수 관찰 학습 세트를 그룹에서 . 따라서 은 …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

3

PCA를 통해 직교 회귀 (총 최소 제곱)를 수행하는 방법은 무엇입니까?

나는 항상 lm()R 에서 에 선형 회귀를 수행하기 위해 사용 합니다. 이 함수는 와 같은 계수 반환합니다x β y = β x .와이와이y엑스엑스xββ\beta와이= βx .와이=β엑스.y = \beta x. 오늘 나는 최소 최소 제곱 에 대해 배웠고 그 princomp()기능 (주성분 분석, PCA)을 사용하여 그것을 수행 할 수 있습니다. 나에게 좋을 것입니다 …

29 r pca least-squares deming-regression total-least-squares

6

d20의 공정성을 어떻게 테스트 할 수 있습니까?

20면 다이 (d20)의 공정성을 어떻게 테스트 할 수 있습니까? 분명히 나는 값의 분포를 균일 한 분포와 비교할 것입니다. 대학에서 카이 제곱 테스트를 사용한 것을 막연히 기억합니다. 주사위가 공정한지 확인하기 위해 이것을 어떻게 적용 할 수 있습니까?

29 hypothesis-testing chi-squared goodness-of-fit uniform dice

6

유한 분산을 테스트 하시겠습니까?

표본이 주어진 랜덤 변수의 분산의 유한성 (또는 존재)을 테스트 할 수 있습니까? 널 (null)로서 {분산이 존재하고 유한함} 또는 {분산이 존재하지 않거나 무한함}이 허용됩니다. 철학적으로 (그리고 계산적으로), 유한 분산이없는 모집단과 매우 큰 분산이있는 모집단 (> ) 사이에 차이가 없어야하기 때문에 이것은 매우 이상하게 보입니다 . 해결되었습니다.104001040010^{400} 나에게 제안 된 한 가지 …

29 hypothesis-testing variance central-limit-theorem

1

부트 스트랩 예측 간격

선형 회귀 또는 다른 회귀 방법 (k- 최근 접 이웃, 회귀 트리 등)에서 얻은 점 예측에 대한 예측 간격을 계산하는 데 사용할 수있는 부트 스트랩 기술이 있습니까? 어떻게 든 포인트 예측을 부트 스트랩하는 제안 된 방법 (예 : kNN 회귀에 대한 예측 구간 참조 )이 예측 구간이 아니라 신뢰 구간을 …

29 bootstrap prediction-interval

1

MAPE (Mean Absolute Percentage Error)의 단점은 무엇입니까?

평균 절대 에러 백분율 ( MAPE는 ), 시계열 예측 등 정밀도를위한 공통 또는 에러 척도 MAPE=100n∑t=1n|At−Ft|At%,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, 여기서 는 실제 값이고 해당 예측 또는 예측입니다.AtAtA_tFtFtF_t MAPE는 백분율이므로 계열간에 쉽게 비교할 수 있으며 사람들은 백분율을 쉽게 이해하고 해석 할 수 있습니다. 그러나 MAPE에는 단점이 있다고 들었습니다. MAPE를 사용할지 또는 …

29 accuracy mape

4

맥파든의 의사 R2 해석

지불 (1 = 지불 및 0 = 지불 없음)이라는 종속 변수가있는 McFadden의 의사 R 제곱이 0.192 인 이진 로지스틱 회귀 모델이 있습니다. 이 의사 R- 제곱의 해석은 무엇입니까? 중첩 모델에 대한 상대 비교입니까 (예 : 6 개의 변수 모델의 McFadden의 의사 R- 제곱은 0.192이지만 5 개의 변수 모델 (상기 6 …

29 regression self-study logistic

4

lm ()의 결과를 방정식으로 변환하는 방법은 무엇입니까?

lm()값을 예측하는 데 사용할 수 있지만 경우에 따라 결과 수식의 방정식이 여전히 필요합니다. 예를 들어, 방정식을 도표에 추가하십시오.

29 r regression lm

1

교차 검증 포아송 모델에 대한 오류 메트릭

카운트를 예측하려는 모델을 교차 검증하고 있습니다. 이진 분류 문제인 경우 접기 AUC를 계산하고이 문제가 회귀 문제인 경우 접기 RMSE 또는 MAE를 계산합니다. 포아송 모델의 경우 표본 외 예측의 "정확도"를 평가하기 위해 어떤 오류 메트릭을 사용할 수 있습니까? 예측이 실제 값을 얼마나 잘 정렬하는지 보여주는 AUC의 포아송 확장이 있습니까? 카운트에 대한 …

29 cross-validation poisson-distribution count-data deviance scoring-rules

4

RMSLE (Root Mean Squared Logarithmic Error)를 어떻게 해석합니까?

RMSLE (Root Mean Squared Logarithmic Error)을 사용하여 장비 범주의 판매 가격을 예측하는 성능을 평가하는 기계 학습 경쟁을 해왔습니다. 문제는 최종 결과의 성공을 해석하는 방법을 잘 모르겠다는 것입니다. 예를 들어 의 RMSLE을 달성 하면 지수 지수 높이고 rmse처럼 해석 할 수 있습니까? (예 : )?1.0521.0521.052eeee1.052=2.863=RMSEe1.052=2.863=RMSEe^{1.052}=2.863=RMSE 그런 다음 내 예측이 실제 가격과 …

29 regression machine-learning interpretation measurement-error theory

3

scikit-learn을 사용한 다항식 회귀

다항식 회귀 분석에 scikit-learn을 사용하려고합니다. 다항식 회귀를 읽는 것에서 선형 회귀의 특별한 경우가 있습니다. scikit의 일반 선형 모델 중 하나가 고차 다항식에 맞게 매개 변수화 될 수 있기를 바랐지만 그렇게 할 수있는 옵션이 없습니다. 폴리 커널과 함께 Support Vector Regressor를 사용했습니다. 그것은 내 데이터의 하위 집합과 잘 작동하지만 더 큰 …

29 regression machine-learning large-data polynomial scikit-learn