통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
머신 러닝 분류기의 성능을 통계적으로 비교하는 방법은 무엇입니까?
예상 분류 정확도를 기준으로 한 분류자가 다른 분류기보다 기본 세트에서 통계적으로 더 나은지 테스트하고 싶습니다. 각 분류 자에 대해 기본 집합에서 임의로 학습 및 테스트 샘플을 선택하고 모델을 학습하고 모델을 테스트합니다. 각 분류 자에 대해이 작업을 10 번 수행합니다. 따라서 각 분류기에 대해 10 가지 추정 분류 정확도 측정 값이 …

3
K-fold vs. Monte Carlo 교차 검증
감독되는 다변량 분석 기법에 주로 적용하려는 다양한 교차 검증 방법을 배우려고합니다. 제가 접한 두 가지는 K-fold와 Monte Carlo 교차 검증 기술입니다. 나는 K-fold가 Monte Carlo의 변형이라는 것을 읽었지만 Monte Carlo의 정의를 구성하는 것이 무엇인지 완전히 이해하지 못했습니다. 누군가이 두 가지 방법의 차이점을 설명해 주시겠습니까?

2
커널 밀도 추정기의 대역폭 선택
단 변량 커널 밀도 추정기 (KDE)의 경우 계산에 Silverman의 규칙을 사용합니다 .hhh 0.9 분 ( S D, IQ R / 1.34 ) × n− 0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} 다변량 KDE의 표준 규칙은 무엇입니까 (일반 커널 가정).

3
R : 데이터 집합에 NaN이 없어도 "외부 함수 호출"오류에서 NaN / Inf를 발생시키는 임의 포리스트 [닫기]
캐럿을 사용하여 데이터 세트에 대해 교차 유효성 검사 임의 포리스트를 실행하고 있습니다. Y 변수는 요인입니다. 내 데이터 세트에 NaN, Inf 또는 NA가 없습니다. 그러나 임의의 포리스트를 실행하면 Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see …

4
로지스틱 회귀 분석에서 비용 함수는 어떻게 도출됩니까?
Coursera에서 기계 학습 스탠포드 코스를하고 있습니다. 로지스틱 회귀에 관한 장에서 비용 함수는 다음과 같습니다. 그런 다음 여기에서 파생됩니다. 비용 함수의 미분을 얻으려고했지만 완전히 다른 것을 얻었습니다. 파생 상품은 어떻게 얻습니까? 중개 단계는 무엇입니까?

4
Andrew Ng가 PCA를 수행하기 위해 공분산 행렬의 EIG가 아닌 SVD를 선호하는 이유는 무엇입니까?
Andrew Ng의 Coursera 코스 및 기타 자료에서 PCA를 공부하고 있습니다. 스탠포드 NLP 과정에서 cs224n의 첫 번째 과제 와 Andrew Ng 의 강의 비디오에서 공분산 행렬의 고유 벡터 분해 대신 특이 값 분해를 수행하며 Ng는 SVD가 고유 분해보다 수치 적으로 더 안정적이라고 말합니다. PCA의 경우 (m,n)크기의 공분산 행렬이 아닌 크기 의 …

1
sklearn의 분류 보고서에서 숫자는 무엇을 의미합니까?
sklearn의 sklearn.metrics.classification_report 문서에서 가져온 예가 아래에 있습니다. 내가 이해하지 못하는 것은 클래스가 예측 변수라고 생각되는 각 클래스에 대해 f1 점수, 정밀도 및 리콜 값이있는 이유입니다. f1 점수는 모델의 전체 정확도를 나타냅니다. 또한 지원란에서 무엇을 알려줍니까? 나는 그것에 관한 정보를 찾을 수 없었다. print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class …

2
glm을 실행할 때 오류“시스템이 계산적으로 특이하다”
glm 추정을 실행하기 위해 튼튼베이스 패키지를 사용하고 있습니다. 그러나 그렇게하면 다음과 같은 오류가 발생합니다. Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 이것은 무엇을 의미 / 표시합니까? 어떻게 디버깅 할 수 있습니까? 추신. 답을 구하기 위해 무언가 (공식 / 사양 또는 …

3
더 정확한 분류기보다 정확도가 낮은 분류기에서 AUC가 더 높은 이유는 무엇입니까?
두 개의 분류 기가 있습니다 A : 순진한 베이지안 네트워크 B : 트리 (단일 연결) 베이지안 네트워크 정확성 및 기타 측정 측면에서 A는 B보다 상대적으로 성능이 좋지 않지만 R 패키지 ROCR 및 AUC를 사용하여 ROC 분석을 수행하면 A의 AUC가 B의 AUC보다 높은 것으로 나타났습니다. 사고? 진 양성 (tp), 위양성 (fp), …

4
분포의 불균일성을 어떻게 측정합니까?
내가 실행중인 실험에 대한 분포의 불균일성을 측정하기위한 메트릭을 만들려고합니다. 나는 대부분의 경우 균일하게 분포되어야하는 임의의 변수를 가지고 있으며 변수가 어느 정도의 범위 내에서 균일하게 분포되어 있지 않은 데이터 세트의 예를 식별하고 가능한 정도를 측정하고 싶습니다. 내가 측정하고있는 것의 발생 빈도를 나타내는 10 개의 측정치가있는 각각 3 개의 데이터 시리즈의 예는 …

2
Statistics.com이 잘못된 답변을 게시 했습니까?
Statistics.com은 이번 주 문제를 발표했습니다. 주택 보험 사기 율은 10 %입니다 (10 건 중 하나는 사기 임). 컨설턴트는 클레임을 검토하고 사기 또는 사기가 아닌 것으로 분류 할 수있는 기계 학습 시스템을 제안했습니다. 이 시스템은 사기 클레임을 감지하는 데 90 % 효과적이지만 사기가 아닌 클레임을 올바르게 분류하는 데 80 % 만 …

4
외삽 vs. 보간
외삽 법과 내삽 법의 차이점은 무엇이며 이러한 용어를 사용하는 가장 정확한 방법은 무엇입니까? 예를 들어, 보간법을 사용하여 논문에서 다음과 같은 진술을 보았습니다. "이 절차는 빈 지점 사이에서 추정 된 함수의 모양을 보간합니다" 외삽 법과 보간법을 모두 사용하는 문장은 다음과 같습니다. 이전 단계에서는 Kernel 방법을 사용하여 보간 함수를 왼쪽 및 오른쪽 …

3
두 표준이 공통 표준 편차의 두 배 이상 차이가 나면 정규 분포 변수 두 개가 왜 이봉만 혼합됩니까?
두 정규 분포의 혼합에서 : https://ko.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions "정규 분포가 두 개인 혼합은 추정 할 매개 변수가 다섯 개입니다. 두 가지 평균, 두 가지 분산 및 혼합 모수. 동일한 표준 편차를 갖는 두 개의 정규 분포의 혼합은 평균 표준 편차의 두 배 이상 차이가 나는 경우에만 양봉입니다. " 왜 이것이 사실인지에 대한 …
28 bimodal 

1
순서 또는 이진 데이터에 대한 요인 분석 또는 PCA가 있습니까?
주요 성분 분석 (PCA), 탐색 적 요인 분석 (EFA) 및 확인 적 요인 분석 (CFA)을 완료하여 리 커트 척도 (5 단계 응답 : 없음, 약간, 약간, ..)로 데이터를 연속으로 처리했습니다. 변하기 쉬운. 그런 다음 Lavaan을 사용하여 변수를 범주 형으로 정의하는 CFA를 반복했습니다. 데이터가 본질적인 경우 어떤 유형의 분석이 적합하고 PCA …

2
SVM 알고리즘의 기본 통계 모델은 무엇입니까?
모델 기반 접근 방식을 사용하여 데이터를 처리 할 때 첫 번째 단계는 데이터 모델을 통계 모델로 모델링하는 것입니다. 다음 단계는이 통계 모델을 기반으로 효율적 / 빠른 추론 / 학습 알고리즘을 개발하는 것입니다. 그래서 어떤 통계 모델이 SVM (Support Vector Machine) 알고리즘 뒤에 있는지 묻고 싶습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.