«model-evaluation» 태그된 질문

모형을 평가할 때 표본 내 또는 표본 외.

7
분류 모델을 평가할 때 정확도가 가장 좋은 측정 방법이 아닌 이유는 무엇입니까?
이것은 여기서 여러 번 간접적으로 묻는 일반적인 질문이지만 단일 정식 답변이 없습니다. 참조를 위해 이에 대한 자세한 답변을 얻는 것이 좋습니다. 모든 분류 중에서 올바른 분류의 비율 인 정확도 는 매우 간단하고 매우 "직관적 인"측정이지만 불균형 데이터에 대한 측정 은 좋지 않을 수 있습니다 . 왜 직관이 우리를 잘못 인도하고이 …

7
수많은 기능 (> 10K)을위한 최고의 PCA 알고리즘?
이전에 StackOverflow에서 이것을 요청했지만 SO에 대한 답변을 얻지 못한 경우 여기에서 더 적절할 것 같습니다. 통계와 프로그래밍의 교차점에 있습니다. PCA (Principal Component Analysis)를 수행하려면 코드를 작성해야합니다. 나는 잘 알려진 알고리즘을 탐색 하고이 알고리즘을 구현 했는데 NIPALS 알고리즘과 동일합니다. 처음 2-3 개의 주요 구성 요소를 찾는 데 효과적이지만 수백에서 수천 번 …

5
랜덤 포레스트 알고리즘의 최적화 된 구현
ALGLIB, Waffles 및와 같은 R 패키지와 같은 임의의 포리스트가 구현되어 있음을 알았습니다 randomForest. 이 라이브러리가 고도로 최적화되어 있는지 아는 사람이 있습니까? 통계 학습의 요소에 자세히 설명 된대로 기본적으로 임의의 포리스트와 동등 합니까? 아니면 많은 추가 트릭이 추가 되었습니까? 이 질문이 충분히 구체적이기를 바랍니다. 내가 찾고있는 답변 유형의 삽화로 누군가 선형 …

3
클러스터링 방법을 선택하는 방법은 무엇입니까? 방법 선택을 보장하기 위해 클러스터 솔루션의 유효성을 검사하는 방법은 무엇입니까?
군집 분석의 가장 큰 문제 중 하나는 사용 된 다른 군집 방법 (계층 군집의 다른 연결 방법 포함)을 기반으로 다른 결론을 도출해야 할 수도 있다는 것 입니다. 이 방법 에 대한 귀하의 의견을 알고 싶습니다- 어떤 방법을 선택하고 어떻게 해야합니까 ? "클러스터링의 가장 좋은 방법은 정답을 제공하는 것입니다."라고 말할 수 …

1
교차 검증 오용 (최고 하이퍼 파라미터 값에 대한 성능보고)
최근 에는 특정 데이터 세트에서 k-NN 분류기를 사용하도록 제안하는 논문을 보았습니다 . 저자는 사용 가능한 모든 데이터 샘플을 사용하여 서로 다른 k 값 에 대해 k- 폴드 교차 검증을 수행 하고 최상의 하이퍼 파라미터 구성의 교차 검증 결과를보고했습니다. 내 지식으로는이 결과는 편향되어 있으며 하이퍼 파라미터 최적화를 수행하는 데 사용되지 않은 …

3
Hosmer-Lemeshow 적합도의 로지스틱 회귀 및 해석 평가
우리 모두 알고 있듯이 로지스틱 회귀 모델을 평가하는 두 가지 방법이 있으며 매우 다른 것들을 테스트하고 있습니다. 예측력 : 독립 변수를 기반으로 종속 변수를 얼마나 잘 예측할 수 있는지 측정하는 통계량을 얻으십시오. 잘 알려진 Pseudo R ^ 2는 McFadden (1974)과 Cox and Snell (1989)입니다. 적합도 통계 이 테스트는 모델을 더 …

3
불균형이 높은 데이터에 대한 분류 / 평가 지표
사기 감지 (신용 채점) 문제를 처리합니다. 따라서 사기와 비 사기 관찰 사이에는 불균형 관계가 있습니다. http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.html 은 다양한 분류 지표에 대한 훌륭한 개요를 제공합니다. Precision and Recall또는 kappa둘 다 좋은 선택 인 것 같습니다. 이러한 분류기의 결과를 정당화하는 한 가지 방법은 결과를 기준 분류기의 결과와 비교하고 결과가 무작위 확률 예측보다 …



1
ROC 곡선이 서로 교차 할 때 두 모델 비교
둘 이상의 분류 모델을 비교하는 데 사용되는 일반적인 방법 중 하나는 ROC 곡선 (AUC) 아래 면적을 성능을 간접적으로 평가하는 방법으로 사용하는 것입니다. 이 경우 AUC가 큰 모델은 일반적으로 AUC가 작은 모델보다 성능이 우수한 것으로 해석됩니다. 그러나 Vihinen, 2012 ( https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3303716/ )에 따르면 두 곡선이 서로 교차하면 이러한 비교는 더 이상 …

2
phi, Matthews 및 Pearson 상관 계수의 관계
phi와 Matthews 상관 계수는 동일한 개념입니까? 두 이진 변수에 대한 Pearson 상관 계수와 어떻게 관련이 있습니까? 이진 값이 0과 1이라고 가정합니다. 두 Bernoulli 랜덤 변수 와 간의 Pearson 상관 관계 는 다음 과 같습니다.y엑스xx와이yy ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]−−−−−−−−−−√=E[xy]−E[x]E[y]Var[x]Var[y]−−−−−−−−−−√=n11n−n1∙n∙1n0∙n1∙n∙0n∙1−−−−−−−−−−√ρ=E[(x−E[x])(y−E[y])]Var[x]Var[y]=E[xy]−E[x]E[y]Var[x]Var[y]=n11n−n1∙n∙1n0∙n1∙n∙0n∙1 \rho = \frac{\mathbb{E} [(x - \mathbb{E}[x])(y - \mathbb{E}[y])]} {\sqrt{\text{Var}[x] \, \text{Var}[y]}} = \frac{\mathbb{E} [xy] - …

3
홀드 아웃 방법 (데이터를 교육 및 테스트로 분할)이 기존 통계에 사용되지 않는 이유는 무엇입니까?
교실에서 데이터 마이닝에 노출 할 때 모델 성능을 평가하는 방법으로 홀드 아웃 방법이 도입되었습니다. 그러나 선형 모델에서 첫 수업을 들었을 때 이것은 모델 검증 또는 평가의 수단으로 소개되지 않았습니다. 저의 온라인 조사에서도 교차점이 보이지 않습니다. 고전 통계에서 홀드 아웃 방법이 사용되지 않는 이유는 무엇입니까?

1
Fisher의 정확한 테스트 및 초기 하 분포
피셔의 정확한 테스트를 더 잘 이해하고 싶기 때문에 f와 m이 남성과 여성에 해당하고 n과 y가 "소다 소비"에 해당하는 다음 장난감 예제를 고안했습니다. > soda_gender f m n 0 5 y 5 0 분명히 이것은 과감한 단순화이지만 컨텍스트가 방해되는 것을 원하지 않았습니다. 여기서 나는 남자들이 음료수를 마시지 않고 여자들은 음료수를 마시고 …



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.