«outliers» 태그된 질문

특이 치는 데이터 세트의 간단한 특성화와 관련하여 비정상적이거나 잘 설명되지 않은 것으로 보입니다. 불쾌한 가능성은 이러한 데이터가 연구 대상이 아닌 다른 인구에서 온 것일 수 있습니다.

5
데이터 정리가 통계 분석 결과를 악화시킬 수 있습니까?
바이러스 순환 (2002 년 미국 웨스트 나일 바이러스와 같은) 또는 사람의 저항 감소 또는 음식이나 물의 오염 또는 모기. 이러한 전염병은 1 ~ 5 년마다 발생할 수있는 이상치로 나타납니다. 이러한 특이 치를 제거함으로써 예측 및 질병 이해의 중요한 부분을 형성하는 전염병의 증거를 제거합니다. 전염병으로 인한 특이 치를 처리하는 동안 데이터 …

1
이상치 탐지를위한 강력한 PCA 및 강력한 Mahalanobis 거리
강력한 PCA ( Candes et al 2009 또는 Netrepalli et al 2014에서 개발 한 )는 다변량 이상치 탐지에 널리 사용되는 방법 이지만 , 공분산 행렬의 강력하고 규칙적인 추정을 통해 Mahalanobis 거리를 이상치 탐지에도 사용할 수 있습니다 . 한 방법을 다른 방법으로 사용하는 것의 장점에 대해 궁금합니다. 내 직감에 따르면 둘 …


3
재무 시계열에서 강력한 이상치 탐지
재무 시계열 데이터 (예 : tickdata)에서 특이 치 및 오류 (원인이 무엇이든)를 제거 할 수있는 강력한 기술을 찾고 있습니다. 틱별로 금융 시계열 데이터는 매우 지저분합니다. 교환이 닫히면 엄청난 시간 간격이 생기고 교환이 다시 열리면 크게 점프합니다. 거래소가 열리면 모든 종류의 요소가 잘못되었거나 발생하지 않은 가격 수준 또는 시장을 대표하지 않는 …

5
회귀 모형을 개선하기 위해 평균 절대 오차의 상자 그림을 기반으로 특이 치를 제거하는 것이 부정입니까?
아래 상자 그림에서 볼 수 있듯이 네 가지 방법으로 테스트 한 예측 모델이 있습니다. 모델이 예측하는 속성의 범위는 0-8입니다. 당신은이 있음을 알 수 있습니다 하나의 상한선 이상치 와 세 하한 이상치 모든 방법으로 지적했다. 데이터에서 이러한 인스턴스를 제거하는 것이 적절한 지 궁금합니다. 아니면 예측 모델을 개선하기 위해 일종의 부정 행위입니까?

2
영향력있는 지점, 높은 레버리지 지점 및 특이점 간의 정확한 의미와 비교
위키 백과에서 영향력있는 관측치 는 회귀 모형의 예측에 상대적으로 큰 영향을주는 관측치입니다. 위키 백과에서 레버리지 포인트 는 독립적 인 변수의 극한 또는 외부 값에서 수행 된 관측 값으로, 주변 관측치가 부족하면 적합 회귀 모형이 해당 특정 관측치에 가깝게 통과 함을 의미합니다. Wikipedia 에서 다음과 같은 비교 를 하는 이유 있지만 …

2
정규 분포의 모수 추정 : 평균이 아닌 중앙값?
정규 분포의 모수를 추정하는 일반적인 방법은 평균 및 표본 표준 편차 / 분산을 사용하는 것입니다. 그러나 일부 특이 치가있는 경우 중앙값과 중앙값의 중앙값 편차가 훨씬 강력해야합니다. 내가 시도한 일부 데이터 세트에서 의해 추정 된 정규 분포 는 많은 양을 생성하는 것으로 보입니다 평균 및 RMS 편차를 사용 하는 기존의 보다 …

3
강력한 평균 추정의 충돌 과정
나는 (1000 정도의) 추정치가 많으며 모두 장기 탄력성의 추정치입니다. 이 중 절반 이상이 방법 A를 사용하고 나머지는 방법 B를 사용하여 추정됩니다. 어딘가에서 "방법 B 가 방법 A와 매우 다른 것으로 추정합니다. 추정치가 훨씬 높기 때문에 (50-60 %) ". 강력한 통계에 대한 나의 지식은 아무것도 아닙니다. 그래서 나는 두 표본의 표본 …

3
다항 회귀 분석의 신뢰 구간 이해
아래 그래프에 표시된 결과를 이해하려고합니다. 일반적으로 Excel을 사용하고 선형 회귀선을 얻는 경향이 있지만 아래의 경우 R을 사용하고 다음 명령으로 다항식 회귀를 얻습니다. ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() 그래서 내 질문은 이것으로 요약됩니다. 파란색 회귀선 주위의 회색 영역 (화살표 # 1)은 무엇입니까? 다항식 회귀 분석의 표준 편차입니까? 회색 영역 (화살표 …

5
특이 치를 탐지하는 간단한 방법이 있습니까?
특이 치를 탐지하는 간단한 방법이 있는지 궁금합니다. 기본적으로 응답자가 일주일 동안 신체 활동에 참여한 횟수와 일주일 동안 집 밖에서 먹는 횟수 (패스트 푸드) 사이의 상관 관계인 내 프로젝트 중 하나에 대해, 나는 산점도를 그렸습니다. 극단적 인 데이터 포인트. 산점도는 음의 상관 관계를 나타 냈습니다. 이는 가치 판단 (이러한 데이터 요소가 …

1
“RMSE의 2.5 배”를 기준으로 특이 치 제거
에서 얼 카너먼과 Deaton (2010) , 저자는 다음과 같은 쓰기 :††^\dagger 이 회귀 분석에서는 분산의 37 %를 설명하고 RMSE (root mean square error)는 0.67852입니다. 특이 치와 믿기 어려운 소득 보고서를 제거하기 위해 로그 소득과 예측 차이의 절대 값이 RMSE의 2.5 배를 초과 한 관측치를 삭제했습니다. 이것이 일반적인 관행입니까? 그렇게하는 직관은 …


2
데이터를 대치하거나 주변 데이터를 찾는 데 인접 정보 사용 (R)
가장 가까운 이웃이 가장 좋은 예측 변수라는 가정하에 데이터 세트가 있습니다. 양방향 그래디언트의 완벽한 예 값이 거의없는 경우가 있다고 가정하고 이웃과 추세를 기반으로 쉽게 예측할 수 있습니다. R의 해당 데이터 매트릭스 (운동의 더미 예) : miss.mat <- matrix (c(5:11, 6:10, NA,12, 7:13, 8:14, 9:12, NA, 14:15, 10:16),ncol=7, byrow = TRUE) …

1
올가미에 대한 LARS 대 좌표 하강
L1 정규 선형 회귀 피팅에 LARS [1] 사용과 좌표 하강 사용의 장단점은 무엇입니까? 나는 주로 퍼포먼스 측면에 관심이있다 (내 문제는 N수십만에서 p20 이하인 경향이있다 ). 그러나 다른 통찰력도 인정 될 것이다. 편집 : 내가 질문을 게시 한 후 chl은 Friedman 등의 논문 [2]에 좌표 하강이 다른 방법보다 상당히 빠른 것으로 …

4
표본에서 두 모집단 분리
단일 데이터 세트에서 두 개의 값 그룹을 분리하려고합니다. 모집단 중 하나가 정규 분포이고 표본 크기의 절반 이상이라고 가정 할 수 있습니다. 두 번째 값은 첫 번째 값보다 낮거나 높습니다 (배포를 알 수 없음). 내가하려는 것은 정상적으로 분포 된 인구를 다른 사람들과 묶는 상한과 하한을 찾는 것입니다. 내 가정은 시작점을 제공합니다. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.