통계 및 빅 데이터 outliers

4

내 질문에 따라 여기 , 내가 또는 아웃 라이어를 감지하는 표준 편차의 사용에 대한 강력한 견해가 있는지 궁금 (예를 들어 2 개 이상의 표준 편차가 특이하다 모든 데이터 포인트를). 나는 이것이 연구의 맥락에 의존한다는 것을 알고있다. 예를 들어, 48kg의 데이터 포인트는 확실히 아기의 체중에 대한 연구에서 특이하지만 성인의 체중에 대한 …

27 outliers

1

PCA가 특이 치에 민감한 이유는 무엇입니까?

이 SE에는 PCA (Principal Component Analysis)에 대한 강력한 접근 방식을 다루는 게시물이 많이 있지만 PCA가 왜 특이 치에 민감한 지에 대한 좋은 설명은 찾을 수 없습니다 .

26 machine-learning pca outliers

4

RANSAC이 통계에서 가장 널리 사용되지 않는 이유는 무엇입니까?

컴퓨터 비전 분야에서 나온 저는 종종 RANSAC (Random Sample Consensus) 방법을 사용하여 많은 특이 치가있는 데이터에 모델을 적합 시켰습니다. 그러나 나는 통계 학자들이 사용하는 것을 본 적이 없으며, "통계적으로 건전한"방법으로 간주되지 않았다는 인상을 항상 받았다. 왜 이렇게이다? 본질적으로 무작위이므로 분석하기가 어렵지만 부트 스트랩 방법도 마찬가지입니다. 아니면 단순히 학문적 사일로가 서로 …

26 outliers bootstrap robust

3

시계열 기반 이상 탐지 알고리즘에 웨이블릿 적용

앤드류 무어 ( Andrew Moore)의 통계 데이터 마이닝 튜토리얼을 통해 작업을 시작했습니다 . 무어가 질병 발생을 탐지하는 알고리즘을 만드는 데 사용 된 많은 기술을 통해 추적하는 "시간 시리즈 기반 이상 탐지 알고리즘에 대한 입문 개요"라는 제목 의이 매우 흥미로운 PDF 를 읽었습니다 . 슬라이드의 중간 쯤에, 27 페이지에는 바이러스 확산을 …

25 time-series outliers signal-processing wavelet

3

치우친 분포에 대한 이상치 탐지

데이터 점으로서의 특이점에 대한 고전적인 정의에서 상하 사 분위의 1.5 * IQR을 능가하는 경우 비대칭 분포가 가정됩니다. 기울어 진 분포 (지수, 포아송, 기하 등)의 경우 원래 함수의 변환을 분석하여 특이 치를 탐지하는 가장 좋은 방법은 무엇입니까? 예를 들어 지수 분포가 느슨하게 분포 된 분포는 로그 함수로 변환 할 수 있습니다.이 …

24 distributions outliers skewness exponential interquartile

2

선형 회귀 진단을 어떤 순서로 수행해야합니까?

선형 회귀 분석에서 특이 치를 분석하고 다중 공선 성을 조사하며 이분산성을 테스트합니다. 문제는 이것들을 적용하는 명령이 있습니까? 먼저 특이 치를 먼저 분석 한 다음 다중 공선 성을 조사해야합니까? 아니면 반대로? 이것에 대한 경험 규칙이 있습니까?

24 regression multiple-regression outliers

2

관측 수준 Mahalanobis 거리의 분포

다변량 정규 iid 샘플 가 있고 ( 가중치에 대한 행렬 를 사용하여 샘플 포인트에서 벡터 까지의 마할 라 노비스 거리 [제곱]의 일종 ), 의 분포 는 표본 공분산 행렬 사용하여 표본 평균 )?d 2 i ( b , A ) = ( X i - b ) ' A - …

23 multivariate-analysis outliers

4

다중 회귀 분석을 수행 할 때 통계 소프트웨어에서 특이 치로 플래그가 지정된 사례를 삭제할지 여부

다중 회귀 분석을 수행 중이며 데이터의 특이 값을 삭제할지 확실하지 않습니다. 내가 걱정하는 데이터는 SPSS 상자 그림에서 "원"으로 표시되지만 별표는 없습니다 (그들이 '나쁘지 않다'고 생각하게 만듭니다). 우려되는 사례는 출력의 "casewise diagnostics"표 아래에 표시되므로 이러한 사례를 삭제해야합니까?

23 regression outliers

1

카운트 데이터에서 특이 값 탐지

나는 여러 가지 카운트 데이터 세트에 대한 이상치 탐지와 관련하여 상당히 직설적 인 문제라고 생각했습니다. 특히, 일련의 카운트 데이터에서 하나 이상의 값이 분포의 나머지 카운트에 비해 예상보다 높거나 낮은 지 확인하고 싶습니다. 혼란스러운 요소는 3,500 개의 분포에 대해이 작업을 수행해야하며 일부는 0으로 과도하게 분산 된 포아송에 적합하고 다른 일부는 음 …

21 outliers count-data fitting

3

상자 그림에서 왜도를 평가하는 방법?

이 데이터로 작성된 상자 그림을보고 왜도를 결정하는 방법 : 340, 300, 520, 340, 320, 290, 260, 330 한 책은 "하위 사 분위수가 위 사 분위수보다 중앙값에서 더 멀면 분포가 부정적으로 왜곡된다"고 말합니다. 다른 여러 출처는 거의 동일하다고 말했다. R을 사용하여 상자 그림을 만들었습니다. 다음과 같습니다. 나는 그것의 것을 가지고 부정적으로 …

19 outliers skewness boxplot

2

부트 스트랩-특이 치를 먼저 제거해야합니까?

우리는 새로운 제품 기능에 대한 분할 테스트를 실행했으며 수익 향상이 중요한지 측정하려고합니다. 우리의 관찰은 확실히 정상적으로 배포되지 않습니다 (대부분의 사용자는 지출하지 않으며, 그 범위 내에서 많은 소규모 지출 자와 약간의 지출로 크게 왜곡됩니다). 우리는 부트 스트랩을 사용하여 평균을 분배하지 않는 데이터 문제를 해결하기 위해 수단을 비교하기로 결정했습니다 (질문 : 부트 …

19 bootstrap outliers

2

더미 기능 (및 기타 이산 / 범주 기능)을 통한 이상 탐지

tl; dr discrete이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? categorical이상 감지를 수행 할 때 데이터 를 처리하는 권장 방법은 무엇입니까 ? 이 답변 은 개별 데이터를 사용하여 결과를 필터링하는 것이 좋습니다. 아마도 범주 값을 perctage 관찰 가능성으로 대체 하시겠습니까? 소개 이것은 처음으로 여기에 게시되므로 형식이나 …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

4

특이 치의 Box and Whisker Plot 정의의 기초는 무엇입니까?

Box and Whisker 그림에 대한 특이 표준 정의는 범위를 벗어난 점입니다. 여기서 및 은 첫 번째 사 분위수 및 데이터의 3 분위입니다.{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 이 정의의 기초는 무엇입니까? 점이 많으면 완전 정규 분포라도 특이 치를 반환합니다. 예를 들어 시퀀스로 시작한다고 가정합니다. xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) 이 시퀀스는 4000 포인트의 백분위 수 …

17 outliers normality-assumption qq-plot boxplot

1

특이 치를 드러내 기 위해 평균과 표준 편차를 하나만 남겨 둘 수 있습니까?

정규적으로 데이터를 분산했다고 가정합니다. 데이터의 각 요소에 대해 평균에서 얼마나 많은 SD가 있는지 확인하고 싶습니다. 데이터에 특이 치가있을 수 있지만 (하나만 가능하지만 2 ~ 3 일 수도 있음),이 특이 치는 기본적으로 내가 찾고있는 것입니다. 현재보고있는 요소를 평균 및 SD 계산에서 일시적으로 제외하는 것이 합리적입니까? 내 생각은 그것이 평균에 가까워지면 아무런 …

17 cross-validation standard-deviation mean outliers

3

특이한 특이 치를 가진 상자 그림을 제시하는 방법은 무엇입니까?

일부 데이터를 제시하는 데 대한 지침을 사용할 수 있습니다. 이 첫 번째 줄거리는 사이토 카인 IL-10에 대한 사례-대조 비교입니다. 99 %의 데이터를 포함하도록 y 축을 수동으로 설정했습니다. 내가 수동으로 설정 한 이유는 사례 그룹에 특이 치가 있기 때문입니다. 내 공동 작업자는 데이터 세트에서 이상치 제거를 수행하는 것을 주저합니다. 나는 괜찮지 …

17 r data-visualization outliers boxplot presentation

«outliers» 태그된 질문