«outliers» 태그된 질문

특이 치는 데이터 세트의 간단한 특성화와 관련하여 비정상적이거나 잘 설명되지 않은 것으로 보입니다. 불쾌한 가능성은 이러한 데이터가 연구 대상이 아닌 다른 인구에서 온 것일 수 있습니다.

5
시계열 데이터 예측에 대해 탐지 된 특이 치를 수정하는 방법은 무엇입니까?
시계열 데이터에서 이상 값을 찾거나 감지하면 이상 값을 수정하는 방법을 찾으려고합니다. R의 nnetar와 같은 일부 방법은 이상 치가 큰 시계열에 대해 약간의 오류를 발생시킵니다. 이미 결 측값을 수정했지만 이상 치가 여전히 내 예측을 손상시키고 있습니다 ...

2
이상 감지 : 어떤 알고리즘을 사용해야합니까?
컨텍스트 : 임상 데이터를 분석하여 오타가 될 수없는 데이터를 필터링하는 시스템을 개발 중입니다. 내가 지금까지 한 일 : 타당성을 정량화하기 위해 지금까지의 시도는 데이터를 정규화 한 다음 세트 D에서 알려진 데이터 포인트까지의 거리를 기준으로 포인트 p에 대한 타당성 값을 계산하는 것입니다 (= 훈련 세트). 타당성 ( p ) = ∑큐∈ …

1
ARIMA 모델의 관측치 48에서 혁신적인 특이 치를 어떻게 통합합니까?
데이터 세트를 작업 중입니다. 일부 모델 식별 기술을 사용한 후 ARIMA (0,2,1) 모델을 만들었습니다. R detectIO의 패키지 TSA에 있는 함수를 사용하여 48 번째 원본 데이터 세트에서 혁신적인 이상치 (IO) 를 감지했습니다 . 이 특이 치를 내 모델에 어떻게 통합하여 예측 목적으로 사용할 수 있습니까? R에서 예측할 수 없기 때문에 ARIMAX …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
균일 한 대 비 균일 빈을 가진 히스토그램
이 질문 은 균일 한 히스토그램과 비 균일 히스토그램의 기본적인 차이점을 설명합니다. 그리고이 질문 은 어떤 의미에서 히스토그램이 데이터 샘플이 추출 된 분포를 나타내는 정도를 최적화하는 균일 히스토그램의 빈 수를 선택하는 경험 법칙에 대해 설명합니다. 균일하지 않은 히스토그램과 균일하지 않은 히스토그램에 대해 같은 종류의 "최적"토론을 찾을 수 없습니다. 멀리있는 특이 …

2
영향력있는 잔차 대 특이 치
먼저이 사이트에서 답변을 검색했다고 진술해야합니다. 내 질문에 대답 한 질문을 찾지 못했거나 지식 수준이 너무 낮아서 이미 답변을 읽은 것을 몰랐습니다. AP 통계 시험을 준비 중입니다. 선형 회귀를 배워야하며 주제 중 하나는 잔차입니다. 253 페이지의 통계 및 데이터 분석 소개 사본이 있습니다. 이변 량 데이터 세트의 특이점은 산점도의 다른 점 …

4
온라인 이상치 탐지
처리량이 많은 이미징 파이프 라인의 일부로 결함이있는 이미지 및 / 또는 결함이있는 세그먼트를 감지하기 위해 자동으로 분할 된 현미경 이미지를 처리하고 싶습니다. 각 원시 이미지 및 분할에 대해 계산할 수 있고 이미지에 결함이있을 때 "극단적"이되는 많은 매개 변수가 있습니다. 예를 들어, 이미지의 거품은 감지 된 "셀"중 하나의 막대한 크기 또는 …
10 outliers  online 

1
특이 치와 특이 치의 차이
나는 LOF 측정 (Local Outlier Factor)에서 inlier 라는 용어를 우연히 발견했으며, 이상치 용어 (잘 기본적으로 liers-나머지 인스턴스로 작동하지 않는 인스턴스)에 익숙합니다. 이상 감지의 맥락에서 '이너'는 무엇을 의미합니까? 그리고 어떻게 특이 치와 관련이 있습니까?

2
tsoutliers package 및 auto.arima를 사용하여 해석하고 예측하는 방법
1993 년부터 2015 년까지 월간 데이터를 얻었으며이 데이터에 대한 예측을하고 싶습니다. tsoutliers 패키지를 사용하여 특이 치를 감지했지만 내 데이터 세트로 어떻게 계속 예측하는지 모릅니다. 이것은 내 코드입니다. product.outlier<-tso(product,types=c("AO","LS","TC")) plot(product.outlier) 이것은 tsoutliers 패키지의 내 출력입니다. ARIMA(0,1,0)(0,0,1)[12] Coefficients: sma1 LS46 LS51 LS61 TC133 LS181 AO183 AO184 LS185 TC186 TC193 TC200 0.1700 0.4316 …

2
모델 구축 프로세스가 대화식 일 때의 백 테스트 또는 교차 검증
백 테스트를 수행하려는 성능의 예측 모델이 있습니다 (예 : 데이터 세트를 가져 와서 이전 시점으로 "되감기"하고 모델의 예상 성능을 확인하십시오). 문제는 내 모델 중 일부가 대화식 프로세스를 통해 빌드되었다는 것입니다. 예를 들어 Frank Harrell의 Regression Modeling Strategies 의 조언에 따라 한 모델에서 제한된 입방 스플라인을 사용하여 피처와 응답 간의 비선형 …

1
LOF (Local Outlier Factor) 탐지 분석을위한 k- 값 선택
3 차원 데이터 세트가 있으며 가장 특이하거나 이상한 값을 식별하기 위해 Local Outlier Factor 분석을 사용하려고합니다. LOF 분석에 사용할 k- 값을 어떻게 결정합니까? k- 값이 무엇을 결정하는지 이해하므로 다른 k를 사용하여 약간 다른 결과를보고 있다는 사실에 놀라지 않습니다. . 감사!

6
이상 감지를위한 기능 준비 / 구성 방법 (네트워크 보안 데이터)
저의 목표는 침입 탐지 목적으로 클러스터링 / 변칙 탐지를 사용하여 네트워크 로그 (예 : Apache, syslog, Active Directory 보안 감사 등)를 분석하는 것입니다. 로그에는 IP 주소, 사용자 이름, 호스트 이름, 대상 포트, 소스 포트 등과 같은 많은 텍스트 필드가 있습니다 (총 15-20 필드). 로그에 몇 가지 공격이 있는지 알지 못하고 …

2
트리밍 평균 대 중앙값
응급 서비스에 대한 모든 전화와 구급차 부서의 응답 시간이 포함 된 데이터 세트가 있습니다. 그들은 녹음을 시작하지 않았거나 (값이 0), 시계를 멈추지 않은 경우 (값이 매우 높을 수 있음) 응답 시간에 약간의 실수가 있음을 인정했습니다. 나는 중심 경향을 알고 싶어하고 이상 값을 제거하기 위해 중간 또는 트림 된 평균을 사용하는 …


1
쿡의 거리 차단 값
나는 회귀에 큰 영향을 미치는 특이 치를 식별하기 위해 요리사의 거리를 읽었습니다. Cook의 원래 연구에서 그는 컷오프 비율 1이 영향 요인을 식별하는 데 필적 할 것이라고 말합니다. 그러나 다양한 다른 연구에서4엔4n\frac{4}{n} 또는 4n - k - 14n−k−1\frac{4}{n-k-1} 컷오프로. 내 연구에서 내 잔차 중 D가 1보다 높은 것은 없습니다. 4엔4n\frac{4}{n} 컷오프로 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.