«outliers» 태그된 질문

특이 치는 데이터 세트의 간단한 특성화와 관련하여 비정상적이거나 잘 설명되지 않은 것으로 보입니다. 불쾌한 가능성은 이러한 데이터가 연구 대상이 아닌 다른 인구에서 온 것일 수 있습니다.

13
다변량 데이터에서 특이 치를 식별하는 가장 좋은 방법은 무엇입니까?
적어도 세 개의 변수를 가진 큰 다변량 데이터 세트가 있다고 가정하십시오. 특이 치를 어떻게 찾을 수 있습니까? 쌍 차원 산점도는 2 차원 부분 공간에서 특이 치가 아닌 3 차원에 특이 치가 존재할 수 있으므로 작동하지 않습니다. 회귀 문제가 아니라 실제 다변량 데이터에 대해 생각하고 있습니다. 따라서 강력한 회귀 또는 컴퓨팅 …

6
필수 데이터 검사 테스트
내 직무에서 나는 종종 다른 사람들의 데이터 세트와 함께 일하고 비전문가들은 임상 데이터를 가져 와서 요약하고 통계 테스트를 수행하도록 도와줍니다. 내가 가지고있는 문제는 가져온 데이터 세트가 거의 항상 오타, 불일치 및 기타 모든 종류의 문제로 가득 차 있다는 것입니다. 다른 사람들이 들어오는 데이터 세트를 확인하려고하는 표준 테스트가 있는지 알고 싶습니다. …

1
plot.lm () 해석
R에서 plot (lm)에 의해 생성 된 그래프를 해석하는 것에 대한 질문이 있습니다. 스케일 위치 및 레버리지 잔류 플롯을 해석하는 방법을 알려주시겠습니까? 모든 의견을 부탁드립니다. 통계, 회귀 및 계량 경제학에 대한 기본 지식을 가정합니다.

14
일반 시계열의 온라인 이상 값 탐지를위한 간단한 알고리즘
많은 시계열로 작업하고 있습니다. 이 시계열은 기본적으로 10 분마다 오는 네트워크 측정이며, 일부는 주기적 (예 : 대역폭)이고 다른 일부는 그렇지 않습니다 (예 : 라우팅 트래픽의 양). 온라인 "이상 점 탐지"를위한 간단한 알고리즘을 원합니다. 기본적으로 각 시계열에 대한 전체 기록 데이터를 메모리 (또는 디스크)에 유지하고 라이브 시나리오에서 새 이상 치를 캡처하려고합니다 …

14
왜 견고하고 저항력있는 통계가 고전 기술을 대체하지 않았습니까?
데이터를 사용하여 비즈니스 문제를 해결할 때 고전 통계를 과소 평가하는 최소한 하나의 주요 가정이 유효하지 않은 것이 일반적입니다. 대부분의 경우 아무도 그러한 가정을 확인하지 않아도되므로 실제로 알 수 없습니다. 예를 들어, 많은 일반 웹 메트릭이 "정규 분포"에 비해 "긴 꼬리"라는 사실은 당연히 문서화되어 당연한 것으로 간주됩니다. 또 다른 예를 들자면, …

3
예 : 이진 결과에 glmnet을 사용하는 LASSO 회귀
관심있는 결과가 이분법 인 LASSO Regressionglmnet 과 함께 사용하기 시작했습니다 . 아래에 작은 모의 데이터 프레임을 만들었습니다. age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

9
선형 회귀 분석에서 특이 치를 어떻게 처리해야합니까?
종종 통계 분석가에게 세트 데이터 세트를 전달하고 선형 회귀와 같은 기술을 사용하여 모델에 적합하도록 요청합니다. 매우 자주 데이터 세트에 "아, 예, 우리는 이러한 데이터 포인트 중 일부를 수집하는 것을 엉망으로 만들었습니다. 이 상황은 잘못된 데이터 일 수있는 특이 치의 존재에 의해 크게 영향을받는 회귀 적합을 초래합니다. 다음과 같이 주어진다 : …

8
기존 변수와 정의 된 상관 관계를 갖는 랜덤 변수 생성
시뮬레이션 연구를 위해 기존 변수 와의 미리 정의 된 (인구) 상관 관계를 나타내는 임의의 변수를 생성해야합니다 .YYY I는 들여다 R패키지 copula와 CDVine소정 의존성 구조 랜덤 변수 분포를 생성 할 수있다. 그러나 결과 변수 중 하나를 기존 변수에 고정 할 수 없습니다. 기존 기능에 대한 아이디어와 링크를 부탁드립니다! 결론 : 서로 …

4
특이 치에 강력한 고속 선형 회귀
나는 특이 치에 대한 선형 데이터를 다루고 있는데, 그중 일부는 추정 회귀선에서 5 표준 편차 이상입니다. 이러한 점의 영향을 줄이는 선형 회귀 기술을 찾고 있습니다. 지금까지 내가 한 일은 모든 데이터로 회귀선을 추정 한 다음 매우 큰 제곱 잔차 (예 : 상위 10 %)가있는 데이터 포인트를 버리고 해당 포인트없이 회귀를 …

8
특이 치의 엄격한 정의?
사람들은 종종 통계에서 특이 치를 다루는 것에 대해 이야기합니다. 내가 알 수있는 한 이상치의 정의는 완전히 주관적이라는 것입니다. 예를 들어 임의의 임의 변수의 실제 분포가 매우 두꺼운 꼬리 나 이봉형이면 특이 치를 탐지하기위한 표준 시각화 또는 요약 통계는 표본 추출하려는 분포의 일부를 잘못 제거합니다. 특이 치 (존재하는 경우)에 대한 엄격한 …

1
R의 tsoutliers 패키지를 사용하여 시계열 (LS / AO / TC)의 특이 값 탐지 방정식 형식으로 특이 치를 표현하는 방법은 무엇입니까?
코멘트 : 첫째로 나는 큰이에게 감사의 말씀을 전합니다 저자 새로운의 tsoutliers의 어떤 구현 패키지 첸 리우의 오픈 소스 소프트웨어 1993 년 미국의 통계 협회 저널에 발표 된 시계열 이상치 탐지 .RRR 이 패키지는 시계열 데이터에서 5 가지 유형의 특이 치를 반복적으로 감지합니다. 첨가제 이상치 (AO) 혁신 이상치 (IO) 레벨 시프트 …

8
데이터에서 특이 치를 제거해도 괜찮습니까?
데이터 집합에서 특이 치를 제거하는 방법을 찾고이 질문을 찾았습니다 . 그러나이 질문에 대한 의견과 답변 중 일부에서 사람들은 데이터에서 특이 치를 제거하는 것이 나쁜 습관이라고 언급했습니다. 내 데이터 세트에는 측정 오류로 인한 몇 가지 특이 치가 있습니다. 그들 중 일부가 아니더라도 데이터 포인트가 너무 많기 때문에 사례별로 확인하는 방법이 없습니다. …
33 outliers 

3
랜덤 포레스트는 특이 치에 어떻게 민감하지 않습니까?
I는 다음과 같은 몇 가지 소스에서 읽은 이 한 임의의 숲 (예를 들어, 로지스틱 회귀 및 기타 ML 방법이하는 방식) 이상치에 민감하지 않은 것을. 그러나 두 가지 직관은 그렇지 않다고 말합니다. 의사 결정 트리가 구성 될 때마다 모든 포인트가 분류되어야합니다. 즉, 특이 치조차도 분류되므로 부스팅 중에 선택한 의사 결정 트리에 …

1
임시 네트워크에서 링크 이상 탐지
나는 트랜드 주제를 예측하기 위해 링크 이상 감지를 사용하는이 논문을 발견했으며,이 논문은 "링크 이상 감지를 통해 소셜 스트림에서 신흥 주제 발견" 이라는 놀라운 흥미를 발견했다 . 다른 데이터 세트에 복제하고 싶지만 사용 방법을 알 수있는 방법에 익숙하지 않습니다. 6 개월 동안 일련의 노드 네트워크에 대한 스냅 샷이 있다고 가정 해 …

8
특이 값을 평균으로 바꾸기
이 질문은 인터넷에 정통하지 않은 친구가 물었습니다. 통계 배경이 없으며이 질문에 대해 인터넷을 검색했습니다. 문제는 : 특이 치를 평균값으로 대체 할 수 있습니까? 가능하다면이 진술을 뒷받침 할 책 참조 / 저널이 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.