Kurtosis에 의해 생성 된 이상치 처리


10

누군가가 Kurtosis에 대한 정보로 나를 도울 수 있는지 궁금합니다 (즉, 데이터를 줄이기 위해 데이터를 변환하는 방법이 있습니까?)

많은 수의 사례와 변수가있는 설문지 데이터 세트가 있습니다. 내 변수 중 일부에 대해 데이터는 많은 참가자가 변수에 대해 정확히 동일한 점수를 주었다는 사실에서 파생 된 상당히 높은 첨도 값 (즉, 렙 토쿠 르틱 분포)을 보여줍니다. 특히 표본 크기가 크므로 중앙 한계 정리에 따르면 정규성 위반은 여전히 ​​괜찮습니다.

그러나 문제는 특히 높은 수준의 Kurtosis가 내 데이터 세트에서 많은 일 변량 이상 치를 생성한다는 사실입니다. 따라서 데이터를 변환하거나 특이 치를 제거 / 조정하더라도 높은 수준의 첨도는 가장 높은 다음 점수가 자동으로 특이 치가됨을 의미합니다. (Discriminant function analysis)를 사용하는 것을 목표로합니다. DFA는 위반이 특이 치가 아닌 왜곡으로 인해 발생하는 경우 정상에서 벗어나는 데 강력하다고합니다. 또한 DFA는 특히 데이터의 특이 치 (Tabachnick & Fidel)의 영향을받는 것으로 알려져 있습니다.

이 문제를 해결하는 방법에 대한 아이디어가 있습니까? (내 초기 생각은 Kurtosis를 제어하는 ​​방법 이었지만 대부분의 샘플이 비슷한 등급을 주면 좋지 않은가요?)

답변:


8

문제를 해결하는 명백한 "상식"방법은

  1. 전체 데이터 세트를 사용 하여 결론 을 얻으십시오 . 즉, 중간 계산을 무시하고 어떤 결과를 선언 할 것입니까?
  2. "이상 값"이 제거 된 데이터 세트를 사용 하여 결론 을 얻으십시오 . 즉, 중간 계산을 무시하고 어떤 결과를 선언합니까?
  3. 2 단계와 1 단계를 비교하십시오.
  4. 차이가 없다면 문제가있는 것조차 잊어라. 특이 치는 결론 과 관련이 없습니다 . 특이 치는 이러한 데이터를 사용하여 도출 된 다른 결론에 영향을 줄 수 있지만 이는 작업과 관련이 없습니다. 다른 사람의 문제입니다.
  5. 차이가 있다면 기본적으로 "신뢰"라는 질문이 있습니다. 이 "이상치"는 실제로 분석에 대해 무언가를 표현한다는 의미에서 실제입니까? 아니면 "외계인"이 "오염 된 출처"에서 나온다는 점에서 나쁜가?

상황 5에서는 기본적으로 "인구"가 불완전한 것으로 묘사하는 데 사용했던 "모델"이 불완전한 경우가 있습니다. 세부 사항은 지정되지 않았지만 결론에 중요한 부분이 있습니다. 두 가지 "신뢰"시나리오에 해당하는이 문제를 해결하는 두 가지 방법이 있습니다.

  1. (|θ)(|θ)=(λ|θ)(|θ,λ)λ
  2. "좋은"관측치와 "나쁜"관측치에 대한 "모델 모델"을 작성하십시오. 그래서 대신 사용할 것이다 이었다 u를 얻는 확률 표본에서 "양호한"관측치, GB 는 "양호한"및 "나쁜"데이터의 모형을 나타냅니다.(|θ)(|θ)=(|θ)+(|θ)(1)

"표준"절차의 대부분은 이러한 종류의 모델에 대한 근사치로 표시 될 수 있습니다. 가장 분명한 것은 사례 1을 고려하는 것인데, 여기서 분산은 관측에서 일정하게 가정되었습니다. 이 가정을 분포로 완화하면 혼합 분포를 얻을 수 있습니다. 이것은 "정규"분포와 "t"분포 사이의 연결입니다. "t"는 다른 분산에서 혼합되는 반면, 정규은 고정 분산을 가지며, "혼합"의 양은 자유도에 따라 다릅니다. 높은 DF는 낮은 혼합을 의미하며 (이상 치가 적을 가능성이 낮음) 낮은 DF는 높은 혼합을 의미합니다 (이상 치가 적음) 실제로 사례 2를 사례 1의 특수 사례로 취할 수 있는데, 여기서 "좋은"관측치가 정상이고 "나쁜"관측치가 Cauchy입니다 (t는 1 DF).


@probabilityislogic
Peter Flom

명확한 설명 : 최적의 분류에는 실제 다변량 분포에 대한 지식이 필요합니다. 이러한 분포를 잘 추정 할 수 있으면 결과 분류 기능이 거의 최적입니다. 첨도로 표시된 바와 같이 특이 치는 밀도를 추정 할 영역에 데이터가 거의 없기 때문에 실제로 문제가됩니다. 다변량 데이터를 사용하면 차원의 저주도이 문제에 영향을줍니다.
피터 웨스트 폴
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.