특히 1978 년부터 1980 년까지 Oak Ridge에서 에너지 데이터 검증 작업을 수행 할 때 특이점에 대해 많은 연구를 수행했습니다. 정상 데이터에 대한 일 변량 특이점에 대한 공식 테스트가 있습니다 (예 : Grubbs '테스트 및 Dixon 's 비율 테스트). 다변량 특이 치 및 시계열에 대한 테스트가 있습니다. "통계 데이터의 특이 치"에 대한 Barnett 및 Lewis의 저서는 특이 치에 대한 성경이며 거의 모든 내용을 다룹니다.
오크 릿지에서 데이터 검증 작업을 할 때 큰 다변량 데이터 세트가있었습니다. 일 변량 특이 치의 경우 극단 방향 (평균 이상 및 평균 미만)이 있습니다. 그러나 다변량 특이점의 경우 특이점을 찾아야 할 방향이 많이 있습니다. 우리의 철학은 데이터의 의도 된 용도가 무엇인지 고려하는 것이 었습니다. 이변 량 상관 또는 회귀 계수와 같은 특정 매개 변수를 추정하려는 경우 관심 매개 변수에 가장 큰 영향을주는 방향을보고 싶습니다. 당시 나는 영향력 기능에 관한 Mallows의 미공개 논문을 읽었다. 특이 치를 탐지하기위한 영향 함수 사용은 Gnanadesikan의 다변량 분석 책에서 다룹니다. 물론 Barnett과 Lewis에서도 찾을 수 있습니다.
모수에 대한 영향 함수는 관측치의 다변량 공간에있는 점에서 정의되며 데이터 점이 제외 될 때와 비교할 때 모수 추정치 간의 차이를 본질적으로 측정합니다. 각 샘플 포인트로 이러한 추정을 수행 할 수 있지만 일반적으로 통찰력과 빠른 계산을 제공하는 영향 함수에 대한 훌륭한 기능적 형태를 도출 할 수 있습니다.
예를 들어, 1982 년 American Journal of Mathematical and Management Science의 논문에서 "영향 함수와 데이터 검증에의 적용"이변 량 상관에 대한 영향 함수에 대한 분석 공식을 보여주고 일정한 영향의 윤곽은 과장법입니다. 따라서 윤곽은 영향 기능이 가장 빠르게 증가하는 평면의 방향을 보여줍니다.
필자의 논문에서 우리는 에너지 생성 및 소비에 대한 FPC Form 4 데이터와 이변 량 상관에 영향 함수를 적용하는 방법을 보여줍니다. 이 둘 사이에는 분명한 양의 상관 관계가 있으며 상관 관계 추정치에 큰 영향을 미치는 몇몇 특이 치가 발견되었습니다. 추가 조사에 따르면 포인트 중 하나 이상에 오류가있어 수정할 수있었습니다.
그러나 특이점을 논의 할 때 항상 언급하는 중요한 점은 자동 거부가 잘못되었다는 것입니다. 특이 치는 항상 오류가 아니며 때로는 데이터에 대한 중요한 정보를 제공합니다. 실제 이론과 맞지 않기 때문에 유효한 데이터를 삭제해서는 안됩니다. 수행하기 어려운지 여부에 관계없이 이상 치가 발생한 이유를 항상 조사해야합니다.
이 사이트에서 다변량 특이 치에 대해 논의한 것은 이번이 처음이 아닙니다. 특이점을 검색하면 다변량 특이점에 대해 여러 가지 질문이있을 수 있습니다. 본인은 본인의 논문과이 책을 참조한 후 링크를 제공 한 것으로 알고 있습니다.
또한 특이 치 거부에 대해 논의 할 때이 사이트의 많은 사람들이 통계 테스트만을 기반으로하는 경우 특히이 사이트에 대해 추천했습니다. Peter Huber는 종종 특이 치 거부에 대한 대안으로 강력한 평가를 언급합니다. 아이디어는 강력한 절차로 인해 특이 값을 거부하고 비 강력 추정기를 사용하지 않고도 추정치에 대한 영향을 감소시키는 이상치의 가중치를 낮출 수 있습니다.
영향 기능은 실제로 1970 년대 초에 그의 박사 학위 논문에서 Frank Hampel에 의해 개발되었습니다 (1974 년 생각). 그의 아이디어는 실제로 영향 함수를 사용하여 특이 치에 대해 강력하지 않은 추정기를 식별하고 강력한 추정기를 개발하는 데 도움이되었습니다.
여기 에 영향 함수를 사용하여 시계열의 특이 치를 탐지하는 것에 대한 내 작업을 언급 한이 주제에 대한 이전 토론에 대한 링크가 있습니다.