상관 관계가 가장 큰 (2 차원 만) 더 큰 풀에서 데이터 포인트의 하위 집합을 선택하기위한 표준 절차 (예 : 참조로 인용 할 수 있음)가 있습니까?
예를 들어 100 개의 데이터 포인트가 있다고 가정합니다. X 및 Y 치수를 따라 가능한 가장 강한 상관 관계가있는 40 점의 하위 집합을 원합니다.
이 작업을 수행하기 위해 코드를 작성하는 것이 비교적 간단하다는 것을 알고 있지만 인용 할 소스가 있는지 궁금합니다.
상관 관계가 가장 큰 (2 차원 만) 더 큰 풀에서 데이터 포인트의 하위 집합을 선택하기위한 표준 절차 (예 : 참조로 인용 할 수 있음)가 있습니까?
예를 들어 100 개의 데이터 포인트가 있다고 가정합니다. X 및 Y 치수를 따라 가능한 가장 강한 상관 관계가있는 40 점의 하위 집합을 원합니다.
이 작업을 수행하기 위해 코드를 작성하는 것이 비교적 간단하다는 것을 알고 있지만 인용 할 소스가 있는지 궁금합니다.
답변:
귀하의 방법이이 위키 백과 기사에 설명 된 일반 범주에 적합하다고 말하고 싶습니다. 위키 백과 이외의 다른 것이 필요한 경우 다른 참조도 있습니다. 해당 기사의 일부 링크도 적용됩니다.
적용 할 수있는 다른 용어 (추가 검색을 원할 경우)에는 "데이터 준설"및 "고백 될 때까지 데이터 조정"이 포함됩니다.
동일한 x 또는 y 값을 갖지 않는 2 개의 점만 선택하면 항상 1의 상관 관계를 얻을 수 있습니다. 몇 년 전 Chance 잡지에 본질적으로 상관 관계가없는 x 및 y 변수가있을 때 x를 비닝하고 bin 내에서 y를 평균화하여 증가 또는 감소 추세를 나타내는 방법을 찾을 수있는 기사가있었습니다 ( Chance 2006, Visual Revelations : 불행한 결과 비닝을 통해 존재하지 않는 것을 찾기 : Mendel Effect, pp. 49-52). 또한 중간 양의 상관 관계를 나타내는 전체 데이터 집합을 사용하면 음의 상관 관계를 나타내는 부분 집합을 선택할 수 있습니다. 이러한 점을 감안할 때, 제안한 일을하는 데 합당한 이유가 있더라도 회의론자들은 당신이 생각 해낸 결론에 반대 할 수있는 많은 주장을하고 있습니다.
RANSAC 알고리즘은 원하는대로 들립니다. 기본적으로 데이터는 여러 가지 특이 치와 특이 치로 구성되어 있다고 가정하고 데이터의 하위 집합을 반복적으로 샘플링하여 모형을 피팅 한 다음 다른 모든 데이터 점을 모형에 맞추려고 시도하여 특이 치를 식별하려고 시도합니다. 여기에 대한 위키 백과 기사가 있습니다 .
귀하의 경우, 적어도 40 점에 맞는 현재 최고의 모델을 저장하면서 알고리즘을 계속 반복 할 수 있으므로 절대적인 최상의 상관 관계를 보장하지는 않지만 가깝습니다.
나는 이것이 좋은 연습이 될 수있는 상황을 상상하는 데 어려움을 겪지 만, 당신이 실제로 이것을하는 좋은 이유가 있다고 가정 해 봅시다.
무차별 대입 알고리즘은 다음과 같습니다.
전체 N 샘플에서 n의 가능한 모든 서브 샘플을 계산합니다. 대부분의 통계 패키지에는 대체 작업없이 조합을 계산하는 기능이 있습니다.
각 하위 샘플에 대한 x와 y의 상관 관계를 추정하고 해당 세트에서 최대 값을 선택합니다.
방금이 절차에 대한 참조에 관한 원래 포스터의 의견을 보았습니다. 데이터 세트에서 가능한 모든 상관 관계에 대한 경험적 분포를 생성하고 최대 값을 선택한 후에 누군가 가이 절차의 특정 이름을 가지고 있는지 확실하지 않습니다. 부트 스트랩을 수행 할 때 비슷한 접근 방식이 사용되지만,이 경우 경험적 변동에 관심이있는 경우에는 최대 값과 관련된 특정 하위 샘플을 선택하는 데 사용하지 마십시오.