가장 강력한 상관 관계가있는 데이터 포인트의 하위 집합을 선택하는 자동 절차?


15

상관 관계가 가장 큰 (2 차원 만) 더 큰 풀에서 데이터 포인트의 하위 집합을 선택하기위한 표준 절차 (예 : 참조로 인용 할 수 있음)가 있습니까?

예를 들어 100 개의 데이터 포인트가 있다고 가정합니다. X 및 Y 치수를 따라 가능한 가장 강한 상관 관계가있는 40 점의 하위 집합을 원합니다.

이 작업을 수행하기 위해 코드를 작성하는 것이 비교적 간단하다는 것을 알고 있지만 인용 할 소스가 있는지 궁금합니다.


3
"이 작업을 수행하기위한 코드 작성은 비교적 간단하다는 것을 알고 있습니다." 아? 어떻게 하시겠습니까?
user603

3
나는 그녀가 "최상의 부분 집합 상관 관계"와 같은 것을 의미한다고 생각한다. 의 하위 집합을 선택 ( 그녀의 예) 중 데이터 포인트 당신의 ( 그녀의 예)과의 상관 관계의 추정 계산 (그녀의 부분 집합을 알고 의미 가정 최고의 선형 상관 관계를 갖는 점 ). 그러나이 프로세스는 곱하기 계수 를 계산해야하기 때문에 큰 경우 계산 비용이 많이 드는 것으로 보입니다 . k = 40 N N = 100 ρ ( X , Y )kk=40NN=100ρ(X,Y)( NN(Nk)
Néstor

1
변수 의 선형 조합을 기꺼이 살펴 보려면 표준 상관 관계를 찾고 있습니다. 그렇지 않으면 상관 관계 기능 선택 에 관심이있을 수 있습니다. 엑스
MånsT

일부 사람들이 나를 오해하고 있다고 생각합니다. @ Néstor가 올바른 것 같습니다. 각각 X 값과 Y 값을 가진 100 개의 항목이 있습니다. X와 Y 값 사이에 가능한 가장 강한 상관 관계 (선형 회귀)를 갖는 40의 부분 집합을 찾고 싶습니다. 전체 검색 공간을 탐색하는 코드를 작성할 수 있지만 이러한 방법을 지원하기 위해 인용 할 내용은 무엇입니까? 가능한 모든 하위 집합간에 최적의 상관 관계를 찾기 위해 호출되는 것은 무엇입니까?
Julie

1
예를 들어 최소 잔차 분산으로 측정되는 상관 관계를 최대화하거나 가장 적합한 회귀선을 얻는 데 관심이 있습니까? 데이터 포인트를 선택할 때 두 가지는 동일하지 않습니다.
jbowman

답변:


17

귀하의 방법이이 위키 백과 기사에 설명 된 일반 범주에 적합하다고 말하고 싶습니다. 위키 백과 이외의 다른 것이 필요한 경우 다른 참조도 있습니다. 해당 기사의 일부 링크도 적용됩니다.

적용 할 수있는 다른 용어 (추가 검색을 원할 경우)에는 "데이터 준설"및 "고백 될 때까지 데이터 조정"이 포함됩니다.

동일한 x 또는 y 값을 갖지 않는 2 개의 점만 선택하면 항상 1의 상관 관계를 얻을 수 있습니다. 몇 년 전 Chance 잡지에 본질적으로 상관 관계가없는 x 및 y 변수가있을 때 x를 비닝하고 bin 내에서 y를 평균화하여 증가 또는 감소 추세를 나타내는 방법을 찾을 수있는 기사가있었습니다 ( Chance 2006, Visual Revelations : 불행한 결과 비닝을 통해 존재하지 않는 것을 찾기 : Mendel Effect, pp. 49-52). 또한 중간 양의 상관 관계를 나타내는 전체 데이터 집합을 사용하면 음의 상관 관계를 나타내는 부분 집합을 선택할 수 있습니다. 이러한 점을 감안할 때, 제안한 일을하는 데 합당한 이유가 있더라도 회의론자들은 당신이 생각 해낸 결론에 반대 할 수있는 많은 주장을하고 있습니다.


The American Statistician의 기사 이름은 무엇입니까?
가정 정상

1
나는 기사를 본 곳을 잘못 기억했다. 그것은 실제로 미국 통계가보다는 기회 잡지에 있었다. 위 내용을 수정하고 연도, 제목 및 페이지 번호를 포함시켜 관심있는 당사자가 쉽게 사본을 찾을 수 있도록했습니다.
Greg Snow

4

RANSAC 알고리즘은 원하는대로 들립니다. 기본적으로 데이터는 여러 가지 특이 치와 특이 치로 구성되어 있다고 가정하고 데이터의 하위 집합을 반복적으로 샘플링하여 모형을 피팅 한 다음 다른 모든 데이터 점을 모형에 맞추려고 시도하여 특이 치를 식별하려고 시도합니다. 여기에 대한 위키 백과 기사가 있습니다 .

귀하의 경우, 적어도 40 점에 맞는 현재 최고의 모델을 저장하면서 알고리즘을 계속 반복 할 수 있으므로 절대적인 최상의 상관 관계를 보장하지는 않지만 가깝습니다.


1

나는 이것이 좋은 연습이 될 수있는 상황을 상상하는 데 어려움을 겪지 만, 당신이 실제로 이것을하는 좋은 이유가 있다고 가정 해 봅시다.

무차별 대입 알고리즘은 다음과 같습니다.

  1. 전체 N 샘플에서 n의 가능한 모든 서브 샘플을 계산합니다. 대부분의 통계 패키지에는 대체 작업없이 조합을 계산하는 기능이 있습니다.

  2. 각 하위 샘플에 대한 x와 y의 상관 관계를 추정하고 해당 세트에서 최대 값을 선택합니다.

방금이 절차에 대한 참조에 관한 원래 포스터의 의견을 보았습니다. 데이터 세트에서 가능한 모든 상관 관계에 대한 경험적 분포를 생성하고 최대 값을 선택한 후에 누군가 가이 절차의 특정 이름을 가지고 있는지 확실하지 않습니다. 부트 스트랩을 수행 할 때 비슷한 접근 방식이 사용되지만,이 경우 경험적 변동에 관심이있는 경우에는 최대 값과 관련된 특정 하위 샘플을 선택하는 데 사용하지 마십시오.


2
1032=100=40

그것에 대해 nar 할 필요가 없습니다 :-p. 페어 포인트.
David

죄송합니다 ... 개선 된 알고리즘을위한 많은 공간을 제공하기 때문에 그 수치를 좋아합니다 :-).
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.