여러 개의 새로운 선으로 산점도를 논의하는 방법은 무엇입니까?


11

우리는 두 가지 변수를 측정했으며 산점도는 여러 개의 "선형"모델을 제안하는 것 같습니다. 해당 모델을 증류하는 방법이 있습니까? 다른 독립 변수를 식별하는 것은 어려운 것으로 판명되었습니다.

두 변수의 산점도

두 변수는 크게 왼쪽으로 치우쳐 있습니다 (소수쪽으로). 이것은 우리 도메인에서 예상되는 분포입니다. 점의 강도는 이 에서 데이터 포인트의 양 ( 스케일)을 나타냅니다 . < x , y >log10<x,y>

또는 점을 묶는 방법이 있습니까?

우리 분야에서는이 두 변수가 선형 적으로 상호 관련이 있다고 주장합니다. 우리는 왜 데이터가 아닌지 이해하고 설명하려고합니다.

(참고로, 17M 데이터 포인트가 있습니다)

업데이트 : 모든 답변에 감사드립니다. 다음은 요청 된 설명입니다.

  • 두 변수는 모두 정수이며, 이는 로그 산점도의 일부 패턴을 설명합니다.
  • 다행히 두 변수의 최소값은 1입니다.
  • 7M 포인트는 (데이터의 왼쪽 왜곡으로 "설명").<3,1>

요청 된 플롯은 다음과 같습니다.

로그 로그 산점도 : 로그 로그의 산점도

(공백은 정수 값으로 인해 발생합니다)

로그 로그 극좌표 : 극좌표 θ=y

비율 히스토그램 : 히스토그램 비율

막대는 7M 포인트이고 다른 막대는 숨기므로 주파수는 로그 스케일 입니다.1/3


2
이 그림은 극좌표 에서 어떤 모양 입니까? (먼저 와 로그를 취하는 것이 좋습니다 (필요한 경우 0을 피하기 위해 작은 시작 오프셋).) 모든 선이 원점에서 방사되는 것처럼 보이므로 특히 변형 선 주위는 균등하게 나타납니다 . 그러면 차원 에서 점을 모으기 만하면됩니다 . X Y θ θ(r,θ)XYθθ
whuber

Y와 X를 얻는 데 관련된 비율이 있습니까? 불연속 값만 사용하는 변수가 관련되어 있습니까? 로그 로그 플롯으로 어떻게 보입니까?
Glen_b-복지 주 모니카

1
@ whuber & Glen_b 그 변환과 함께 플롯을 추가했습니다.
Davy Landman

고마워, 데이비 I는 극 좌표를 사용하는 점에 대해 명확 했어야 : 플로팅하여 (A)에 수평 축 (A)에 수직 축은 원래 플롯상의 래디얼 라인은 완벽하게 수평 라인 등장한다. 시각적으로 쉽게 감지 할 수있을뿐만 아니라 (눈에는 수평 선형 피처를 인식하는 내장 처리 기능이 있음) 감지 된 후에는 에만 기반한 클러스터 분석으로 처리 할 수 ​​있습니다 . 좌표에 비선형 변환을 적용하면 (특히 ) "로그-로그 극좌표"플롯 이이 멋진 특성을 파괴합니다. θ θ θrθθθ
whuber

@ whuber 나는 음모를 업데이트하고 세타를 y에 넣었습니다. 이것이 당신이 의미하는 선입니까?
Davy Landman

답변:


7

물리적으로 또는 기록 가능한 것 (가장 단순한 정수만)에 대한 제한으로 인해 인공물이 생길 수 있습니다. 완전히 익명의 와 는 그것이 어떻게 발생하는지에 대한 자신감있는 추측을 제안하지는 않지만 일부 가 선호되는 것처럼 보이며 확실히 그 비율의 분포를 살펴볼 것입니다. 또한 실제로는 다른 상황을 혼합하지 않는 한 별도의 모델을 찾는 것이 유용하지 않습니다. ( "물리적으로"는 "생물학적으로"또는 부사가 의미가있는 것을 읽습니다.)X Y / XYXY/X

내가 이것을 더 많이 , 값 자체가 정수이기 때문에 또는 와 같은 줄 이 정수 대해 더 분명 하다고 생각합니다.k X kX/kkXk

다르지만 관련이있는 요점은 이러한 데이터가 변환을 요구한다는 것입니다. 모두 양수이면 로그가 표시됩니다. 나는 당신이 0을 가질 것을 두려워합니다.이 경우해야 할 일은 토론에 열려 있습니다. 예를 들어 의 선이 그래프에서 추측 될 수 있습니다. 0이 있으면 또는 큐브 루트로 맹세하십시오 . 패턴을보다 명확하게 보는 데 도움이되는 것은 방어 적입니다.로그 ( Y + 상수 )Y=0log(Y+constant)

용어 포인트 : 통계의 왜곡은 더 확장 된 꼬리를 참조하여 설명됩니다. 이 용어를 거꾸로 간주하면됩니다. 여기서 두 변수는 높은 값으로 치우 치거나 양 또는 오른쪽으로 치우쳐 있습니다.

업데이트 : 가장 유용한 추가 그래프에 감사드립니다. 거의 모든 추측이 확인 된 것으로 보입니다. (즉, 결론은 아니라 입니다.) 줄무늬는 정수를 사용하는 인공물 또는 2 차 효과입니다. (질문이 신중하게 남아있는) 측정 중입니다. 로그-로그 및 기타 플롯은 불연속성을 나타냅니다. 따라서 재량에도 불구하고 불연속이 확인됩니다. 1/4, 1/2, 1/1 및 2/1 비율에 대한 뚜렷한 모드 (분포 피크)가 있습니다.Y = 0Y=1Y=0

이전과 마찬가지로, 과학적인 이유없이 다른 스트라이프를 다르게 모델링하거나 따로 다루어야한다는 조언은하지 않습니다. 당신은 당신이 가진 것보다 평균해야합니다. (이 종류의 데이터에는 불연속성을 억제하는 알려진 방법이있을 수 있습니다. 해당 분야의 사람들이 각 플롯에 대해 수백만 점을 정기적으로 측정하는 경우 이전에는 이러한 점을 본 적이 없다고 믿기가 어렵습니다.)

상관 관계는 반드시 양수 여야합니다. 공식적인 유의성 테스트와는 별개로, 미세한 상관 관계가이 표본 크기와 마찬가지로 중요하기 때문에 전혀 쓸모가 없을 것입니다. 강한 지 여부는 해당 분야의 기대치와 표준의 문제입니다. 다른 사람의 결과와 양적으로 상관 관계를 비교하는 것이 좋습니다.

세부 사항 : 왜도는 통계 규칙에 따라 잘못된 방식으로 설명됩니다. 이 변수는 오른쪽으로 치우쳐 있습니다. 이 전문 용어는 가로 크기 축이있는 히스토그램을보고 더 많은 값을 가진 농도가 아니라 더 긴 꼬리의 이름으로 기울어 짐을 언급 할 때 적합합니다.


로그 로그 플롯을 추가하고 왜도에 대해 더 정확하게하려고했습니다.
Davy Landman

4

제 생각에 원하는 도구를 전환 회귀라고합니다. 아이디어는 여러 회귀선이 있으며 각 데이터 요소가 그중 하나에 할당된다는 것입니다. 예를 들어, 첫 번째 회귀선의 방정식은 다음과 같습니다. 회귀선 의 방정식은 다음과 같습니다. 전체적으로 개의 다른 회귀선이 있습니다. 주어진 데이터 포인트에 대해 회귀선 중 하나만 볼 수 있습니다. 따라서 각 점에 대해 어떤 회귀선을 볼지 결정하는 메커니즘이 있어야합니다. 가장 간단한 메커니즘은 다항식 분포입니다. 즉, 우리는

Yi=α1+β1Xi+ϵi
mth
Yi=αm+βmXi+ϵi
Mmth확률이 인 회귀선 , 여기서 입니다. pmmpm=1

모형은 일반적으로 최대 가능성으로 추정됩니다. 이 분포되어 있다고 가정하면 최대화 할 가능성 함수는 다음과 같습니다. 함수 는 표준 정규 밀도입니다. 제약 조건 에 따라 매개 변수 에서이를 최대화합니다 . 이 문제를 해결하기 위해 준 뉴턴 방법을 사용하려는 경우 일반적으로 다소 까다로운 최대화 문제입니다. 모든 및 를 0에서 시작할 수는 없습니다 .ϵN(0,σ2)

L(α,β,σ)=m=1Mpm1σϕ(Yiα1β1Xiσ)
ϕ3M+1mpm=1,pm0αβpm 에서 예. 알고리즘이 "그들을 구별"할 수 있도록 및 고유 한 시작 값을 제공해야합니다 .1Mαβ

원하는 경우이 작업을보다 관련시키는 방법에는 여러 가지가 있습니다. 영향을 미치는 생각되는 변수 가있을 수 있습니다 . 이는 어떤 회귀가 선택되는지에 영향을줍니다. 음, 확인 다항식로 함수를 사용 의 함수 : ZipmpmZi

L(α,β,σ)=m=1M(exp(δm+γmZi)mexp(δm+γmZi))1σϕ(Yiα1β1Xiσ)

이제 매개 변수가 있습니다. 실제로, 설명 을 위해 --- 에 대한 정규화가 필요하기 때문에 매개 변수가 있습니다.5 M - 1 δ , γ5M+15M1δ,γ

더 복잡하게 만드는 또 다른 방법 은 회귀선 수인 을 선택하는 방법을 사용하는 것입니다 . 나는 내 일에서 이런 종류의 선택에 대해 매우 우연한 일이므로 다른 누군가가 당신을 선택하는 가장 좋은 방법으로 당신을 가리킬 수 있습니다.M


2
이것은 몇 가지 다른 체제와 왜 존재하는지에 대한 독립적 인 근거가있을 때 자연스러운 모델이 될 수 있습니다. 여기에는 대각선 줄무늬가 너무 많으며 대수적으로 더 많은 것이 보일 것으로 추측 될 수 있습니다 . 여기에서 암시 된 것처럼 을 선택하는 문제는 이 접근법에서 가장 중요합니다. M
Nick Cox

2

일부 데이터 세트에서 비슷한 동작을 관찰했습니다. 필자의 경우 다중 처리 라인은 처리 알고리즘 중 하나의 양자화 오류로 인한 것입니다.

즉, 우리는 처리 된 데이터의 산점도를보고 처리 알고리즘에는 양자화 효과가있어 위와 똑같이 보이는 데이터의 종속성을 유발했습니다.

양자화 효과를 수정하여 출력이 훨씬 매끄럽고 덜 덩어리지게 보입니다.

당신의 "선형 상관 관계"의견에 관해서. 제시 한 내용이이 데이터가 선형 상관인지 여부를 결정하기에 충분하지 않습니다. 즉, 일부 필드에서> 0.7의 상관 계수는 강한 선형 상관 관계로 간주됩니다. 대부분의 데이터가 원점에 가깝다는 것을 감안할 때, 데이터는 "기존의 지혜"가 말한 것과 선형 적으로 상관되는 것으로 생각할 수 있습니다. 상관 관계는 데이터 세트에 대해 거의 알려주지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.