알 수없는 분포의 데이터를 정규화하는 방법


12

특정 유형의 반복 측정 데이터 중 가장 적절한 특성 분포를 찾으려고합니다.

본질적으로 지질학 분야에서는 종종 사건이 발생한 기간 (암석이 임계 온도 이하로 냉각 됨)을 찾기 위해 표본 (암석 덩어리)에서 광물의 방사성 연대 측정을 사용합니다. 일반적으로 각 샘플에서 여러 (3-10) 측정이 수행됩니다. 그리고, 평균 및 표준 편차 σ 가 취해진 다. 이것은 지질학이므로 상황에 따라 샘플의 냉각 시간을 10 5 에서 10 9 년으로 조정할 수 있습니다 .μσ105109

그러나, 나는이 측정이 가우스 아니라는 것을 믿을 이유가 '이상 점'중 하나를 임의로 선언, 또는 피어스의 기준으로 몇 가지 기준을 통해 [로스, 2003] 또는 딕슨의 Q-테스트 [딘과 딕슨, 1951] , 상당히 있습니다 공통 (예 : 30 분의 1)이며 거의 항상 나이가 들기 때문에 이러한 측정 값이 특성 적으로 왜곡되어 있음을 나타냅니다. 이것이 광물 학적 불순물과 관련이있는 것으로 이해되는 이유가있다.

평균 대 평균 표본 연령.  빨간색 선은 평균 = 중간을 나타냅니다.  오래된 측정은 기울어 진 측정으로 인해 발생합니다.

μσ

이 작업을 수행하는 가장 좋은 방법이 무엇인지 궁금합니다. 지금까지 약 600 개의 샘플이있는 데이터베이스와 샘플 당 2-10 개 정도의 복제 측정 값이 있습니다. 각 평균을 평균 또는 중앙값으로 나눈 다음 정규화 된 데이터의 히스토그램을 살펴보면서 샘플 정규화를 시도했습니다. 이것은 합리적인 결과를 산출하며 데이터가 특징적으로 로그-라플라시안이라는 것을 나타냅니다.

여기에 이미지 설명을 입력하십시오

그러나 이것이 적절한 방법인지 확실하지 않은지 또는 내가 알지 못하는 경고가 내 결과를 바이어스하여 다음과 같이 보일 수 있는지 확실하지 않습니다. 누구든지 이런 종류의 경험이 있고 모범 사례를 알고 있습니까?


4
'정규화'는 이와 같은 상황에서 여러 가지 다른 의미로 사용되므로 "정규화"란 정확히 무엇을 의미합니까? 데이터에서 어떤 정보를 얻으려고합니까?
Glen_b-복지 주 모니카

1
@Glen_b : '정상화 (Normalize)'란 단순히 샘플의 측정 된 모든 연령을 중앙값 (또는 평균, 또는 기타)으로 스케일링하는 것을 의미합니다. 샘플의 분산이 노화에 따라 선형 적으로 증가한다는 실험적 증거가있다. 내가 데이터에서 원하는 것은이 유형의 측정이 정규, 로그 정규 또는 베타 또는 어떤 분포로 가장 잘 특성화되는지 확인하여 가장 정확한 위치와 규모를 도출 할 수 있는지 또는 L1 대. L2 회귀 분석 등이 정당화되었습니다.이 게시물에서는 설명 된 데이터를 가져 와서 조사 할 수있는 방법을 묻습니다.
cossatot 2016 년

1
이 분야에 대한 전문 지식은 없지만 그래프와 이에 대한 생각은 좋아 보입니다. 이미 보았을 수도 있지만 Log-Laplace의 Wikipedia 기사는 질문에 직접 다루지는 않지만 흥미로운 정보를 제공 할 수있는 훌륭한 논문으로 연결됩니다. wolfweb.unr.edu/homepage/tkozubow/0_logs.pdf
Wayne

완전히 이해하고 있지는 않지만 부트 스트랩이 도움이 될 수 있습니까? 부트 스트랩 방법을 사용하여 분포의 분산 등을 복구하는 경우 복구 된 정보를 사용하여 데이터를 정규화 할 수 있습니다. en.wikipedia.org/wiki/Bootstrapping_(statistics)
123

답변:


1

각 샘플에서 (3-10) 측정의 평균을 고려한 적이 있습니까? 그런 다음 결과 분포로 작업 할 수 있습니까-t- 분포를 근사하고 더 큰 n의 정규 분포를 근사합니다.


1

정규화를 사용하여 일반적으로 의미하는 것을 의미한다고 생각하지 않습니다. 일반적으로 평균 및 / 또는 분산을 정규화하는 것과 같은 것입니다.

당신이하려는 것은 비선형 재 매개 변수화 및 / 또는 데이터에 선형 모델을 사용할 수있는 기능을 찾는 것입니다.

이것은 사소한 것이 아니며 간단한 대답이 없습니다. 데이터 과학자에게 많은 돈을 지불하는 이유입니다. ;-)

비선형 피처를 생성하는 비교적 간단한 방법 중 하나는 피드 포워드 신경망을 사용하는 것입니다. 피드-포워드 신경망은 레이어 수와 레이어 당 뉴런 수로 피처를 생성하는 네트워크의 용량을 제어합니다. 더 높은 용량 => 더 많은 비선형 성, 더 많은 과적 합. 낮은 용량 => 더 많은 선형성, 높은 바이어스, 낮은 분산.

약간 더 제어 할 수있는 또 다른 방법은 스플라인을 사용하는 것입니다.

마지막으로 이러한 기능을 손으로 만들 수 있습니다. 수행하려는 것으로 생각되지만 간단한 '블랙 박스'답변은 없습니다. 데이터를 신중하게 분석하고 패턴을 찾아야합니다. .


정규화는 수학과 과학에서 여러 가지 의미를 갖습니다. 개인적으로 가장 친숙한 것이 표준이라는 것은 대부분의 사람들이하고 싶은 유혹이지만 다른 사람들과는 씻지 않을 것이라고 선언합니다. 더 심각하게, 이것은 주제에 따라 시작하지만 그 다음에 시작됩니다. 비선형 모델에 대한 관심 표시는 어디에 있습니까? 신경망? 스플라인? 이것들은 분배 또는 분배 패밀리를 식별하는 것과 어떤 관련이 있습니까? 연결이 보이지 않기 때문에 관련이없는 부분을 잘라내거나 관련성을 보여주기 위해 확장하는 것이 좋습니다.
닉 콕스

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.