데이터 불확실성을 기반으로 선형 회귀 기울기의 불확실성을 계산


12

데이터 불확실성 (아마도 Excel / Mathematica)을 기반으로 선형 회귀 기울기의 불확실성을 계산하는 방법은 무엇입니까?

예 : 플롯 예 데이터 포인트 (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16)을 가지지 만 각 y 값은 불확실성 4. 내가 찾은 대부분의 함수는 점이 함수 y = 2x와 완벽하게 일치하기 때문에 불확실성을 0으로 계산합니다. 그러나 그림에 표시된 것처럼 y = x / 2도 포인트와 일치합니다. 과장된 예이지만 필요한 것을 보여주기를 바랍니다.

편집 : 조금 더 설명하려고하면 예제의 모든 지점에 특정 값 y가 있지만 사실인지 알지 못하는 척합니다. 예를 들어 첫 번째 지점 (0,0)은 실제로 (0,6) 또는 (0, -6) 또는 그 사이의 임의의 항목 일 수 있습니다. 이것을 고려하는 인기있는 문제 중 하나에 알고리즘이 있는지 묻고 있습니다. 이 예에서 점 (0,6), (1,6.5), (2,7), (3,7.5), (4,8), ... (8, 10)은 여전히 ​​불확실성 범위에 속합니다. 그래서 그것들은 올바른 점이 될 수 있고 그 점들을 연결하는 선은 다음과 같은 방정식을 갖습니다 : y = x / 2 + 6, 불확실성을 고려하지 않은 방정식은 다음 식을 갖습니다 : y = 2x + 0. 따라서 k의 불확실성 1,5이고 n은 6입니다.

TL; DR : 그림에는 최소 제곱 적합을 사용하여 계산 된 y = 2x 선이 있으며 데이터에 완벽하게 맞습니다. y = kx + n에서 얼마나 많은 k 및 n이 변경 될 수 있는지 확인하려고하지만 y 값의 불확실성을 알고 있으면 여전히 데이터에 적합합니다. 내 예에서 k의 불확실성은 1.5이고 n의 경우 6입니다. 이미지에는 '최상의'맞춤 선과 점에 거의 맞지 않는 선이 있습니다.


1
의 불확실성이있는 경우 일반적으로 편향되기 때문에 일반적인 선형 회귀를 사용하지 않아야합니다 (작은 불확실성은 작은 편향을 초래하지만 어쩌면별로 신경 쓰지 않을 것입니다). y의 불확실성이 항상 일정합니까 아니면 다양합니까? 라인을 어떻게 맞추고 있습니까? 엑스
Glen_b-복귀 모니카

나는 주로 y의 불확실성에 대해 묻고 있습니다. 그러나 솔루션이 x의 불확실성을 고려한다면 기쁠 것입니다. 일반적으로 그것들은 일정하지 않지만 그것들을 일정하게 요구하는 해법은 괜찮을 것입니다. 나는 선형 적합, 적합, 수학 및 라인에 찾기 적합 (그리고 불확실성에 의해 무게 값을 찾은 맞춤 함수)으로 피팅을 시도했습니다. 뛰어나다.
bedanec

"불확실성"값이 실험의 반복에서 발생하는 것과 어떻게 관련되는지 가능한 한 명확하게 설명 할 수 있습니까? 즉,이 불확실성이 정확히 무엇을 나타내는가?
Glen_b-복귀 모니카

예를 들어 y가 무게이지만 디지털 스케일은 + -6까지만 정확합니다. (이 값들에 대한 최상의 예는 아니지만, 예를 들어 스케일이 255g를 표시하면 255.0 또는 255.9 일 수 있음)
bedanec

이것이 제 질문의 첫 문장과 어떻게 관련이 있는지 설명해 주시겠습니까?
Glen_b-복귀 모니카

답변:


8

케이와이=케이엑스+와이

와이100(1α)(케이,)(케이엑스나는+와이나는)2/σ나는2<χ,α2σ나는와이나는(엑스,와이)χ,α2α

와이나는와이나는(케이,)204(케이2)2+72(케이2)+92=152.271

여기에 이미지 설명을 입력하십시오


4

파이썬 에서이 간단한 코드로 순진한 직접 샘플링을 수행했습니다.

import random
import numpy as np
import pylab
def uncreg(x, y, xu, yu, N=100000):
    out = np.zeros((N, 2))
    for n in xrange(N):
        tx = [s+random.uniform(-xu, xu) for s in x]
        ty = [s+random.uniform(-yu, yu) for s in y]
        a, b = np.linalg.lstsq(np.vstack([tx, np.ones(len(x))]).T, ty)[0]
        out[n, 0:2] = [a, b]
    return out
if __name__ == "__main__":
    P = uncreg(np.arange(0, 8.01), np.arange(0, 16.01, 2), 0.1, 6.)
    H, xedges, yedges = np.histogram2d(P[:, 0], P[:, 1], bins=(50, 50))
    pylab.imshow(H, interpolation='nearest', origin='low', aspect='auto',
                 extent=[xedges[0], xedges[-1], yedges[0], yedges[-1]])

그리고 이것을 얻었다 : 직접 샘플링 결과의 히스토그램

물론 P원하는 데이터를 채굴 하거나 불확실성 분포를 변경할 수 있습니다.


0

나는 전에 같은 사냥을하고 있었고 이것이 시작하기에 유용한 장소 라고 생각 합니다 . 엑셀 매크로 함수는 두 좌표의 각 포인트에 대한 테이블 포인트 및 불확실성을 기반으로 선형 피팅 항과 불확실성을 제공합니다. 어쩌면 다른 환경에서 구현할 것인지, 수정하는 등을 결정하기 위해 기반이되는 종이를 찾아 볼 수도 있습니다. (Mathematica에 대한 몇 가지 작업이 있습니다.) 표면에 대한 유용한 문서가있는 것처럼 보이지만 얼마나 주석이 달린 지 확인하기 위해 매크로를 열지 않았습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.