데이터 불확실성을 기반으로 선형 회귀 기울기의 불확실성을 계산

데이터 불확실성 (아마도 Excel / Mathematica)을 기반으로 선형 회귀 기울기의 불확실성을 계산하는 방법은 무엇입니까?

예 : 플롯 예 데이터 포인트 (0,0), (1,2), (2,4), (3,6), (4,8), ... (8, 16)을 가지지 만 각 y 값은 불확실성 4. 내가 찾은 대부분의 함수는 점이 함수 y = 2x와 완벽하게 일치하기 때문에 불확실성을 0으로 계산합니다. 그러나 그림에 표시된 것처럼 y = x / 2도 포인트와 일치합니다. 과장된 예이지만 필요한 것을 보여주기를 바랍니다.

편집 : 조금 더 설명하려고하면 예제의 모든 지점에 특정 값 y가 있지만 사실인지 알지 못하는 척합니다. 예를 들어 첫 번째 지점 (0,0)은 실제로 (0,6) 또는 (0, -6) 또는 그 사이의 임의의 항목 일 수 있습니다. 이것을 고려하는 인기있는 문제 중 하나에 알고리즘이 있는지 묻고 있습니다. 이 예에서 점 (0,6), (1,6.5), (2,7), (3,7.5), (4,8), ... (8, 10)은 여전히 불확실성 범위에 속합니다. 그래서 그것들은 올바른 점이 될 수 있고 그 점들을 연결하는 선은 다음과 같은 방정식을 갖습니다 : y = x / 2 + 6, 불확실성을 고려하지 않은 방정식은 다음 식을 갖습니다 : y = 2x + 0. 따라서 k의 불확실성 1,5이고 n은 6입니다.

TL; DR : 그림에는 최소 제곱 적합을 사용하여 계산 된 y = 2x 선이 있으며 데이터에 완벽하게 맞습니다. y = kx + n에서 얼마나 많은 k 및 n이 변경 될 수 있는지 확인하려고하지만 y 값의 불확실성을 알고 있으면 여전히 데이터에 적합합니다. 내 예에서 k의 불확실성은 1.5이고 n의 경우 6입니다. 이미지에는 '최상의'맞춤 선과 점에 거의 맞지 않는 선이 있습니다.

regression uncertainty

— 베다 네크
소스

의 불확실성이있는 경우 일반적으로 편향되기 때문에 일반적인 선형 회귀를 사용하지 않아야합니다 (작은 불확실성은 작은 편향을 초래하지만 어쩌면별로 신경 쓰지 않을 것입니다). y의 불확실성이 항상 일정합니까 아니면 다양합니까? 라인을 어떻게 맞추고 있습니까?

x

$x$

— Glen_b-복귀 모니카

나는 주로 y의 불확실성에 대해 묻고 있습니다. 그러나 솔루션이 x의 불확실성을 고려한다면 기쁠 것입니다. 일반적으로 그것들은 일정하지 않지만 그것들을 일정하게 요구하는 해법은 괜찮을 것입니다. 나는 선형 적합, 적합, 수학 및 라인에 찾기 적합 (그리고 불확실성에 의해 무게 값을 찾은 맞춤 함수)으로 피팅을 시도했습니다. 뛰어나다.

— bedanec

"불확실성"값이 실험의 반복에서 발생하는 것과 어떻게 관련되는지 가능한 한 명확하게 설명 할 수 있습니까? 즉,이 불확실성이 정확히 무엇을 나타내는가?

— Glen_b-복귀 모니카

예를 들어 y가 무게이지만 디지털 스케일은 + -6까지만 정확합니다. (이 값들에 대한 최상의 예는 아니지만, 예를 들어 스케일이 255g를 표시하면 255.0 또는 255.9 일 수 있음)

— bedanec

이것이 제 질문의 첫 문장과 어떻게 관련이 있는지 설명해 주시겠습니까?

— Glen_b-복귀 모니카

답변:

$k$ $n$ $y = k x + n$ $y$

$y$ $100(1-\alpha)$ $(k,n)$ $\sum (k x_i + n - y_i)^2/\sigma_i^2 < \chi_{d,\alpha}^2$ $\sigma_i$ $y_i$ $d$ $(x,y)$ $\chi_{d,\alpha}^2$ $\alpha$ $d$

$y_i$ $y_i$ $(k,n)$ $204 (k-2)^2 + 72n(k-2) + 9n^2 = 152.271$

여기에 이미지 설명을 입력하십시오

— 레이 쿠프 만
소스

파이썬 에서이 간단한 코드로 순진한 직접 샘플링을 수행했습니다.

import random
import numpy as np
import pylab
def uncreg(x, y, xu, yu, N=100000):
    out = np.zeros((N, 2))
    for n in xrange(N):
        tx = [s+random.uniform(-xu, xu) for s in x]
        ty = [s+random.uniform(-yu, yu) for s in y]
        a, b = np.linalg.lstsq(np.vstack([tx, np.ones(len(x))]).T, ty)[0]
        out[n, 0:2] = [a, b]
    return out
if __name__ == "__main__":
    P = uncreg(np.arange(0, 8.01), np.arange(0, 16.01, 2), 0.1, 6.)
    H, xedges, yedges = np.histogram2d(P[:, 0], P[:, 1], bins=(50, 50))
    pylab.imshow(H, interpolation='nearest', origin='low', aspect='auto',
                 extent=[xedges[0], xedges[-1], yedges[0], yedges[-1]])

그리고 이것을 얻었다 : 직접 샘플링 결과의 히스토그램

물론 P원하는 데이터를 채굴 하거나 불확실성 분포를 변경할 수 있습니다.

— 이로 즈
소스

나는 전에 같은 사냥을하고 있었고 이것이 시작하기에 유용한 장소 라고 생각 합니다 . 엑셀 매크로 함수는 두 좌표의 각 포인트에 대한 테이블 포인트 및 불확실성을 기반으로 선형 피팅 항과 불확실성을 제공합니다. 어쩌면 다른 환경에서 구현할 것인지, 수정하는 등을 결정하기 위해 기반이되는 종이를 찾아 볼 수도 있습니다. (Mathematica에 대한 몇 가지 작업이 있습니다.) 표면에 대한 유용한 문서가있는 것처럼 보이지만 얼마나 주석이 달린 지 확인하기 위해 매크로를 열지 않았습니다.

— 동정적인 손님
소스