나는 통계가 너무 좋지 않아서 이것이 단순한 질문이라면 사과드립니다. 일부 데이터에 곡선을 맞추고 때로는 내 데이터가 형식으로 음의 지수에 가장 잘 맞으며 때로는 적합이 a * e ( − b * x 2 )에 더 가깝습니다 . + c . 그러나 때로는 둘 다 실패하고 선형 피팅으로 돌아가고 싶습니다. 내 질문은, 결과 데이터에서 반환되는 분산-공분산 행렬에서 특정 데이터 세트에 가장 적합한 모델을 결정하는 방법입니다.scipy.optimize.curve_fit () 함수? 분산 이이 행렬의 대각선 중 하나에 있다고 생각하지만 어떻게 해석 해야할지 모르겠습니다.
업데이트 : 비슷한 질문 에 따라 분산 공분산 행렬이 가장 적합한 3 가지 모델 중 어느 것이 데이터에 가장 잘 맞는지를 알 수 있기를 바랍니다 (많은 데이터 세트를이 세 가지 모델 중 하나에 맞추려고합니다).
주어진 예제에서 결과 행렬은 다음과 같습니다.
pcov_lin
[[ 2.02186921e-05 -2.02186920e-04]
[ -2.02186920e-04 2.76322124e-03]]
pcov_exp
[[ 9.05390292e+00 -7.76201283e-02 -9.20475334e+00]
[ -7.76201283e-02 6.69727245e-04 7.90218415e-02]
[ -9.20475334e+00 7.90218415e-02 9.36160310e+00]]
pcov_exp_2
[[ 1.38338049e-03 -7.39204594e-07 -7.81208814e-04]
[ -7.39204594e-07 8.99295434e-09 1.92970700e-06]
[ -7.81208814e-04 1.92970700e-06 9.14746758e-04]]
내가하고있는 일의 예는 다음과 같습니다.
import numpy as np
import matplotlib.pyplot as plt
import scipy as sp
import scipy.optimize
def exp_func(x, a, b, c):
return a * np.exp(-b * x) + c
def exp_squared_func(x, a, b, c):
return a * np.exp(-b * x*x*x) + c
def linear_func(x, a, b):
return a*x + b
def main():
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20], np.float)
y = np.array([1, 1, 1, 1, 0.805621, 0.798992, 0.84231, 0.728796, 0.819471, 0.570414, 0.355124, 0.276447, 0.159058, 0.0762189, 0.0167807, 0.0118647, 0.000319948, 0.00118267, 0, 0, 0], np.float)
p0 = [0.7746042467213462, 0.10347274384077858, -0.016253458007293588]
popt_lin, pcov_lin = scipy.optimize.curve_fit(linear_func, x, y)
popt_exp, pcov_exp = scipy.optimize.curve_fit(exp_func, x, y)
popt_exp_2, pcov_exp_2 = scipy.optimize.curve_fit(exp_squared_func, x, y)
plt.figure()
plt.plot(x, y, 'ko', label="Original data")
plt.plot(x, linear_func(x, *popt_lin), 'r-', label='linear')
plt.plot(x, exp_func(x, *popt_exp), 'b-', label='exponential')
plt.plot(x, exp_squared_func(x, *popt_exp_2), 'g-', label='exponential squared')
plt.legend()
plt.show()
if __name__ == '__main__':
main()