시간에 따른보다 자세한 설명 변수 통합


9

시간이 지남에 따라 점점 더 자세한 예측 변수를 얻은 곳에서 변수를 가장 잘 모델링하는 방법을 이해하려고합니다. 예를 들어, 채무 불이행 대출에 대한 복구율 모델링을 고려하십시오. 20 년의 데이터가있는 데이터 세트가 있다고 가정하고, 그 첫 15 년 동안 대출이 담보인지 여부 만 알지만 그 담보의 특성에 대해서는 전혀 알지 못합니다. 그러나 지난 5 년 동안 우리는 담보물을 회복률을 잘 예측할 수있는 다양한 범주로 분류 할 수 있습니다.

이 설정을 통해 모형을 데이터에 맞추고 예측 변수의 통계적 유의성과 같은 측정 값을 결정한 다음 모형으로 예측하려고합니다.

어떤 누락 된 데이터 프레임 워크가 적합합니까? 더 자세한 설명 변수가 과거 샘플 전체에 흩어져있는 것이 아니라 주어진 시점 이후에만 사용 가능하다는 사실과 관련하여 특별히 고려해야 할 사항이 있습니까?

답변:


1

좋아, 과거 데이터를 사용한 경험에서 더 많은 역사는 회귀 적합을 더 잘 보이게 만들 수 있지만 예측이 운동의 요점이라면 일반적인 대답이 경고됩니다. 데이터가 '세계'가 매우 다른 기간을 반영하는 경우 상관 관계의 안정성에 의문의 여지가 있습니다. 이것은 시장과 규제가 지속적으로 발전하는 경제에서 특히 발생합니다.

이것은 또한 부동산 시장에도 적용되며,이 또한 긴주기를 가질 수 있습니다. 예를 들어, 담보 대출 담보 증권의 발명은 담보 대출 시장을 변화시키고 담보 대출 개시를위한 홍수 문을 열었으며, 불행히도 투기 (실제로 대출자 대출이라고 불리는 모든 종류의 비 / 저 문서 대출이있었습니다).

체제 변경을 테스트하는 방법은 히스토리를 제외 할 때 비 주관적인 방식으로 결정하는 데 특히 유용 할 수 있습니다.


1

일반적으로 이는 경계 매개 변수 값 문제로 볼 수 있습니다. 귀하의 질문을 이해함에 따라 귀하는 데이터 초기에 정보가 부족한 매개 변수 (알 수없는 품질 [Cu]의 담보)가 있고 정보가 많을수록 (Ch, 매체 [Cm] 또는 낮은 [Cl] 품질의 담보) 나중에 데이터.

모형에 대해 관찰되지 않은 매개 변수가 시간이 지나도 변하지 않는다고 생각하는 경우 각 점의 점 추정값이 Cl <Cm <Ch 및 Cl <= Cu <= Ch라고 가정하는 경우 방법이 간단 할 수 있습니다. 논리는 Cl이 최악이고 Ch가 최고이기 때문에 데이터를 알 수없는 경우 데이터와 같거나 같아야합니다. 약간 제한적이며 기꺼이 처음 15 년 동안 모든 담보의 품질이 높지 않거나 낮다고 가정하는 경우 Cl <Cu <Ch로 가정하면 추정이 훨씬 간단 해집니다.

수학적으로 다음과 같이 추정 할 수 있습니다.

Cl=exp(β1)Cm=exp(β1)+exp(β2)Cu=exp(β1)+exp(β3)1+exp(β4)Ch=exp(β1)+exp(β2)+exp(β3)

Cu의 로짓 함수는 값을 Cm에 대해 제한하지 않고 Cl과 Ch 사이로 제한합니다. (0과 1 사이의 다른 함수도 사용할 수 있습니다.)

모델의 또 다른 차이점은 각 기간 내의 정보가 다르기 때문에 잔차 분산이 기간에 종속되도록 분산을 구성해야한다는 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.