기계 학습 모델 (GBM, NN 등)을 생존 분석에 어떻게 사용할 수 있습니까?


13

나는 Cox 비례 위험 회귀 및 일부 Kaplan-Meier 모델과 같은 전통적인 통계 모델을 사용하여 다음 사건이 발생할 때까지의 일을 실패 등으로 예측할 수 있습니다. 즉 생존 분석

질문

  1. GBM, 신경망 등과 같은 기계 학습 모델의 회귀 버전을 사용하여 이벤트가 발생할 때까지 일을 어떻게 예측할 수 있습니까?
  2. 대상 변수로 발생까지 일을 사용하고 회귀 모델을 실행하는 것만으로는 작동하지 않는다고 생각합니까? 왜 작동하지 않으며 어떻게 해결할 수 있습니까?
  3. 생존 분석 문제를 분류로 변환 한 다음 생존 확률을 얻을 수 있습니까? 그렇다면 이진 대상 변수를 만드는 방법은 무엇입니까?
  4. 기계 학습 접근법 대 콕스 비례 위험 회귀 및 Kaplan-Meier 모델 등의 장단점은 무엇입니까?

샘플 입력 데이터가 아래 형식이라고 상상해보십시오

여기에 이미지 설명을 입력하십시오

노트 :

  • 센서는 10 분 간격으로 데이터를 핑하지만 NA가있는 행으로 표시되는 네트워크 문제 등으로 인해 데이터가 누락 될 수 있습니다.
  • var1, var2, var3은 예측 변수, 설명 변수입니다.
  • failure_flag는 시스템 고장 여부를 알려줍니다.
  • 각 머신 ID마다 10 분 간격으로 지난 6 개월의 데이터가 있습니다.

편집하다:

예상 출력 예측은 다음 형식이어야합니다. 여기에 이미지 설명을 입력하십시오

참고 : 매일 30 일 동안 다음 30 일 동안 각 기계의 고장 확률을 예측하고 싶습니다.


1
이것이 왜 이벤트 시간 데이터 인지 설명 할 수 있다면 도움이 될 것입니다 . 정확히 모델링하려는 응답은 무엇입니까?
Cliff AB

예상되는 출력 예측 테이블을 편집하고 추가하여 명확하게했습니다. 더 궁금한 점이 있으면 알려주세요.
GeorgeOfTheRF

1
불연속 시간 위험 모델과 같은 일부 경우 생존 데이터를 이진 결과로 변환하는 방법이 있습니다 : statisticshorizons.com/wp-content/uploads/Allison.SM82.pdf . 임의 포리스트와 같은 일부 기계 학습 방법은 예를 들어 로그 순위 통계를 분할 기준으로 사용하여 이벤트에 대한 시간 데이터를 모델링 할 수 있습니다.
dsaxton

@dsaxton 감사합니다. 위의 생존 데이터를 이진 결과로 수렴하는 방법을 설명 할 수 있습니까?
GeorgeOfTheRF

자세히 살펴보면 이미와 이진 결과가있는 것 같습니다 failure_flag.
dsaxton

답변:



2

이 참고 문헌을 살펴보십시오.

https://www.stats.ox.ac.uk/pub/bdr/NNSM.pdf

http://pcwww.liv.ac.uk/~afgt/eleuteri_lyon07.pdf

또한 Cox 비례 위험 (CPH)과 같은 기존 위험 기반 모델은 이벤트 발생 시간을 예측하기위한 것이 아니라 추론 하기위한 것입니다. i) 이벤트 관찰, 따라서 ii) 생존 곡선에 대한 변수의 영향 (상관) . 왜? CPH의 MLE을보십시오.

따라서 "일까지 발생"과 같은 것을보다 직접 예측하려면 CPH를 사용하지 않는 것이 좋습니다. 다른 두 모델은 위의 두 참조에서 언급 한 것처럼 작업에 더 적합합니다.


1

@dsaxton이 말했듯이 이산 시간 모델을 만들 수 있습니다. p를 예측하도록 설정했습니다 (이 날의 실패는 전날까지 지속됨). 입력은 현재 날짜입니다 (예 : 원하는대로). 하나의 핫 인코딩, 정수, 스플라인 ... 원하는 다른 독립 변수뿐만 아니라

따라서 시간 t-1까지 생존 한 각 샘플에 대해 데이터 행을 생성하여 시간 t (0/1)에 죽었습니까.

이제 T 시간까지 생존 할 확률은 t = 1에 대한 p (p는 t-1에서 죽지 않았고 t-1에서 죽지 않았 음)의 곱입니다. 즉, 모델에서 T 예측을 한 다음 함께 곱하십시오.

실패 시간을 직접 예측하려는 아이디어가 아닌 이유는 숨겨진 문제 구조 때문입니다. 예를 들어 실패하지 않은 기계에 대해 무엇을 입력합니까? 기본 구조는 사실상 독립적 인 이벤트입니다. 주어진 시간 t에서 실패가 t-1까지 실패하지 않았습니다. 따라서 예를 들어 일정하다고 가정하면 생존 곡선이 지수가됩니다 (위험 모델 참조)

10 분 간격으로 모델링하거나 분류 문제를 하루 수준까지 집계 할 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.