클레임 데이터의 과거 상태에서 다음 의학적 상태 예측


12

저는 현재 일부 실험실 및 약국 청구를 포함하는 대규모 건강 보험 청구 데이터를 사용하고 있습니다. 그러나 데이터 세트에서 가장 일관된 정보는 진단 (ICD-9CM)과 절차 코드 (CPT, HCSPCS, ICD-9CM)로 구성됩니다.

나의 목표는 :

  1. 만성 신장 질환과 같은 의학적 상태에 대해 가장 영향력있는 전구체 상태 (수용성)를 식별하십시오.
  2. 환자가 과거에 있었던 상태에 근거하여 의학적 상태를 개발할 가능성 (또는 확률)을 식별합니다.
  3. 1 및 2와 동일하지만 절차 및 / 또는 진단을 수행하십시오.
  4. 바람직하게는, 결과는 의사에 의해 해석 될 수있다

나는 Heritage Health Prize Milestone 논문 과 같은 것들을보고 많은 것들을 배웠지 만 입원 예측에 중점을두고 있습니다.

내 질문은 다음과 같습니다. 이와 같은 문제에 어떤 방법이 효과적이라고 생각합니까? 그리고 의료 및 임상 의학과 관련된 데이터 과학 응용 프로그램 및 방법에 대해 배우는 데 가장 유용한 리소스는 무엇입니까?

일반 텍스트 테이블을 추가하려면 # 2를 편집하십시오.

CKD는 "만성 신장 질환", ".any"는 대상 상태를 나타냅니다. ".any"는 언제라도 해당 상태를 획득했음을 나타냅니다. ".isbefore.ckd"는 CKD의 첫 진단 전에 해당 상태를 가졌음을 의미합니다. 다른 약어는 ICD-9CM 코드 그룹으로 식별 된 다른 조건과 일치합니다. 이 그룹화는 가져 오기 프로세스 중에 SQL에서 발생합니다. patient_age를 제외한 각 변수는 이진입니다.


1
예제 데이터를 제공 할 수 있습니까 (일반 영어, 코드 없음)?
ffriend

원본 게시물에 예제 데이터를 추가했습니다. 이 버전에서 각 조건은 3 문자 코드로 표시됩니다.
Jamie

1
R은 시원하지만 인간이 읽을 수있는 것은 아닙니다. 데이터 샘플을 표 형식으로 다시 포맷 할 수 있습니까 (예 : CSV 또는 TSV 형식 사용, 5-6 열은 괜찮음)? 또한 변수에 대한 설명 ( "anx.any", "flu.isbefore.ckd"등이 실제로 의미하는 것과 예측해야하는 것)이 많은 도움이 될 것입니다.
ffriend

1
상관 관계가 있는지 이해할 수 있도록 데이터 세트에 사용 된 매개 변수에 대한 자세한 정보를 제공 할 수 있습니다. 당신이 언급 한 약어 중 일부는 나에게 분명하지 않습니다. 우리가 오프라인으로 협업 할 수 있도록 이메일 ID를 공유 할 수 있다면 좋을 것입니다. 감사!
JohnGalt

1
이것은 약간 관련이 있지만 가장 최근의 데이터 과학 과제는 다른 주장의 주장을 예측하는 것과 관련이 있습니다. cloudera.com/content/cloudera/en/training/certification/ccp-ds/… 솔루션이 출시되면 몇 가지 흥미로운 아이디어가 포함될 수 있습니다.
Sean Owen

답변:


7

나는 의료 데이터를 사용한 적이 없지만 일반적인 추론에서 건강 관리의 변수 사이의 관계는 매우 복잡하다고 말하고 싶습니다. 임의 포리스트, 회귀 등의 다른 모델은 관계의 일부만 캡처하고 다른 모델은 무시할 수 있습니다. 이러한 상황에서는 일반적인 통계 탐색모델링 을 사용하는 것이 좋습니다 .

예를 들어, 내가 할 첫 번째 일은 가능한 전구체 조건과 진단 사이의 상관 관계 를 찾는 것 입니다. 예를 들어 만성 신장 질환이 긴 독감에 걸리는 비율은 몇 퍼센트입니까? 그것이 높다면, 항상 인과성을 의미 하는 것은 아니지만 , 생각하기에 좋은 음식을 제공하고 다른 조건들 사이의 관계를 더 잘 이해하는 데 도움이됩니다.

또 다른 중요한 단계는 데이터 시각화입니다. CKD는 여성보다 남성에서 더 자주 발생합니까? 그들의 거주지는 어떻습니까? 연령별 CKD 사례의 분포는 무엇입니까? 큰 데이터 집합을 숫자 집합으로 파악하기가 어렵 기 때문에이를 쉽게 정리할 수 있습니다.

무슨 일이 일어나고 있는지 알면 가설 테스트 를 수행 하여 가정을 확인하십시오. 대체 가설을 찬성하여 귀무 가설 (기본 가정)을 기각하면 축하합니다.

마지막으로, 데이터를 잘 이해하면 완전한 모델 을 작성하십시오 . PGM (예 : 수동으로 제작 된 베이지안 네트워크) 과 같은 일반적인 것이 거나 선형 회귀 또는 SVM 과 같은 더 구체적인 것일 수도 있습니다 . 그러나 어떤 식 으로든이 모델이 데이터와 어떻게 일치하는지와 효율성을 측정하는 방법을 이미 알고있을 것입니다.


통계적 접근을 배우기위한 좋은 시작 자료로서 저는 Sebastian Thrun의 Intro to Statistics 과정을 추천 합니다. 매우 기본적이고 고급 주제는 포함하지 않지만 가장 중요한 개념을 설명하고 확률 이론과 통계에 대한 체계적인 이해를 제공합니다.


감사합니다! 이미 수행 한 일부 단계 (탐사 분석, 가설 검정 등)를 확인합니다.
Jamie

7

나는 데이터 과학자가 아니지만 임상 환경에서 일하는 역학자입니다. 귀하의 연구 질문에 기간이 명시되어 있지 않습니다 (예 : 1 년, 10 년, 평생 CKD 발생 확률)?

일반적으로 모델링 (단 변량 분석, 이변 량 분석, 공선 성 검사 등)에 대해 생각하기 전에 여러 단계를 거쳤습니다. 그러나 연속 OR 이진 변수를 사용하여 이진 이벤트를 예측하는 데 가장 일반적으로 사용되는 방법은 로지스틱 회귀입니다. CKD를 실험실 값 (소변 알부민, eGFR)으로보고자한다면 선형 회귀 (연속 결과)를 사용합니다.

사용 된 방법은 데이터와 질문으로 알려야하지만, 의사는 NEJM 및 JAMA와 같은 의학 저널에서 가장 일반적으로보고되는 연관 척도로 확률과 위험 비율을 확인하는 데 사용됩니다.

비즈니스 인텔리전스와 달리 인간 건강 관점에서이 문제를 해결하려는 경우 Steyerberg의 임상 예측 모델 은 훌륭한 리소스입니다.


1
유용한 제안에 감사드립니다. 나는 확실히 그 책을 체크 아웃 할 것이다! 랩 값에 액세스 할 수는 있지만 데이터는 신뢰할 수 없으며 산발적이므로 클레임에서 얻을 수있는 데이터를 고수하려고합니다. 변수 약어는 실제로 진단 코드의 AHRQ 임상 분류 소프트웨어 그룹입니다.
Jamie

3

"만성 신장 질환과 같은 의학적 상태에 대한 가장 영향력있는 선구자 상태 (수용성) 파악"

나는 확실히 그것을 ID로 가능하다는 아니에요 가장 영향력있는 조건; 사용중인 모델에 따라 다릅니다. 어제 나는 임의의 숲과 강화 된 회귀 트리를 동일한 데이터에 맞추었고 각 모델이 변수에 부여한 순서와 상대적인 중요성은 상당히 달랐습니다.


고마워 앤디 좀 더 자세히 설명해 주시겠습니까? 변수가 충분한 세부 사항을 캡처하지 않기 때문입니까?
Jamie

나도 몰라 다른 모델의 작동 방식에 달려 있다고 생각합니다.
JenSCDC

시도하거나 고려한 솔루션 중 일부를 제안 할 수 있습니까?
Jamie

지금까지 나는 아무것도하지 않았으므로 아무런 도움이되지 않습니다. 죄송합니다.
JenSCDC

나는 앞으로 몇 주 동안 휴가를 보내고 있지만, 돌아 왔을 때 실제로 관심을 끌었 기 때문에 살펴볼 것입니다.
JenSCDC
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.