작은 샘플 임상 연구에서 머신 러닝 기술 적용


15

분류 맥락에서 흥미로운 예측 변수를 분리하는 것이 목표 인 경우 소규모 표본 임상 연구에서 랜덤 포레스트 또는 벌점 형 회귀 (L1 또는 L2 페널티 또는 이들의 조합으로)와 같은 기계 학습 기술을 적용하는 것에 대해 어떻게 생각하십니까? 모델 선택에 대한 질문이 아니며 가변 효과 / 중요도에 대한 최적의 추정치를 찾는 방법에 대해서도 묻지 않습니다. 나는 강력한 추론을 할 계획은 아니지만 다변량 모델링을 사용하기 때문에 각 예측 변수를 한 번에 하나씩 관심 결과에 대해 테스트하지 않고 상호 관계를 고려하지 않습니다.

10-15 범주 또는 연속 변수에 대한 데이터를 가진 20-30 명의 피험자에게 이러한 극단적 인 경우에 그러한 접근 방식이 이미 적용되었는지 궁금합니다. 그것은 정확히 사례 가 아니며 여기서 문제는 우리가 설명하려고 시도하는 클래스의 수 (잘 균형이 맞지 않는)와 (매우) 작은 n과 관련이 있다고 생각합니다. 나는 생물 정보학의 맥락에서이 주제에 관한 거대한 문헌을 알고 있지만, 심리학 적으로 측정 된 표현형 (예 : 신경 심리학 적 설문지 전체)을 이용한 생의학 연구와 관련된 언급을 찾지 못했습니다.np

관련 논문에 대한 힌트 나 조언이 있습니까?

최신 정보

C4.5 알고리즘 또는 그 파생어, 연관 규칙 방법 및 감독 또는 준 감독 분류를위한 데이터 마이닝 기술과 같은 이러한 종류의 데이터를 분석하는 다른 솔루션을 사용할 수 있습니다.


분명하게 : 귀하의 질문은 설정이 아닌 데이터의 크기에 관한 것입니까?
셰인

정확히, 나는 "가장 작은"n (다수의 변수에 대한)에 대한 참조가 있는지, 또는 교차 검증 기술 (또는 RF에서와 같은 리샘플링 전략)이 그러한 극단적 인 경우에도 유효하게 남아 있는지 더 정확하게 궁금합니다. .
chl

답변:


7

나는 이것이 생물 정보학 / 기계 학습 외부에서도 사용되는 것을 보지 못했지만 아마도 당신은 첫 번째가 될 수 있습니다 :)

생물 정보학의 소 표본 분석법을 잘 대표하는 L1 정규화를 사용한 로지스틱 회귀 분석은 관측치 수가 매개 변수의 수에 기하 급수적 일 때 적합 할 수 있으며, Chernoff 유형의 불평등을 사용하여 비 점근 적 신뢰 구간을 만들 수 있습니다. 예를 들어 Dudik (2004 ). Trevor Hastie는 유전자 상호 작용을 식별하기 위해 이러한 방법을 적용한 일부 작업을 수행했습니다. 아래 논문에서 그는 2200 개의 관측치 샘플에 적합한 310,637 개의 조정 가능한 매개 변수를 사용하여 모델의 중요한 효과를 식별하는 데 사용합니다.

"올가미에 의한 게놈 회귀 분석은 로지스틱 회귀 분석에 불이익을 미쳤다." 저자 : Hastie, T; 소벨, E; 우, T.T; 첸, Y.F; Lange, K Bioinformatics Vol : 25 호 : 6 ISSN : 1367-4803 날짜 : 2009 / 03 / 페이지 페이지 : 714-721

Victoria Stodden의 관련 프리젠 테이션 ( 관찰보다 더 많은 변수를 가진 모델 선택 )


예, Wu et al. 2009 년은 좋은 논문입니다. 또한 지난 2 년 동안 GWAS와 ML을 연구하고 있습니다. 이제 저는 불완전한 측정, 데이터 누락, 물리학 자 관점에서 볼 때 많은 흥미로운 변수를 다루어야하는 임상 연구로 돌아 가려고합니다.
chl

BTW, 나는 방금이 질문에 대해 생각하게하는 논문을 보았습니다 ... 머신 러닝 논문에서 신뢰 구간에 대해 이야기하는 것은 매우 드물지만 여기서 ncbi.nlm.nih.gov/pubmed/19519325
Yaroslav Bulatov

추가 링크에 감사드립니다. 여전히 문제는 작은 과 이기종 예측 변수에 있습니다. 나에게 보인다 N « P의 경우는 이제 점점 유전학에서 뇌 영상 연구를 잘 연구되어, 또는 때 우리는 사이에 기하 급수적 인 관계를 가정 할 수 NP는 하지만, 그 순간에 나는 관련성 또는 예측 능력의 증거를 발견하지 내가 제시 한 특정 연구에서 도움이되었습니다. 이 경우 RF 및 희소 회귀가 어떻게 수행되는지 확인하기 위해 현재 MC 시뮬레이션을 실행하고 있습니다. 이 방향으로 진행되는 모든 과정을 알려 드리겠습니다.
chl

이것은 매우 흥미로운 질문입니다. 블로그 게시물 에 포함 된 기사 및 기타 기사 중 일부를 수집 했습니다 (걱정하지 마십시오). 나는 거기에 다른 사람들이 있다고 확신합니다.
앤드류

5

예측 변수 15 개와 표본 크기 20의 탐색 분석 결과의 일반화 가능성에 대해서는 거의 확신이 없습니다.

  • 모수 추정치의 신뢰 구간이 큽니다. 예를 들어, n = 20 일 때 r = .30에서 95 % 신뢰 구간은 -0.17에서 0.66입니다.
  • 탐색 및 데이터 기반 방식으로 여러 예측 변수를 사용하면 문제가 더욱 복잡해집니다.

그러한 상황에서 저의 조언은 일반적으로 분석을 이변 량 관계로 제한하는 것입니다. 베이지안 관점을 취하면 데이터보다 중요하지 않은 경우 이전의 기대치가 동일하다고 말하고 싶습니다.


4

일반적인 분류 규칙은 분류기에 조정 가능한 매개 변수가 있으므로 훈련 데이터 인스턴스 수의 10 배 이상 (테스트 / 검증 데이터 등을 말하지 않는 등)을 갖는 것입니다. 적절한 데이터뿐만 아니라 대표 데이터 도 있어야하는 문제가 있음을 명심하십시오 . 결국,이 결정을 내릴 때 너무 많은 변수가 있기 때문에 체계적인 규칙은 없습니다. Hastie, Tibshirani 및 Friedman 은 통계 학습의 요소 (7 장 참조) 에서 다음 과 같이 말합니다 .

충분한 훈련 데이터가 충분한 지에 대한 일반적인 규칙을 제시하는 것은 너무 어렵다. 무엇보다도 이것은 기본 기능의 신호 대 잡음비와 데이터에 적합한 모델의 복잡성에 달려 있습니다.

이 분야를 처음 사용하는 경우, 일부 데이터 문제에 대한 간략한 요약을 제공하는 생물 의학 공학 백과 사전 의이 "패턴 인식" 논문을 읽는 것이 좋습니다 .


감사! 나는 Hastie의 책과 C. Bishop (Pattern Recognition and Machine Learning)의 책을 가지고 있습니다. 나는 그러한 작은 n이 가짜이거나 신뢰할 수없는 (Jeromy Anglim의 의견 참조) 연결로 이어질 것임을 알고 있습니다. 그러나 Breiman에서 구현 한 RF 알고리즘을 사용하면 트리가 커질 때마다 (제 경우에 3 또는 4) 제한된 OOB 기능에 대처할 수 있으며 OOB 오류율이 다소 높지만 (그러나 예상해야 함) 변수의 중요성으로 인해 2 변량 테스트 (순열 테스트)를 사용하여 비슷한 결론에 도달 할 것이라고 결론을 내 렸습니다.
chl

1
이 법칙은 주로 l2 정규화 된 최대 가능성과 같은 고전적인 방법에 적용되며, L1 정규화 된 방법은 조정 가능한 매개 변수의 수가 관측 횟수에 기하 급수적 일 때 효과적으로 학습 할 수 있습니다 (예 : Miroslav Dudik, 2004 COLT paper)
Yaroslav Bulatov

3

이 경우 RF가 작동하고 표준 (n << p) s와 같이 중요하지 않은 잘못된 속성의 꼬리가 많지 않기 때문에 중요성 측정이 상당히 통찰력이 있음을 확신 할 수 있습니다. 비슷한 문제를 다루는 논문을 지금은 기억할 수 없지만 찾아 보겠습니다.


1
감사! 나는 지난 달 IVth EAM-SMABS 회의에 참석했으며, 한 발표자는 생의학 연구에서 ML의 적용을 발표했습니다. 불행히도, 이것은 N ~ 300 명의 피험자와 p = 10 예측자를 가진 다소 "표준적인"연구였습니다. 그는 의학 통계학에 논문을 제출하려고한다 . 내가 찾고있는 것은 단지 기사 / 참고 문헌입니다. 결과의 일반화가 그다지 중요하지 않은 외래 환자를 대상으로 한 표준 임상 연구.
chl

마지막으로 종이를 찾았습니까?
chl

@chl 아직; 하지만 알림 주셔서 감사합니다.

서두르지 않습니다. :) 흥미로운 것을 찾지 못했습니다. 아마도 Pubmed가이 특별한 경우에 적합한 검색 엔진이 아닐 수도 있습니다.
chl

@chl 여기도 내 문제입니다. 실제로 n << p는 생체 데이터의 동의어가 된 것 같습니다.

0

이산 입력이있는 경우 이전 입력에서 주어진 이진 입력의 누락 값을 예측하는 프로그램을 작성 중입니다. "1 of 6"과 같은 모든 범주는 이진 비트로 변환 될 수 있으며 제대로 작동합니다. 영향을 미치지 않습니다.

내가 쓰고있는 알고리즘의 목적은 수학적으로 가능한 빨리 배우는 것입니다. 결과적으로 시간과 공간의 복잡성 (O (4 ^ N)에 대한 공간 복잡성!)이 매우 열악합니다.

그러나이를 위해서는 상태를 비트 벡터로 표현할 수있는 모든 시스템에 대해 일회성 학습이 필요합니다. 예를 들어, 전체 가산기는 8 개의 개별 입력 상태를 갖습니다. 이 알고리즘은 8 개의 별개의 트레이닝 샘플만으로 완벽한 가산기를 학습합니다. 뿐만 아니라 답변을 제공하고 질문을 예측하게하거나 답변의 일부와 질문의 일부를 제공하고 나머지를 채울 수 있습니다.

입력 데이터에 많은 비트가 있으면 계산과 메모리 집약적입니다. 그러나 만약 당신이 아주 적은 샘플을 가지고 있다면 – 또는 디자인 목표는 – 당신에게 가능한 최고의 예측을 제공 할 것입니다.

비트 벡터를 알 수없는 비트 벡터를 포함하여 비트 벡터로 훈련시킵니다. 예측을하려면 마찬가지로 비트 벡터, 알려지지 않은 비트 및 예측하려는 비트를 제공합니다.

여기에 사용 가능한 소스 코드 : https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.