“타겟팅 된 최대 가능성 기대치”란 무엇입니까?


15

Mark van der Laan의 논문을 이해하려고합니다. 그는 Berkeley의 이론적 통계 학자로서 머신 러닝과 상당히 겹치는 문제를 연구하고 있습니다. 저에게있어 한 가지 문제는 (심층 수학 외에도) 완전히 다른 용어를 사용하여 익숙한 기계 학습 접근 방식을 설명하는 경우가 많습니다. 그의 주요 개념 중 하나는 "Targeted Maximum Likelihood Expectation"입니다.

TMLE는 혼란스럽지 않은 요인이 존재하는 경우에도 효과를 추정 할 수있는 방식으로 비 제어 실험에서 관측 된 관측 데이터를 분석하는 데 사용됩니다. 나는 같은 분야의 많은 개념들이 다른 분야의 다른 이름으로 존재하고 있다고 생각하지만, 그 개념을 다른 분야와 직접적으로 일치시킬만큼 충분히 이해하지 못하고 있습니다.

"전산 데이터 분석"과의 격차를 해소하려는 시도는 다음과 같습니다.

데이터 과학 시대로 진입 : 대상 학습 및 통계 및 전산 데이터 분석의 통합

통계 전문가를위한 소개는 다음과 같습니다.

목표 최대 가능성 기반 인과 추론 : 1 부

두 번째부터 :

이 기사에서 우리는 여러 시점 개입의 인과 효과에 대한 특정 대상 최대 가능성 추정기를 개발합니다. 여기에는 손실 기반 수퍼 러닝을 사용하여 G- 계산 공식의 알려지지 않은 요인에 대한 초기 추정값을 구한 다음 대상 매개 변수 별 최적 변동 함수 (최소의 유리한 매개 변수 하위 모형)를 각 추정 된 요인에 적용하고, 최대 가능성 추정으로 변동 파라미터 (들)를 추정하고, 수렴까지 초기 인자의 이러한 업데이트 단계를 반복하는 단계. 이 반복 목표 최대 가능성 업데이트 단계는 인과 효과의 결과 추정값이 초기 추정값이 일정하다면 일관성이 있다는 의미에서 또는 최적 변동 함수의 추정값이 일치합니다. 인과 관계 그래프에서 노드의 조건부 분포가 올바르게 지정된 경우 최적 변동 함수가 올바르게 지정됩니다.

그의 용어에서, "슈퍼 러닝"은 이론적으로 건전한 음이 아닌 가중치 방식을 사용하는 앙상블 학습입니다. 그러나 "목표 매개 변수 별 최적 변동 함수 (최소의 유리한 매개 변수 하위 모델)를 각 추정 된 요인에 적용"한다는 의미입니다.

또는 TMLE가 기계 학습과 유사하고 "최소의 유리한 파라 메트릭 하위 모델"과 다른 분야의 "변동 기능"은 무엇입니까?


1
용어가 익숙하지 않은 한 가지 이유는 TMLE의 목표가 평균 치료 효과-예측이 아닌 인과 추론을 추정하는 것입니다. TMLE에 관한 논문에서 "슈퍼 학습자"를 읽을 때 저자는 앙상블 모델을 만들기 위해 R의 SuperLearner 패키지에서이 용어를 빌렸다 고 생각했습니다.
RobertF

답변:


24

van der Laan은 기존 아이디어 (예 : 수퍼 러너)의 새로운 이름을 발명하려는 경향이 있지만 TMLE은 내가 아는 한 그중 하나가 아닙니다. 실제로 매우 영리한 아이디어이며, 머신 러닝 커뮤니티에서 비슷한 것처럼 보이는 것을 보지 못했습니다 (단지 무지 할 수도 있음). 아이디어는 반모 수 효율적인 추정 방정식의 이론에서 나옵니다. 통계학자가 ML 사람들보다 훨씬 더 많이 생각한다고 생각합니다.

아이디어는 본질적으로 이것입니다. 이 진정한 데이터 생성 메커니즘이고 특정 기능 관심이 있다고 가정하십시오 . 이러한 기능과 관련된 것은 종종 추정 방정식입니다P0 Ψ(P0)

iφ(Yiθ)=0,

여기서 는 어떤 방식으로 에 의해 결정되며 를 식별하기에 충분한 정보를 포함 합니다. 는 됩니다. 예를 들어, 에서이 방정식을 푸는 것은 모두 추정하는 것보다 훨씬 쉽습니다 . 이 추정 방정식은 의 효율적인 추정 방정식을 해결하는 것과 동일 하다는 점에서 효율적 입니다 . (참고 : 휴리스틱을 설명하기 때문에 "효율적"이라는 용어로 약간 느슨합니다.) 이러한 추정 방정식의 이론은 다음과 같이 매우 우아합니다.θ=θ(P)PΨφEPφ(Yθ)=0θP0Ψ(P0)이 책 은 표준 참조입니다. 여기서 "최소 유리한 하위 모델"에 대한 표준 정의를 찾을 수 있습니다. 이들은 반 데어 란이 발명 한 용어가 아닙니다.

그러나 기계 학습 기술을 사용하여 을 추정하는 것은 일반적으로이 추정 방정식을 만족시키지 않습니다. 예를 들어 의 밀도를 추정 하는 것은 본질적으로 어려운 문제이며 아마도 추정하는 것보다 훨씬 어렵지만 기계 학습 기술은 일반적으로 을 추정 한 다음 플러그인 추정을 사용합니다. . van der Laan은이 견적자가 타겟팅되지 않았다고 비판 하므로 비효율적 일 수 있습니다. 아마도 이 아닐 수도 있습니다.P0P0Ψ(P0)P0P^Ψ(P^)n-일관된! 그럼에도 불구하고 van der Laan은 머신 러닝의 힘을 인식하고 관심있는 효과를 추정하려면 궁극적으로 밀도 추정이 필요하다는 것을 알고 있습니다. 그러나 그는 자체 를 추정하는 것에 신경 쓰지 않습니다 . 밀도 추정은 도달하기위한 목적으로 만 수행됩니다 .P0Ψ

TMLE의 아이디어는 초기 밀도 추정 로 시작하여 다음과 같은 새로운 모델을 고려하는 것입니다.p^

p^1,ϵ=p^exp(ϵ φ(Yθ))p^exp(ϵ φ(yθ)) dy

여기서 변동 매개 변수라고합니다. 이제 우리는 가능성을 극대화 합니다. 그 경우 일 일어나는 경우 MLE 후 하나 쉽게 그 유도체를 고려하여 확인할 수있다 로 해결할 효율적인 추정 식, 따라서 추정 효율적 ! 반면 에, MLE에서 , 우리는 보다 데이터에 더 잘 맞는 새로운 밀도 추정기 을 갖습니다 (결국 우리는 MLE을 수행했을 가능성이 더 높습니다). 그런 다음이 절차를 반복하고 살펴 봅니다.ϵϵϵ=0p^Ψϵ0p^1p^

p^2,ϵp^1,ϵ^exp(ϵ φ(Yθ).

그리고 우리가 한계에 도달 할 때까지 효율적인 추정 방정식을 만족시킵니다.


1
: 예,이 TMLE 소개 참조 - "Laan은 기존의 아이디어에 대한 새 이름을 발명하는 경향이있다 데르 그 밴을 동의" biostats.bepress.com/ucbbiostat/paper252을 "무작위로 조"Laan 사용하는 데르 반이 의미하는 곳을, 교환 가능성 및 "실험적 처리 할당 (ETA) 가정"은 양성을 의미한다. :-) 우리 분야에서는 그리 이례적인 일이 아닙니다. 데이터 과학자들은 리콜, 정밀도 및 A / B 테스트와 같은 용어를 사용하여 대학에서 민감도, 긍정적 예측 가치 및 가설 테스트로 배웠습니다.
RobertF

2
@RobertF CAR은 Heitjan과 Rubin에 의한 것으로 MAR의 일반화입니다. Rubin은 MAR을 발명하고 잠재적 인 결과 프레임 워크를 대중화 했으므로 CAR을 무시 / 교환 가능성 유형 가정의 포괄로 사용하는 것이 나에게 공정한 것 같습니다.
남자
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.