시간에 따른 로지스틱 회귀 분석에서 분류 확률 업데이트


19

학기 말에 학생의 성공 확률을 예측하는 예측 모델을 작성 중입니다. 저는 학생의 성공 또는 실패 여부에 특히 관심이 있습니다. 여기서 성공은 일반적으로 과정을 이수하 고 총 점수 중 70 % 이상을 달성하는 것으로 정의됩니다.

모델을 배포 할 때 학생이 과제를 제출하거나 성적을 올리는 등의 일이 발생한 직후에 더 많은 정보를 사용할 수있게되면 성공 확률 추정을 시간이 지남에 따라 업데이트해야합니다. 이 업데이트는 일종의 베이지안처럼 들리지만 교육 통계에 대한 훈련을 받았을 때, 그것은 내 안락 지대 밖입니다.

지금까지 주별 스냅 샷이 포함 된 기록 데이터 세트와 함께 로지스틱 회귀 (실제로는 올가미)를 사용했습니다. 이 데이터 세트는 각각의 학생이 관찰을 때문에 상관 관계가 있습니다 . 한 학생의 관찰 결과는 서로 관련되어 있습니다. 특정 학생의 주간 관측치 내에서 상관 관계를 구체적으로 모델링하지는 않습니다. 표준 오류가 너무 작기 때문에 추론 적 설정에서만 고려해야한다고 생각합니다. 상관 관계 관측에서 발생하는 유일한 문제는 데이터의 한 하위 집합에 군집 관측을 유지하기 위해 교차 검증 할 때주의해야한다는 것입니다. 모델이 이미 본 사람에 대한 예측을 기반으로 인위적으로 낮은 샘플 외부 오류율.이자형아르 자형미디엄이자형h/7

내가 사용하고 R의 glmnet 패키지를 성공 / 실패의 확률을 생성하는 물류 모델과 올가미를 수행하고 자동으로 특정 과정에 대한 예측을 선택 할 수 있습니다. 나는 주 변수를 요인으로 사용하여 다른 모든 예측 변수와 상호 작용했습니다. 다른 주마다 다양한 위험 조정 요소를 통해 조정되는 용어 전체에 대해 공통 모델이 어떻게 존재할 수 있는지에 대한 아이디어를 제공한다는 점을 제외하고는 이것이 개별 주 기반 모델을 추정하는 것과 일반적으로 다르다고 생각하지 않습니다.

주요 질문 은 이것입니다 : 데이터 세트를 주간 (또는 다른 간격 기반) 스냅 샷으로 나누고 다른 모든 기능과 상호 작용하는 시간 간격 요인 변수를 도입하는 것보다 시간이 지남에 따라 분류 확률을 업데이트하는 더 좋은 방법이 있습니까? 누적 기능 (누적 점수, 수업 일 누적 등)을 사용합니까?

두 번째 질문이 있다 : 나는 상관 관계 관측과 예측 모델링에 대한 여기에 중요한 뭔가를 놓친 거지?

세 번째 질문은 이다 : 나는 매주 스냅 샷을하고있어 감안할 때, 실시간 업데이트로이 문제를 일반화 할 수있는 방법? 나는 현재 주간 간격으로 변수를 꽂을 계획이지만 이것이 나에게 오해 된 것 같습니다.

참고로, 나는 응용 교육 통계 훈련을 받았지만 오래 전부터 수학 통계에 대한 배경 지식이 있습니다. 의미가 있다면 좀 더 정교한 것을 할 수 있지만 비교적 접근하기 쉬운 용어로 설명해야합니다.

답변:


4

여기서 갈 수 없습니다. 다른 모델로 시작해야합니다. 나는 매주 스냅 샷을 유지하고 각 학생의 상태 변수의 전환에 관한 확률 적 모델을 만들 것입니다. 11 "결정 ''포인트 제공 십주, 거기에 가정 .에서 상태 것입니다 , 학생이 등록되지 않았거나으로 1 또는 0, 따라 그리고 그 시점 (최신 시험과 숙제 점수의 합)의 점수이다 초기 값입니다. 당신은 걱정에 두 개의 전환이 있습니다. 및 분포 .t i ( Z i , S i ) Z i S i ( 1 , 0 ) P r o b ( z i = 0 | s i - 1 ) S i0,1,,나는(나는,에스나는)나는에스나는(1,0)아르 자형영형(나는=0|에스나는1)에스나는

이탈 확률은 정체되지 않습니다. 벌금이 부과되는 최종 탈락 직전에 탈락이 발생하기 때문입니다. 그러나 과거 데이터에서 이러한 데이터를 추정 할 수 있으며 현재 (불량) 성능의 함수로 중퇴 할 가능성을 추정 할 수도 있습니다.

점수는 이항 결과 (의 시험에 정답의 수에 임의의 거리에 있습니다 항목, 말). 조건부 독립성을 가정 할 수 있습니다. 각 학생의 잠재 "talent"매개 변수를 가정하고 해당 값에 따라 각 새 점수는 현재 성과와 무관합니다. 과거 데이터와 비교하여이 가정을 테스트 할 수 있습니다 ... 실패한 학생이 학습 습관을 바꾸고 승리를 거두나요? 그러나 대부분의 학생들은 진실하게 행동합니다 ... 조건부 독립 모델은 정상적으로 작동합니다.N에스

따라서 기본적으로 점수가 0으로 전환되거나 점수가 70 \ % 합격 임계 값을 초과 하지 않으면 학생이 실패합니다 .S에스

프로세스를 보다 자세히 살펴 보자 . 모델을 단순화하기 위해 평가에는 매주 10 개의 테스트 항목에서 얻은 총 100 개의 가능한 포인트에서 70 포인트 이상을 얻는 것으로 가정합니다.에스

기준선에서 학생의 합격 확률은 단순히 이전 수업의 합격률입니다.

시간 1에, 학생은 포인트 를 얻었습니다 . 그는 90 점 만점에 점을 획득 할 수 있으면 통과합니다. 이것은 이항 문제이며, 학생의 성공 확률을 알면 쉽게 계산할 수 있습니다. 더 이상 "클래스 평균"이 아닙니다. 지금까지 학생의 성공에 비추어 조정해야합니다. 나는 과거의 경험에서 나온 테이블을 사용하지만 전체 수업 성공률과 학생의 개인적 성공의 가중 평균을 수행 할 수 있습니다. 베이 즈 규칙이 여기에 도움이 될 것입니다. 70 S 1에스170에스1

보너스로 확률의 범위를 계산할 수 있으며, 기간이 진행됨에 따라 범위가 좁아 져야합니다. 사실, 강한 학생들은 학기가 끝나기 전에 70 %를 넘어서며 그 시점에서 성공할 것입니다. 약한 학생들의 경우 실패도 끝날 때까지 확실해질 것입니다.

RE : 질문 3. 계속 시간을 가야합니까? 그럴 수없는 이유는 그것이 연속 시간 확률 론적 과정의 영역에 들어가고 관련 수학이 제 급여 수준보다 높기 때문입니다. 뿐만 아니라 실질적으로 다른 결과를 얻지 못할 수도 있습니다.

내가 설명한 모델을 업그레이드하는 가장 좋은 방법은 지속적인 시간이 아니라 이전 경험을 바탕으로 전환 확률을 조정하는 것입니다. 아마도 약한 학생들은 독립 모델이 예측하는 것보다 더 뒤쳐 질 것입니다. inhomegeneity를 통합하면 불연속에서 연속 시간으로 이동하는 것보다 모델을 개선 할 수 있습니다.


0

비슷한 유형의 배포를 위해 예측 모델을 훈련시킬 때 데이터 집합에 일종의 Term_End_Date가 있는지 확인하여 용어가 끝날 때까지 남은 시간을 알 수 있습니다. 이것은 아마도 모델에서 중요한 예측 변수가 될 것입니다.

상관 된 관측에 관한 질문에 관해서는 데이터 저장소의 크기가 중요하다고 생각합니다. 가능한 경우 각 학생에 대해 1 개의 관찰을 무작위로 선택하고 [학기 종료까지 # 주에 계층화 됨]. 가능하다면 더 오래된 용어를 빼앗아 갈 것입니다. 데이터가 충분하지 않으면 부트 스트랩과 같은 리샘플링 방법을 시도해 볼 수 있습니다.

작은 데이터 세트가있는 경우 가장 중요한 것은 최종 모델이 안정적으로 유지되도록 충분한 데이터를 홀드 아웃으로 유지하는 것입니다.

나는 당신이 모두 끝났고, 당신이 점수 공식을 가지고 있다고 생각하면, 그것은 구현하기가 매우 쉬울 것입니다. 그러나 그렇습니다. 점수를 계산 해야하는 주간 x 변수를 계속 연결해야하지만 이는 데이터 수집 문제와 비슷하고 모델 구현에 대해서는 덜 들립니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.