학기 말에 학생의 성공 확률을 예측하는 예측 모델을 작성 중입니다. 저는 학생의 성공 또는 실패 여부에 특히 관심이 있습니다. 여기서 성공은 일반적으로 과정을 이수하 고 총 점수 중 70 % 이상을 달성하는 것으로 정의됩니다.
모델을 배포 할 때 학생이 과제를 제출하거나 성적을 올리는 등의 일이 발생한 직후에 더 많은 정보를 사용할 수있게되면 성공 확률 추정을 시간이 지남에 따라 업데이트해야합니다. 이 업데이트는 일종의 베이지안처럼 들리지만 교육 통계에 대한 훈련을 받았을 때, 그것은 내 안락 지대 밖입니다.
지금까지 주별 스냅 샷이 포함 된 기록 데이터 세트와 함께 로지스틱 회귀 (실제로는 올가미)를 사용했습니다. 이 데이터 세트는 각각의 학생이 관찰을 때문에 상관 관계가 있습니다 . 한 학생의 관찰 결과는 서로 관련되어 있습니다. 특정 학생의 주간 관측치 내에서 상관 관계를 구체적으로 모델링하지는 않습니다. 표준 오류가 너무 작기 때문에 추론 적 설정에서만 고려해야한다고 생각합니다. 상관 관계 관측에서 발생하는 유일한 문제는 데이터의 한 하위 집합에 군집 관측을 유지하기 위해 교차 검증 할 때주의해야한다는 것입니다. 모델이 이미 본 사람에 대한 예측을 기반으로 인위적으로 낮은 샘플 외부 오류율.
내가 사용하고 R의 glmnet 패키지를 성공 / 실패의 확률을 생성하는 물류 모델과 올가미를 수행하고 자동으로 특정 과정에 대한 예측을 선택 할 수 있습니다. 나는 주 변수를 요인으로 사용하여 다른 모든 예측 변수와 상호 작용했습니다. 다른 주마다 다양한 위험 조정 요소를 통해 조정되는 용어 전체에 대해 공통 모델이 어떻게 존재할 수 있는지에 대한 아이디어를 제공한다는 점을 제외하고는 이것이 개별 주 기반 모델을 추정하는 것과 일반적으로 다르다고 생각하지 않습니다.
내 주요 질문 은 이것입니다 : 데이터 세트를 주간 (또는 다른 간격 기반) 스냅 샷으로 나누고 다른 모든 기능과 상호 작용하는 시간 간격 요인 변수를 도입하는 것보다 시간이 지남에 따라 분류 확률을 업데이트하는 더 좋은 방법이 있습니까? 누적 기능 (누적 점수, 수업 일 누적 등)을 사용합니까?
내 두 번째 질문이 있다 : 나는 상관 관계 관측과 예측 모델링에 대한 여기에 중요한 뭔가를 놓친 거지?
내 세 번째 질문은 이다 : 나는 매주 스냅 샷을하고있어 감안할 때, 실시간 업데이트로이 문제를 일반화 할 수있는 방법? 나는 현재 주간 간격으로 변수를 꽂을 계획이지만 이것이 나에게 오해 된 것 같습니다.
참고로, 나는 응용 교육 통계 훈련을 받았지만 오래 전부터 수학 통계에 대한 배경 지식이 있습니다. 의미가 있다면 좀 더 정교한 것을 할 수 있지만 비교적 접근하기 쉬운 용어로 설명해야합니다.