전체 공개 : 이것은 숙제입니다. 데이터 세트에 대한 링크를 포함 시켰습니다 ( http://www.bertelsen.ca/R/logistic-regression.sav )
저의 목표는이 데이터 세트에서 대출 불이행자 예측을 최대화하는 것입니다.
지금까지 생각해 낸 모든 모델은 기본값이 아닌 사용자의> 90 %를 예측하지만 분류기의 전체 효율을 ~ 80 %로 만드는 기본값의 <40 %를 예측합니다. 변수 사이에 상호 작용 효과가 있는지 궁금합니다. 로지스틱 회귀 분석에서 가능한 각 조합을 테스트하는 것 외에 잠재적 인 상호 작용 효과를 식별 할 수있는 방법이 있습니까? 또는 기본 설정 분류의 효율성을 높이는 방법입니다.
나는 모든 추천이 당신이 선택한 단어, R 코드 또는 SPSS 구문에 도움이 될 것입니다.
내 주요 변수는 다음 히스토그램 및 산점도에 나와 있습니다 (이분법 제외).
주요 변수에 대한 설명 :
age: Age in years
employ: Years with current employer
address: Years at current address
income: Household income in thousands
debtinc: Debt to income ratio (x100)
creddebt: Credit card debt in thousands
othdebt: Other debt in thousands
default: Previously defaulted (dichotomous, yes/no, 0/1)
ed: Level of education (No HS, HS, Some College, College, Post-grad)
추가 변수는 위의 변형 일뿐입니다. 또한 연속 변수 중 일부를 범주 형 변수로 변환하고 모델에서 구현하려고 시도했지만 운이 없었습니다.
R에 빠르게 넣으려면 다음과 같이하십시오.
## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T)