파이썬을 사용하여 불균형 데이터 세트에서 임의의 포리스트 모델을 실행합니다 (대상 변수는 이진 클래스였습니다). 교육 및 테스트 데이터 세트를 분할 할 때 계층화 된 샘플링을 사용할지 (표시된 코드와 같은) 사용하지 않을지 고민했습니다. 지금까지 프로젝트에서 계층화 된 사례가 더 높은 모델 성능으로 이어질 것으로 관찰했습니다. 그러나 현재 데이터 세트와 대상 클래스의 분포가 크게 다를 수있는 새로운 사례를 예측하기 위해 모델을 사용할 것이라고 생각합니다. 그래서 나는이 구속을 풀고 층화되지 않은 스플릿을 사용하는 경향이있었습니다. 누구 든지이 점을 분명히하기 위해 조언을 할 수 있습니까?
train,test=train_test_split(myDataset, test_size=0.25, stratify=y)