여기 에서 와인 데이터 는 0에서 10 사이의 값을 가진 각 항목과 관련된 종속 등급이있는 11 개의 숫자 독립 변수로 구성됩니다. 이는 회귀 모델을 사용하여 변수와 관련 변수의 관계를 조사하는 데 유용한 데이터 세트입니다 평가. 그러나 선형 회귀가 적절합니까, 아니면 다항식 / 순서 로지스틱 회귀를 사용하는 것이 더 낫습니까?
로지스틱 회귀 분석은 특정 범주, 즉 연속 종속 변수가 아니라 (1) 11 범주 (약간 너무 많습니까?) 및 (2) 검사시 해당 범주 중 6-7에 대한 데이터 만 남아 있습니다. 5-4 범주에는 데이터 세트에 예가 없습니다.
반면에 선형 회귀는 0-10 사이의 등급을 선형으로 추정해야합니다. 이는 내가 찾으려고하는 것에 더 가깝습니다. 그러나 종속 변수는 데이터 세트에서 연속적이지 않습니다.
더 나은 방법은 무엇입니까? 참고 : 분석에 R을 사용하고 있습니다.
답변에 언급 된 몇 가지 사항을 해결하면서 편집하십시오.
- 이것은 실제로 대학 과정을위한 것이기 때문에 비즈니스 목표는 없습니다. 과제는 내가 선택하는 방식에 따라 선택한 데이터 세트를 분석하는 것입니다.
- 등급 분포는 정상으로 보입니다 (히스토그램 / qq 플롯). 데이터 세트의 실제 값은 3-8 (기술적으로 0-10이지만)입니다.