와인 등급을 예측하기위한 선형 회귀 또는 순서 형 로지스틱 회귀 (0 및 10)


18

여기 에서 와인 데이터 는 0에서 10 사이의 값을 가진 각 항목과 관련된 종속 등급이있는 11 개의 숫자 독립 변수로 구성됩니다. 이는 회귀 모델을 사용하여 변수와 관련 변수의 관계를 조사하는 데 유용한 데이터 세트입니다 평가. 그러나 선형 회귀가 적절합니까, 아니면 다항식 / 순서 로지스틱 회귀를 사용하는 것이 더 낫습니까?

로지스틱 회귀 분석은 특정 범주, 즉 연속 종속 변수가 아니라 (1) 11 범주 (약간 너무 많습니까?) 및 (2) 검사시 해당 범주 중 6-7에 대한 데이터 만 남아 있습니다. 5-4 범주에는 데이터 세트에 예가 없습니다.

반면에 선형 회귀는 0-10 사이의 등급을 선형으로 추정해야합니다. 이는 내가 찾으려고하는 것에 더 가깝습니다. 그러나 종속 변수는 데이터 세트에서 연속적이지 않습니다.

더 나은 방법은 무엇입니까? 참고 : 분석에 R을 사용하고 있습니다.

답변에 언급 된 몇 가지 사항을 해결하면서 편집하십시오.

  • 이것은 실제로 대학 과정을위한 것이기 때문에 비즈니스 목표는 없습니다. 과제는 내가 선택하는 방식에 따라 선택한 데이터 세트를 분석하는 것입니다.
  • 등급 분포는 정상으로 보입니다 (히스토그램 / qq 플롯). 데이터 세트의 실제 값은 3-8 (기술적으로 0-10이지만)입니다.

답변:


9

순위가 지정된 종속 변수가 있으므로 순서가 지정된 로짓 모델이 더 적합합니다. 예를 들어 7이 4보다 낫습니다. 따라서 명확한 명령이 있습니다.

이를 통해 각 구간에 대한 확률을 얻을 수 있습니다. 고려해야 할 몇 가지 가정이 있습니다. 당신은 여기를 볼 수 있습니다 .

서수 로지스틱 (및 서수 프로 빗) 회귀의 기본 가정 중 하나는 각 결과 그룹 쌍 사이의 관계가 동일하다는 것입니다. 즉, 순서 형 로지스틱 회귀 분석에서는 반응 변수의 가장 낮은 범주와 가장 높은 범주 사이의 관계를 나타내는 계수가 다음 가장 낮은 범주와 모든 높은 범주 간의 관계를 나타내는 계수와 같은 것으로 가정합니다. 이를 비례 배당 가정 또는 병렬 회귀 가정이라고합니다.

일부 코드 :

library("MASS")
## fit ordered logit model and store results 'm'
m <- polr(Y ~ X1 + X2 + X3, data = dat, Hess=TRUE)

## view a summary of the model
summary(m)

여기 , 여기 , 여기 또는 여기에 추가 설명이있을 수 있습니다 .

계수를 승산 비로 변환 한 다음 확률로 명확하게 해석하려면 확률로 변환해야합니다.

간단하고 간단한 방법으로 다음과 같이 계산할 수 있습니다.

이자형엑스(β나는)=영형에스아르 자형나는영형

이자형엑스(β1)이자형엑스(β나는)=아르 자형영형나는나는와이

(너무 기술적이기를 원치 않습니다)


4

문제에 대한 또 다른 견해를 제시하고 싶습니다. 실제 상황에서는 해야 할 일이 비즈니스 요구에 달려 있기 때문에이 질문에 직면 할 가능성이 적습니다 .

실제 세계에서 가장 중요한 질문 은 예측을 얻은 후에 무엇을해야 하는가?

  • 사업체가 "저품질"와인을 버리고 싶어한다고 가정하자. 그런 다음 "나쁜 것이 나쁘다"(예 : 이하의 품질 )에 대한 정의가 필요합니다 . 이 정의에서는 결정이 이진이므로 이항 로지스틱 회귀를 사용해야합니다. (쓰레기 또는 보관, 중간에 아무것도 없음).2

  • 비즈니스에서 세 가지 유형의 레스토랑으로 보낼 고급 와인을 선택하려고한다고 가정합니다. 그런 다음 다중 클래스 분류가 필요합니다.

요컨대, 나는 응답 변수의 속성을 보는 것이 아니라 예측을 얻은 후 요구 사항에 따라해야 할 일이 실제로 무엇인지 주장하고 싶습니다.


1

(@ adrian1121에 의해 자세히 설명 된) 정렬 된 로짓 모델이 모델 가정의 관점에서 가장 적합하지만, 다중 선형 회귀는 몇 가지 장점이 있다고 생각합니다.

  1. 해석의 용이성 . 선형 모형은 정렬 된 로짓 모형보다 해석하기 쉽습니다.
  2. 이해 관계자의 편안함 . 모형의 사용자는 모형이 무엇인지 알 가능성이 높기 때문에 선형 회귀에 더 익숙 할 수 있습니다.
  3. 더 포용 적입니다 (더 간단합니다). 더 간단한 모델도 잘 수행 될 수 있습니다 ( 관련 주제 참조) .

대부분의 반응이 3-8 사이에 있다는 사실은 선형 모델이 귀하의 요구에 적합하게 수행 할 수 있음을 나타냅니다. 나는 그것이 더 낫다는 말은 아니지만 더 실용적인 접근 방법 일 수 있습니다.


0

원칙적으로 순서대로 로짓 모형이 적합 해 보이지만 10 개 (또는 7 개) 범주가 상당히 많습니다.

1 / 결국 일부 재 코딩 을하는 것이 합리적 입니까 (예를 들어, 등급 1-4는 1 개의 단일 양식으로 병합 될 것입니다 (예 : "낮은 등급"))?

2 / 등급의 분포는 무엇입니까? 정규 분포가 꽤 잘 분포되어 있으면 선형 회귀 분석이 잘 수행됩니다 ( 선형 확률 ​​모델 참조 ).

3 / 그렇지 않으면 " 베타 회귀 " 라고 불리는 완전히 다른 것을 원할 것입니다. -11 점 평가 척도는 고전적인 5 점 척도에 비해 상당히 상세합니다. scale where 0 = Null and 1 = Full / Perfect-이렇게하면 기본적으로 스케일이 간격 유형 (서수 형식이 아닌) 이라고 가정 하지만 허용되는 것처럼 들립니다.


3
10 개 (또는 7 개) 범주가 많은 이유는 무엇입니까? 순서가 지정된 로짓 모델에서 10 개의 범주가 적절하게 작동하지 않는 근본적인 기술적 이유가 있습니까? 아니면 실제적인 관점에서 말하고 있습니까? (예 : hxd1011의 답변과 비슷한 고려 사항)
RM

데이터가 "너무 많은"범주를 가진 정렬 된 로짓 (OL)을 추정 할 수 있다면 기술적 인 이유는 없습니다. 그러나 11 개 범주로 OL 모델을 지정하면 10 개의 "일정한"용어 (예 : 임계 값 매개 변수)를 추정 할 수 있습니다. 특히 일부 범주가 데이터베이스에 제대로 표시되지 않은 경우 나에게 큰 소리를냅니다. 내 직감은 OL 모델이 11 개의 카테고리는 약간 과잉 숙련되었으므로 등급을 연속 변수로 취급하거나 일부 양식을 축소하여보다 포용적인 (그리고 아마도 더 의미있는) OL 모델을 지정합니다.
Umka

-1

나는 로지스틱 회귀 전문가가 아니지만 이산 종속 변수 때문에 다항식을 사용하고 싶다고 말하고 싶습니다.

선형 회귀는 종속 변수의 가능한 경계에서 외삽 될 수있는 계수를 출력 할 수 있습니다 (즉, 독립 변수의 증가는 주어진 회귀 계수에 대해 경계 외부의 종속 변수로 이어짐).

다항 회귀는 종속 변수의 다른 결과에 대해 다른 확률을 제공합니다 (즉, 회귀 계수는 점수가 범위를 벗어나지 않고 더 나은 점수를 줄 확률을 증가시키는 방법을 제공함).


3
다항식은 정렬되지 않은 여러 범주에 적합합니다. 순서 로지스틱 (질문에서 OP가 제안하는 것)은 여러 정렬 된 범주에 적합합니다.
그레고르

-1

다른 가능성은 랜덤 포레스트를 사용하는 것입니다. 랜덤 포레스트에서 변수의 "중요도"를 측정하는 방법에는 두 가지가 있습니다.

  1. 엑스제이엑스제이엑스제이와이엑스
  2. 엑스제이엑스제이

랜덤 포레스트는 또한 "부분 의존성 플롯"이라고하는 데이터 시각화 유형에 적합합니다. 자세한 내용은 이 심층 자습서 를 참조하십시오 .

부분 의존성 및 순열 중요도는 랜덤 포레스트 모델에만 국한된 것이 아니지만 랜덤 포레스트 모델에 대해 계산하는 것이 얼마나 효율적인지에 따라 랜덤 포레스트의 인기와 함께 인기가 높아졌습니다.


1
나는 그것이 다소 접선 적 인 대답이라는 것을 알고 있지만 이것이 왜 다운 다운되었는지 알고 싶습니다. 맞습니까?
shadowtalker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.