데이터 과학자 인터뷰 질문 : 선형 회귀가 낮은 및 무엇을 하시겠습니까?


10

면접관이 귀하의 가 가격 탄력성 모델에 대해 매우 낮다고 (5-10 % 사이) 가정 한 작업에 대한 인터뷰 질문에 직면했습니다 . 이 질문을 어떻게 해결 하시겠습니까?R2

무엇이 잘못되었거나 선형이 아닌 방법을 적용해야하는지 확인하기 위해 회귀 진단을 수행한다는 사실 이외의 다른 생각은 할 수 없었습니다. 어떻게 든 면접관이 내 대답에 만족하지 않았다고 생각합니다. 가 낮음에도 불구하고 모델에 적합하고 생산 수준 예측에 사용하기 위해 이러한 시나리오에서 수행되는 다른 작업이 있습니까?R2

편집 : 나중 단계에서 그들은 인터뷰 중에 문제를 모델링하는 데 필요한 데이터를 제공했으며 지연 된 변수, 경쟁사 가격의 영향, 계절성 인형을 추가하여 차이가 있는지 확인했습니다. 는 17.6 %로 떨어졌고 홀드 아웃 샘플의 성능은 떨어졌습니다. 개인적으로 나는 잘못된 결과를 제공하고 고객 손실을 초래할 수있는 라이브 환경에서 예측을 위해 그러한 모델을 배치하는 것이 비 윤리적이라고 생각합니다 (귀하의 회사 수익에 대한 그러한 모델의 가격 제안을 사용하여 상상하십시오!). 모든 사람들이 알아야 할 너무 명백한 시나리오에서 수행되는 다른 것이 있습니까? 내가 모르는 것, '은 총알'이라고 말하고 싶은 유혹이 있습니까?R2

또한 외인성 변수 를 추가 한 후 2 % 더 개선 한 후이 시나리오에서 수행 할 수있는 작업을 상상해보십시오 . 모델링 프로젝트를 폐기해야합니까, 아니면 홀드 아웃 샘플의 성능으로 표시되는 생산 수준 품질 모델을 개발할 희망이 있습니까?R2

Edit2 : 나는 경제학 의 관점 에서이 문제를 이해하기 위해 경제학 .stackexchange.com 포럼 에이 질문을 게시 했습니다.


12
" 가격 탄력성 모델에 대해 가 매우 낮다 (5 ~ 10 % 사이) 라고 가정 하는 것은 문제가되지 않습니다 . " 가격 탄력성 모델에 대해 가 매우 낮다 (5 ~ 10 % 사이) "에 대한 나의 반응 은 "좋아, 완료"일 것이다. 문제가 없다고 생각할 수 있으므로 더 이상 할 일이 없습니다. 그들이 다가 오지 않는다면, 해결해야 할 문제로 간주되는 측면을 물어봐야합니다. 부재시 여기서 문제 로 무엇을보고 있습니까? R 2R2R2
Glen_b-복지국 모니카

1
나는 자기 연구에 태그를 붙였다 @Glen_b 더 자세한 내용을 추가해야하는지 알려주십시오. 감사!
매니아

2
고마워, 그게 좋은 일이야. 그러나 더 자세히 설명하면 해결해야 할 실제 질문이 포함됩니다. "Suppose X"는 아무것도 해결하도록 요구하지 않는 상황을 나타냅니다.
Glen_b-복귀 모니카

1
Economics.stackexchange.com/q/16617에 크로스 포스팅되었습니다 . 질문에 가장 적합한 사이트를 결정하십시오. 다른 사이트에 변형을 적용 할 가치가 있다고 생각되면 해당 사이트를 연결하십시오.
Scortchi-Monica Monica 복원

1
@Scortchi, 나는 두 포럼에서 추가 편집으로 링크를 추가했습니다. 감사!
매니아

답변:


11

이 관점에서 문제를 보면 어떨까요? 가격 탄력성은 수요와 제품 가격 간의 관계입니다.

이 상황에서 r-square가 낮 으면 특정 제품에 대한 가격과 수요의 관계가 강력하지 않다는 것을 암시 할 수 있습니다.

가격 측면에서 볼 때 수요에 큰 영향을 미치지 않고 임의로 가격을 책정 할 수있는 제품을 찾거나 차등 가격에도 불구하고 수요가 매우 불규칙하다는 것을 알 수 있습니다.

Veblen 제품 을 보면 탄성이 반대의 예입니다. 가격이 상승함에 따라 수요가 증가합니다.

반면에, r- 제곱이 낮 으면 이는 단순히 수요가 발생할 때 가격이 상대적으로 중요하지 않은 제품 범주를 의미 할 수 있습니다. 내 머리 꼭대기에서 암 약물은이 속성을 고수 할 수있는 것일 수 있습니다. 의약품의 중요성이 가격을 능가하는 경우, 이는 수요량에 영향을 미치지 않습니다.

결론적으로, 나는 면접관의 의도가 더 높은 r-square로 더 나은 모델을 만드는 방법을 찾는 대신 낮은 r-square의 의미가 무엇을 의미하는지 판단하는 것이었을 수도 있다고 가정합니다.


결론 +1 또한이 질문의 목적은 메트릭을 완전히 이해하지 않고 맹목적으로 메트릭을 추구하는 경우를 보려고한다고 생각합니다.
Haitao Du

5

나는 면접관이 무엇을했는지 확실하지 않지만, 불충분 한 사전 형성 모델에 직면 할 때 이것들은 내가 고려한 것들이며, 면접관으로서 청문회를 듣고 싶어하는 답이다 (이후 몇 년 동안 면담이 있었다).

  1. 더 많은 데이터 얻기 : 항상 도움이되는 것은 아니지만이 솔루션 효과를 평가하는 데 도움이되는 몇 가지 사항이 있습니다.

    • 다른 표본 크기로 모델을 실행하십시오. 더 많은 데이터로 결과가 개선되면 더 많은 데이터를 얻는 것이 모델 성능을 계속 향상 시킨다고 가정하는 것이 합리적입니다.
    • 기능 대 샘플 비율-기능을 선택한 후 각 기능 값당 충분한 샘플이 있는지 이해하십시오. 이 주제에 대한 답변을 참조하십시오 .
    • 누락 된 목표 값-다른 가격대에서 탄력성이 유사하게 작동하지 않을 수 있습니다. 표본 데이터가 특정 범위로 편향되어있는 상황에서는 일반화 할 수 없을 가능성이 높습니다 (예 : 표본의 90 %는 0-10 사이의 가격에 대한 것이고 다른 10 %는 사이에 가격에 대한 것입니다) 1000-10000). 더 많은 데이터를 얻는 것 이외의 다른 방법으로이 문제를 해결할 수 있습니다 (모델 학습 분할, 회귀 사용 안 함)
  2. 더 나은 기능 엔지니어링 : 충분한 데이터가 있고 딥 러닝에 대해 알고 있다면 이것은 관련이 없습니다. 언급 된 기준에 맞지 않는 경우이 기준에 노력을 집중하십시오. 사용자 행동 모델에는 기계 교육 모델보다 인간 직관이 더 잘 이해되는 많은 관계가 있습니다.
    두 가지 더 많은 기능을 설계하고 모델 성능을 크게 향상시킨 경우와 같습니다. 이 단계에는 일반적으로 논리 기반 코드 (If Elses / 수학 공식)가 포함되므로 오류가 발생하기 쉽습니다.

  3. 더 나은 모델 선택 : 제안한 바와 같이 비선형 모델이 더 잘 작동 할 수 있습니다. 데이터가 균일합니까? 교차 특성이 가격 탄력성을 더 잘 설명 할 것이라고 믿을만한 이유가 있습니까? (계절 * 경쟁사 가격).

  4. 하이퍼 매개 변수 튜닝 : 그리드 검색 모델의 하이퍼 매개 변수 (+ 교차 유효성 검사 결과)는 좋은 습관이지만 내 경험으로는 성능을 크게 향상시키지 않습니다 (확실히 5 %에서 90 %가 아님).

할 수있는 일이 더 있지만, 이러한 점은 충분히 일반적입니다.


1

@DaFanat 및 @Arun이 제안한 것 외에도 시각적 검사가 도움이 될 수 있다고 덧붙이고 싶습니다.

예를 들어 일부 특이 치가 영향을주는 경우가 있습니다 . 매출 관리 문제를 해결하면서 영향력있는 포인트 를 지속적으로 조사해야했습니다 . 종종 특이 치가 프로모션 캠페인, 할인 등과 같은 특정 일회성 이벤트와 관련이있었습니다.R2


실제로 수익 관리 문제인 도메인 별 입력 정보를 공유해 주셔서 감사합니다.
애호가
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.