통계 인터뷰 질문


65

가장 기본적인 것부터 더 진보 된 것까지 몇 가지 통계 (그리고 가능성이있는 것) 인터뷰 질문을 찾고 있습니다. 답변은 필요하지 않습니다 (이 사이트의 특정 질문에 대한 링크는 잘 작동하지만).



누군가가 인터뷰를 할 때 자신을 주어진 위치를 예를들 수 있다면 ... 매우 흥미로운 일이 될 것이다
kjetil B 형 할보 르센

답변:


40

직업이 무엇인지 잘 모르겠지만 "X를 초보자에게 설명하는 것"은 아마 좋을 것 같습니다.

a) 직장에서이 작업을 수행해야 할 수도 있기 때문에

b) 이해하기 좋은 시험이다.


8
(+1) : 내가 이해했다고 생각한 시간을 셀 수는 없지만 다른 사람에게 쉬운 말로 설명하지 못했습니다. 예 : p- 값;)
steffen

6
알버트 아인슈타인 (Albert Einstein)은 "만약 6 살짜리 아이에게 설명 할 수 없다면 아마 그것을 스스로 이해하지 못할 것입니다. 아마도 그렇게 극단적이지는 않지만 요점을 알 수 있습니다 ... :)
JM은 통계학자가 아닙니다.

1
"초보자"부분이 있거나없는 "p- 값 설명"을 좋아합니다.
shabbychef

이것이 교차 검증이 큰 이유입니다. 많은 "레이맨"질문과 답변.
Neil McGuigan

인터뷰하든 말든 정말 좋은 조언!
JMS

21

내가 일하는 표준 Q는 다음과 같습니다.

당신이 사용했다고 주장하는 통계적 패키지 (바람직하게 우리가 사용하는 것)의 다중 로지스틱 회귀 분석 결과를 살펴보십시오. XXX는 주요 관심사의 독립 변수입니다. 주제에 대한 지식은 있지만 공식적인 통계 교육이없는 동료의 결과를 얼마나 격렬하게 해석합니까? (필요한 경우 점 추정치, CI, p- 값에 대한 별도의 해석을 요구합니다).


15
더 많은 학문적 맥락에서 다음과 같이 질문 할 수도 있습니다. '본 논문 에서 귀하가 공동으로 작성한 이 모델 결과를 살펴보십시오 . 그게 무슨 뜻인지 말해줘. ' 익숙하지 않은 변명은 없지만 매우 흔하지 않기 때문에 압도적 인 답변은 치명적입니다.
conjugateprior

4
@conjugateprior 사실이 아닙니다. 존재하지 않는 공동 저자가 하나 이상있는 한, 공동 저자가없는 영역이었습니다. 이 기술의 주요 용도는 컨퍼런스 프레젠테이션입니다.
Mark L. Stone

18

또한 인터뷰가 관심있는 구성을 측정하기위한 최상의 매체인지 여부를 고려할 수도 있습니다. 확률 또는 통계에 대한 사전 지식을 측정하려면 필기 시험에 더 의존하는 것이 좋습니다. 더 많은 질문을하여 측정의 신뢰성을 높일 수 있습니다. 행정 및 채점 모두에서보다 표준화되었습니다. 그리고 일단 장비가 개발되면 더 적은 리소스를 사용하여 관리 할 수 ​​있습니다.

그런 다음 인터뷰를 언어 및 대인 관계 기술과 같은 요소를 살펴 보는보다 집중된 도구로 사용할 수 있습니다.


1
이것은 좋은 지적입니다. 과거에 당신이 과거에 그들과 함께 일하지 않았다면 주어진 후보자가 운동 할 것인지를 말하기가 매우 어렵다는 것을 과거에 발견했습니다.
shabbychef

15

두 가지 질문을 받았습니다 :

1) 다른 부서의 작업자가 관심을 갖는 특정 변수의 효과를 조사하기 위해 다중 회귀 분석을 적용합니다. 변수는 중요하지 않지만 동료는 이것이 효과가있는 것으로 불가능하므로 불가능하다고 말합니다. 당신은 무엇을 말하고 하시겠습니까?

2) 1000 개의 변수와 100 개의 관측치가 있습니다. 특정 반응에 대한 중요한 변수를 찾고 싶습니다. 당신은 무엇을 하시겠습니까?


답변도 게시 해 주시겠습니까? 1) 나는 문제를 일으키는 몇 가지 종속 변수가 있다고 가정합니다. 2) 아마 χ² (chi-squared) 통계 테스트를하려고 할 것입니다
Rishi Dua

2
두 가지에 대한 합리적인 반응이 많이 있습니다. 여기에 빠른 생각이 있습니다. 1) 회귀 모형이 표본에서 나온 것이므로이 표본은 임의의 변동이 있으므로 모형은 추정치 일 뿐이며 유형 1 또는 유형 2 오류가 발생할 수 있습니다. 예측 변수 간에도 공선 성이있을 수 있습니다. 2) 큰 P 대 작은 N 문제입니다. 이 상황을 처리하는 데는 차원 축소 및 올가미와 같은 많은 기술이 있습니다.
Glen

2) 변수의 일 변량 맞춤을 수행하고 변수 세트를 줄이는 데 가장 중요한 변수를 식별합니다
adam

11

다음은 빅 데이터 세트입니다. 특이 치를 다루는 계획은 무엇입니까? 결 측값은 어떻습니까? 변형은 어떻습니까?

실제 데이터를 처리 할 수 ​​있습니까?


익명 사용자 여러분, 댓글에 편집을 사용하지 마십시오 (Neil은 아닙니다).

10

이 사이트의 많은 질문 / 답변은 좋은 질문에 대한 아이디어를 줄 수 있습니다. 나는 내가 생각하는 그런 링크가있는 목록을 줄 것이다. 내가 대답 한 게시물은 그 게시물이 반드시 최고이기 때문이 아니라 더 잘 알고 있기 때문에 과장되게 표시됩니다! 각 링크에 대한 간단한 설명을 제공하므로 해당 링크를 따를 것인지 결정할 수 있습니다.

SVD의 직관은 무엇입니까? "SVD의 작동 방식을 고객에게 설명 할 수 있습니까?"

평신도 용어 " MLE (Maximum Likelihood Estimation) " "비 기술적 언어로 최대 가능성 추정의 아이디어를 설명 할 수 있습니까?"

탈렙과 검은 백조 "검은 백조는 무엇이며 왜 관련이 있습니까? 언제 관련이 있습니까?"

통계 추론 샘플 인구가 ""때 "샘플이 전체 인구 때 통계적 추론에 대해 무슨 말을 할 수 있겠습니까?"

적합도 및 선형 회귀 또는 포아송을 선택하는 모형 "응답이 계수 변수 인 회귀 문제가 있습니다.이 문맥에서 보통 최소 제곱 또는 포아송 회귀 (또는 다른 것) 중에서 어떤 것을 선택 하시겠습니까? 이 모델의 주요 차이점은 무엇입니까? "

유한 분산과 무한 분산의 차이점 "무작위 변수가 무한한 기대 또는 무한 분산을 갖는 것이 무엇을 의미하는지 가능한 한 간단한 언어로 설명 할 수 있습니까?이 차이점의 실제적인 중요성은 무엇입니까? 예."

단계별 회귀에 대한 현대적이고 쉽게 사용되는 대안은 무엇입니까? "예측 변수가 많이있을 때 어떻게 복잡한 회귀 모델을 작성하겠습니까? 다른 가능한 전략을 설명하고 각 변수의 문제점에 대해 설명하십시오."

로지스틱 회귀 분석에서 완벽한 분리를 처리하는 방법은 무엇입니까? "물류 회귀, 원인, 증상의 분리 문제는 무엇입니까? 실제로 문제가 있다면이를 해결하기 위해 무엇을 할 수 있습니까?"

상관 행렬이 양의 반 정밀도 여야하는 이유는 무엇입니까? 그리고
무엇 아닌 긍정적 인 명확한 공분산 행렬은 내 데이터에 대해 말해 무엇입니까? "공분산 행렬이 양의 (반) 정확한 이유와 그 의미가 무엇인지 설명하십시오. 그 사실을 어떻게 사용할 수 있습니까?"

다차원 버전의 중간 값 "중간 값을 다변량 데이터로 일반화하는 방법을 제안 할 수 있습니까?"

범주 변수 로짓 회귀 분석에서 상호 작용 용어를 해석 하고 상호 작용 효과를 식별하는 최상의 방법은 무엇입니까? 그리고 두 부정적 주 효과 아직 긍정적 인 상호 작용 효과? 상호 작용하지만 모델이 아닌 주요 효과를 포함상호 작용 효과가 중요하지 않을 때 어떻게 주 효과를 해석하는 방법? "회귀 모델에서 교호 작용의 의미를 설명하십시오. 구체적으로, 주 효과가 중요하지 않지만 교호 작용이 유의하면 어떤 의미입니까? 일반 선형 회귀 분석과 로지스틱 회귀 분석 간의 교호 작용 해석에 어떤 차이가 있습니까?"

데이터에 제곱근 변환을 사용하는 이유는 무엇입니까? 적절한 데이터 변환이 "때, 어떻게 그리고 왜 당신이 회귀에 (또는 ANOVA) 모델을 응답 변수를 변환합니까? 어떤 대안이 있습니까?

비정규 분포 DV에 대한 분산 분석 결과를 신뢰할 수 있습니까? "비정규 잔차로 분산 분석을 어떻게 처리 하시겠습니까?

중요한 많은 것들이 한방에 사물 일 때 통계가 유용한 이유는 무엇입니까?

Bernoulli 랜덤 변수의 합을 효율적으로 모델링하는 방법은 무엇입니까?

일반화 된 추정 방정식과 혼합 효과 모델을 언제 사용해야합니까?

로지스틱 회귀 설정에서 제곱 손실을 사용하면 어떻게됩니까? "왜 우리는 왜 로지스틱 회귀 분석에 최대 가능성을 사용합니까?


9

나는 통계에 대한 지식이 거의없는 사회 과학 분야의 신입생들과 중심 제한 정리의 관련성을 어떻게 설명 할 것인지 한 번 물었다.


4
중앙 한계 정리의 관련성은 사람들이 실제로 아무것도 없을 때 모든 것이 정상이라고 생각하게하는 것입니다. 따라서 많은 잘못된 결론으로 ​​이어집니다.
Mark L. Stone


8

통계 모형을 작성할 때 과적 합을 어떻게 방지합니까?

좋은 답변 : 교차 검증


6

나는 종종 "예측이 무엇인지 어떻게 정의 / 설명하겠습니까?"라고 묻습니다.

이러한 유형의 매우 일반적인 질문에 답변하면 사람들이 특정 예측 사례에 연결되어 있는지 확인할 수 있습니다. 정답은 없지만 인터뷰 중에 합성 적으로 대답하는 것이 항상 쉬운 것은 아닙니다.)


5

관찰 데이터 컨텍스트의 경우 :

이 회귀 모델이이 실질적인 문제에 적용되는 것을 고려하십시오. 그 안에 무엇이 인과 적으로 해석 될 수 있습니까? [추가 조사] 의견을 바꾸려면 무엇을 배워야합니까?


4

방갈로르의 샌들 나무 수는 어떻게 계산됩니까?


1
그건 일종의 페르미 질문 인가요?
Thies Heidecke

2
좋은 질문. 클래스 (공원의 나무) 에서이 버전을 사용했습니다. 그들은 샘플링에 대한 아이디어를 얻지 만 운영 정의의 필요성을 놓치는 경향이 있습니다. 언제 그것을 트리라고 부릅니까?
zbicyclist

4

제목에서 상관 관계 대 인과 관계 :

고객 / 사용자 참여를 예측 모델의 기능으로 사용하는 것이 일반적입니다. 예를 들어,이 버튼을 클릭 한 사람은 가입하지 않은 사람보다 가입 가능성이 높습니다. 월요일에 쇼핑하는 사람들은 화요일에 쇼핑하는 사람들보다 다시 쇼핑 할 가능성이 높습니다.

우리가 이것을 극단적으로 받아 들인 경우 : "구매"를 클릭하는 사용자는 구매를 클릭하지 않은 사용자보다 제품을 구매할 가능성이 높습니다.

그러나 분명히 일부 사용자가 가입하고 일부는 구독하지 않는 이유를 설명하는 데 도움이되지 않습니다.

구독 이유와 구독과 밀접한 관련이 있지만 작업을 수행하는 데 필요한 기능을 설명하는 고객 기능을 사용하여 균형을 잡는 방법은 무엇입니까?


3

여기입니다 TinkerToy의 세트. 유클리드 거리가 3 차원에서 어떻게 작동하는지 보여주세요. 이제 다중 회귀가 어떻게 작동하는지 보여주세요.

실제 세계에서 통계가 어떻게 작동하는지 설명 할 수 있습니까?


1
NN

1
100 명 관찰과 음모 두 개의 변수를 분산하려는 경우, 당신은 단지 등 2 차원이 아니라 100 :), 그리고 필요
닐 맥기을

3

우리는 고객 서비스 센터를 운영하고 있습니다. 우리는 한 달에 백만 건의 전화를 받고 있습니다. 우리는 어떻게 그것을만으로 줄입니까?


5
휴대 전화의 99 %를 제거하십시오!
shabbychef

5
전화 요금 지불을 중지하십시오.
Glen

3
통화 요금이 부과됩니다. (미국에서 900 개 숫자 ...)
gWaldo

7
이 질문은 약 80-20 규칙입니다. 비즈니스에서 일반적으로 사용되는 규칙입니다. 예를 들어 "판매의 80 %는 고객의 20 %에서 비롯됩니다". Microsoft는 가장 많이보고 된 상위 20 % 버그를 수정함으로써 오류 및 충돌의 80 %가 제거 될 것이라고 지적했습니다. 따라서 문제의 20 %를 해결하기위한 FAQ를 설정해야합니다.
Rishi Dua

3

우리가 묻는 많은 질문은 이미 설명한 질문과 비슷합니다. 그러나 아직 읽지 않은 일부는 사용됩니다. 주사위 롤링 또는 다른 확률 문제를 시뮬레이션하거나 일련의 소수 (예 : 모두)를 계산하기 위해 화이트 보드에 프로그램을 스케치하도록 요청받을 수 있습니다. 1,000,000보다 작은 소수)-원하는 언어 로이 작업을 수행 할 수는 있지만 대부분의 사람들은 R을 선택하고 일부는 Python을 선택하지만 (나는 믿습니다) Stata, SAS, SPSS를 선택할 수 있다고 생각합니다 , Matlab 등. 선택한 프로그래밍 언어에 대한 지식의 깊이를 조사하기위한 질문을받을 것입니다. 예를 들어 R에서 for 루프 대신에 apply를 사용하는 이유는 무엇입니까?

당신은 또한 무언가를 조사하기 위해 실험이나 다른 연구를 설계하도록 요구받을 수도 있습니다. (우리는 우리가하는 일에 대한 지식을 가지고 있지는 않지만, 알고있는 특정 도메인 지식이 있더라도 들어 보지 못한 문제의 요점을 파악하고 지능적으로 추측 할 수 있어야합니다. 그것은 틀 렸습니다-괜찮습니다. 도메인 지식이 없을 것으로 예상됩니다). 힘과 같은 것들을 고려해야 할 수도 있습니다.


2

정량적 변수의 분산 분석을 수행하는 동안 때로는 변수의 빈도가 매우 높다는 것을 발견 (> 5) 한 다음 Fisher의 정확한 검정을 사용하여 변수의 독립성을 찾습니다.


이것은 아마도 Chris의 대답으로 간주 될 것입니다.
JM은 통계학자가 아닙니다.

4
이것에 대한 정답에는 고정 된 한계가 합당한 지에 대한 논란과 주제에 대한 정보에 대한 의견이 있는가를 포함 하는가?
Ben Bolker

1

작년 양키스 게임의 평균 유급 출석률은 55,000이었습니다. 지난 시즌에 NYC의 많은 사람들에게 양키스 게임에 갔는지 물어보고, 그랬다면 유급 출석을 기록합니다. 게임에 갔던 사람이 참석 한 게임에 대한 평균 유료 출석률은 얼마입니까?

나는 당신에게 내 대답에 대한 힌트를 줄 것입니다 (힌트는 제공되지 않았습니다) : 길이 바이어스 샘플링. 나는 홈런을 기록했지만 경기에서 이기기에는 충분하지 않았다. 참고 : 샘플링 수행 방법에 관한 많은 경고에 대해 언급했으며 인터뷰 담당자는이를 무시하라고 말했습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.