가장 기본적인 것부터 더 진보 된 것까지 몇 가지 통계 (그리고 가능성이있는 것) 인터뷰 질문을 찾고 있습니다. 답변은 필요하지 않습니다 (이 사이트의 특정 질문에 대한 링크는 잘 작동하지만).
가장 기본적인 것부터 더 진보 된 것까지 몇 가지 통계 (그리고 가능성이있는 것) 인터뷰 질문을 찾고 있습니다. 답변은 필요하지 않습니다 (이 사이트의 특정 질문에 대한 링크는 잘 작동하지만).
답변:
직업이 무엇인지 잘 모르겠지만 "X를 초보자에게 설명하는 것"은 아마 좋을 것 같습니다.
a) 직장에서이 작업을 수행해야 할 수도 있기 때문에
b) 이해하기 좋은 시험이다.
내가 일하는 표준 Q는 다음과 같습니다.
당신이 사용했다고 주장하는 통계적 패키지 (바람직하게 우리가 사용하는 것)의 다중 로지스틱 회귀 분석 결과를 살펴보십시오. XXX는 주요 관심사의 독립 변수입니다. 주제에 대한 지식은 있지만 공식적인 통계 교육이없는 동료의 결과를 얼마나 격렬하게 해석합니까? (필요한 경우 점 추정치, CI, p- 값에 대한 별도의 해석을 요구합니다).
또한 인터뷰가 관심있는 구성을 측정하기위한 최상의 매체인지 여부를 고려할 수도 있습니다. 확률 또는 통계에 대한 사전 지식을 측정하려면 필기 시험에 더 의존하는 것이 좋습니다. 더 많은 질문을하여 측정의 신뢰성을 높일 수 있습니다. 행정 및 채점 모두에서보다 표준화되었습니다. 그리고 일단 장비가 개발되면 더 적은 리소스를 사용하여 관리 할 수 있습니다.
그런 다음 인터뷰를 언어 및 대인 관계 기술과 같은 요소를 살펴 보는보다 집중된 도구로 사용할 수 있습니다.
두 가지 질문을 받았습니다 :
1) 다른 부서의 작업자가 관심을 갖는 특정 변수의 효과를 조사하기 위해 다중 회귀 분석을 적용합니다. 변수는 중요하지 않지만 동료는 이것이 효과가있는 것으로 불가능하므로 불가능하다고 말합니다. 당신은 무엇을 말하고 하시겠습니까?
2) 1000 개의 변수와 100 개의 관측치가 있습니다. 특정 반응에 대한 중요한 변수를 찾고 싶습니다. 당신은 무엇을 하시겠습니까?
이 사이트의 많은 질문 / 답변은 좋은 질문에 대한 아이디어를 줄 수 있습니다. 나는 내가 생각하는 그런 링크가있는 목록을 줄 것이다. 내가 대답 한 게시물은 그 게시물이 반드시 최고이기 때문이 아니라 더 잘 알고 있기 때문에 과장되게 표시됩니다! 각 링크에 대한 간단한 설명을 제공하므로 해당 링크를 따를 것인지 결정할 수 있습니다.
SVD의 직관은 무엇입니까? "SVD의 작동 방식을 고객에게 설명 할 수 있습니까?"
평신도 용어 " MLE (Maximum Likelihood Estimation) " "비 기술적 언어로 최대 가능성 추정의 아이디어를 설명 할 수 있습니까?"
탈렙과 검은 백조 "검은 백조는 무엇이며 왜 관련이 있습니까? 언제 관련이 있습니까?"
통계 추론 샘플 인구가 ""때 "샘플이 전체 인구 때 통계적 추론에 대해 무슨 말을 할 수 있겠습니까?"
적합도 및 선형 회귀 또는 포아송을 선택하는 모형 "응답이 계수 변수 인 회귀 문제가 있습니다.이 문맥에서 보통 최소 제곱 또는 포아송 회귀 (또는 다른 것) 중에서 어떤 것을 선택 하시겠습니까? 이 모델의 주요 차이점은 무엇입니까? "
유한 분산과 무한 분산의 차이점 "무작위 변수가 무한한 기대 또는 무한 분산을 갖는 것이 무엇을 의미하는지 가능한 한 간단한 언어로 설명 할 수 있습니까?이 차이점의 실제적인 중요성은 무엇입니까? 예."
단계별 회귀에 대한 현대적이고 쉽게 사용되는 대안은 무엇입니까? "예측 변수가 많이있을 때 어떻게 복잡한 회귀 모델을 작성하겠습니까? 다른 가능한 전략을 설명하고 각 변수의 문제점에 대해 설명하십시오."
로지스틱 회귀 분석에서 완벽한 분리를 처리하는 방법은 무엇입니까? "물류 회귀, 원인, 증상의 분리 문제는 무엇입니까? 실제로 문제가 있다면이를 해결하기 위해 무엇을 할 수 있습니까?"
상관 행렬이 양의 반 정밀도 여야하는 이유는 무엇입니까? 그리고
무엇 아닌 긍정적 인 명확한 공분산 행렬은 내 데이터에 대해 말해 무엇입니까? "공분산 행렬이 양의 (반) 정확한 이유와 그 의미가 무엇인지 설명하십시오. 그 사실을 어떻게 사용할 수 있습니까?"
다차원 버전의 중간 값 "중간 값을 다변량 데이터로 일반화하는 방법을 제안 할 수 있습니까?"
범주 변수 로짓 회귀 분석에서 상호 작용 용어를 해석 하고 상호 작용 효과를 식별하는 최상의 방법은 무엇입니까? 그리고 두 부정적 주 효과 아직 긍정적 인 상호 작용 효과? 와 상호 작용하지만 모델이 아닌 주요 효과를 포함 와 상호 작용 효과가 중요하지 않을 때 어떻게 주 효과를 해석하는 방법? "회귀 모델에서 교호 작용의 의미를 설명하십시오. 구체적으로, 주 효과가 중요하지 않지만 교호 작용이 유의하면 어떤 의미입니까? 일반 선형 회귀 분석과 로지스틱 회귀 분석 간의 교호 작용 해석에 어떤 차이가 있습니까?"
데이터에 제곱근 변환을 사용하는 이유는 무엇입니까? 및 적절한 데이터 변환이 "때, 어떻게 그리고 왜 당신이 회귀에 (또는 ANOVA) 모델을 응답 변수를 변환합니까? 어떤 대안이 있습니까?
비정규 분포 DV에 대한 분산 분석 결과를 신뢰할 수 있습니까? "비정규 잔차로 분산 분석을 어떻게 처리 하시겠습니까?
중요한 많은 것들이 한방에 사물 일 때 통계가 유용한 이유는 무엇입니까?
Bernoulli 랜덤 변수의 합을 효율적으로 모델링하는 방법은 무엇입니까?
일반화 된 추정 방정식과 혼합 효과 모델을 언제 사용해야합니까?
로지스틱 회귀 설정에서 제곱 손실을 사용하면 어떻게됩니까? "왜 우리는 왜 로지스틱 회귀 분석에 최대 가능성을 사용합니까?
나는 통계에 대한 지식이 거의없는 사회 과학 분야의 신입생들과 중심 제한 정리의 관련성을 어떻게 설명 할 것인지 한 번 물었다.
숫자가 아닌 것을 어떻게 수치화합니까?
근거 : 그들은 아직 큰 테이블에없는 통계적인 것을 분석하는 방법을 알아낼 수 있습니까?
방갈로르의 샌들 나무 수는 어떻게 계산됩니까?
제목에서 상관 관계 대 인과 관계 :
고객 / 사용자 참여를 예측 모델의 기능으로 사용하는 것이 일반적입니다. 예를 들어,이 버튼을 클릭 한 사람은 가입하지 않은 사람보다 가입 가능성이 높습니다. 월요일에 쇼핑하는 사람들은 화요일에 쇼핑하는 사람들보다 다시 쇼핑 할 가능성이 높습니다.
우리가 이것을 극단적으로 받아 들인 경우 : "구매"를 클릭하는 사용자는 구매를 클릭하지 않은 사용자보다 제품을 구매할 가능성이 높습니다.
그러나 분명히 일부 사용자가 가입하고 일부는 구독하지 않는 이유를 설명하는 데 도움이되지 않습니다.
구독 이유와 구독과 밀접한 관련이 있지만 작업을 수행하는 데 필요한 기능을 설명하는 고객 기능을 사용하여 균형을 잡는 방법은 무엇입니까?
여기입니다 TinkerToy의 세트. 유클리드 거리가 3 차원에서 어떻게 작동하는지 보여주세요. 이제 다중 회귀가 어떻게 작동하는지 보여주세요.
실제 세계에서 통계가 어떻게 작동하는지 설명 할 수 있습니까?
우리는 고객 서비스 센터를 운영하고 있습니다. 우리는 한 달에 백만 건의 전화를 받고 있습니다. 우리는 어떻게 그것을만으로 줄입니까?
우리가 묻는 많은 질문은 이미 설명한 질문과 비슷합니다. 그러나 아직 읽지 않은 일부는 사용됩니다. 주사위 롤링 또는 다른 확률 문제를 시뮬레이션하거나 일련의 소수 (예 : 모두)를 계산하기 위해 화이트 보드에 프로그램을 스케치하도록 요청받을 수 있습니다. 1,000,000보다 작은 소수)-원하는 언어 로이 작업을 수행 할 수는 있지만 대부분의 사람들은 R을 선택하고 일부는 Python을 선택하지만 (나는 믿습니다) Stata, SAS, SPSS를 선택할 수 있다고 생각합니다 , Matlab 등. 선택한 프로그래밍 언어에 대한 지식의 깊이를 조사하기위한 질문을받을 것입니다. 예를 들어 R에서 for 루프 대신에 apply를 사용하는 이유는 무엇입니까?
당신은 또한 무언가를 조사하기 위해 실험이나 다른 연구를 설계하도록 요구받을 수도 있습니다. (우리는 우리가하는 일에 대한 지식을 가지고 있지는 않지만, 알고있는 특정 도메인 지식이 있더라도 들어 보지 못한 문제의 요점을 파악하고 지능적으로 추측 할 수 있어야합니다. 그것은 틀 렸습니다-괜찮습니다. 도메인 지식이 없을 것으로 예상됩니다). 힘과 같은 것들을 고려해야 할 수도 있습니다.
정량적 변수의 분산 분석을 수행하는 동안 때로는 변수의 빈도가 매우 높다는 것을 발견 (> 5) 한 다음 Fisher의 정확한 검정을 사용하여 변수의 독립성을 찾습니다.
작년 양키스 게임의 평균 유급 출석률은 55,000이었습니다. 지난 시즌에 NYC의 많은 사람들에게 양키스 게임에 갔는지 물어보고, 그랬다면 유급 출석을 기록합니다. 게임에 갔던 사람이 참석 한 게임에 대한 평균 유료 출석률은 얼마입니까?
나는 당신에게 내 대답에 대한 힌트를 줄 것입니다 (힌트는 제공되지 않았습니다) : 길이 바이어스 샘플링. 나는 홈런을 기록했지만 경기에서 이기기에는 충분하지 않았다. 참고 : 샘플링 수행 방법에 관한 많은 경고에 대해 언급했으며 인터뷰 담당자는이를 무시하라고 말했습니다.