통계 알고리즘 개발자 후보에 대한 좋은 인터뷰 질문은 무엇입니까?


15

통계 / 기계 학습 / 데이터 마이닝 컨텍스트에서 알고리즘 개발자 / 연구원의 위치에 대해 사람들을 인터뷰하고 있습니다.

나는 기본 이론에 대한 후보의 친숙성, 이해 및 유동성, 예를 들어 기대 및 분산의 기본 특성, 일부 공통 분포 등을 결정하기 위해 질문을 찾고 있습니다.

나의 현재 이동-에 대한 질문은 : "알 수없는 수량이 우리가 추정 싶습니다이를 위해 우리는 추정량있다. Y 1 , Y 2 , ... , Y , N , 주어진 X , 모든, 공평하고 독립적를 각각은 알려진 분산 σ 2 i 를 가지며, 각각에 대해 다르다. 편향되지 않고 최소 분산을 갖는 최적 추정량 Y = f ( Y 1 , , Y n ) 을 찾으십시오 . "엑스와이1,와이2,,와이엑스σ나는2와이=에프(와이1,,와이)

나는 진지한 후보자가 쉽게 계산을 수행 할 것으로 기대하지만 (계산을 수행하는 데 약간의 시간이 주어 졌음) 관련 분야 출신의 후보자가 얼마나 작은 진보를 이루지 못했는지에 대해 놀랐습니다. 따라서 나는 그것을 좋은 차별적 인 질문으로 생각합니다. 이 질문의 유일한 문제는 하나뿐이라는 것입니다.

이것에 사용할 수있는 다른 질문은 무엇입니까? 또는 그러한 질문 모음을 어디에서 찾을 수 있습니까?


7
많은 기계 학습 사람들 (좋은 사람 포함)에게는 그 질문이 편안하지 않습니다. 이것은 명백한 통계 질문입니다.
Marc Claesen

4
이 질문은 합법적으로 주제에 관한 경계선입니다. 그러나 많은 견해를 가지고 있으며, 몇 개의 공감대, 여러 개의 공감대가있는 답변 및 CW입니다. IMO는 계속 열려있을 수 있습니다.
gung-모니 티 복원

2
가는 질문은 혼란스럽게 표현 될 수 있습니다. 예를 들어, 대문자와 함께 를 사용 하면 X 가 무작위처럼 보입니다. 그러나 최소 분산에 대해 언급 했으므로 X 가 임의가 아닌 것처럼 보이기를 원할 것입니다 (이 경우 추정기의 분산이 X 에 대해 서면으로 의존하지 않는 이유는 무엇입니까?)엑스엑스엑스엑스
Batman

4
한 가지주의해야 할 점은 Google은 내부 HR 프로세스에 대해 많은 연구를 한 결과 인터뷰 담당자 점수가 후속 작업 성과와 전혀 관련이 없음을 발견했습니다 !! 여기서 문학에 대한 나의 인상은 (1) 퍼즐 유형 질문이 절대적으로 최악이며, 면접관이 똑똑하게 느끼도록 (즉, 0 예측력) 및 (2) 경험 기반 질문은 예측 가치를 가질 수 있다는 것입니다. 과거 성과는 미래 성과를 예측하며 과거 성과가 무엇인지 확인하기 위해 질문에 집중하고 싶을 수도 있지만 인터뷰는 면접관이 생각하는 것보다 훨씬 덜 유익합니다.
매튜 건

3
편중은 가중치가 단일화되도록 보장함으로써 보장됩니다. 그러나 솔루션을 추정기의 선형 조합으로 제한하더라도 동일한 데이터를 기반으로하는 여러 추정기가 높은 상관 관계를 갖는 경우는 거의 항상있을 것 입니다. (정말 독립적 인 경우, 데이터의 분리 된 독립 서브 세트에 적용됩니다.) 추정기의 선형 조합이 최적이라는 것은 전혀 분명하지 않습니다.
whuber

답변:


12

통계 개발자가 원하는 것은 무엇입니까?

미 육군은 "훈련 한 것처럼 싸울 것이기 때문에 싸울 것"이라고 말합니다. 하루 종일 원하는 것을 시험해보십시오. 실제로, 당신은 그들이 회사를 위해 "가치 창출"또는 "수익 창출"을 원합니다.

보스 101

"돈을 보여줘"라고 생각하십시오.

  • 직원이라는 나무에서 돈이 자랍니다. 당신은 "임금"(그들의 임금)을 넣고 그들은 당신에게 "분기"(그들의 가치)를 지불합니다.
  • 당신이 그들의 일을 그들이 회사를 위해 돈을 버는 방법과 관련시킬 수 없다면, 당신도 그들이 일을 제대로하고 있지 않습니다.

참고 : 기호 조작 질문이 "돈"에 제대로 연결되지 않으면 잘못된 질문을 할 수 있습니다.

모든 직원이 직원이되기 위해해야하는 3 가지가 있습니다.

  • 실제로 일을 할 수 있어야한다
  • 팀과 잘 협력
  • 실제로 일을하고자하는 의지 / 동기 부여

만약 당신이 이것들을 확실하게 얻지 못한다면, 다른 어떤 대답도 당신에게 좋은 일을하지 않을 것입니다.

좋은 소프트웨어 나 잘 훈련 된 십대로 대체 할 수 있다면 결국 그렇게해야하므로 비용이 든다.

데이터 101

그들이 할 수있는 것 :

  • 내부의 다양한 소프트웨어 사용 (네트워크, OS, 사무실, 프리젠 테이션 및 분석)
  • 업계 표준 소프트웨어를 사용하십시오 (Excel, R, JMP, MatLab, pick_three )
  • 데이터 자체를 얻습니다. 기본 작업에 대한 기본 데이터 세트를 알아야합니다. 그들은 저장소를 알아야합니다. 어떤 작업에 어떤 유명한 데이터가 사용되는지 알아야합니다. 피셔 아이리스 피어슨 크랩. ... 여기에 가야할 20 가지 요소가있을 것입니다. UCI, NIST, NOAA.
  • 데이터 처리 규칙을 알아야합니다. 이진 데이터 (T / F)는 범주 형 (A, B, C, D) 또는 연속 형과 매우 다른 정보 내용을 갖습니다. 데이터 유형별로 데이터를 올바르게 처리하는 것이 중요합니다.
  • 몇 가지 기본 통계 작업에는 다음이 포함됩니다.이 두 가지가 동일하거나 다르거 나 (일명 군집 / 분류),이 점과 어떻게 관련이
    있습니까 (선형 모형, glm, 방사형 기준,
    차이 방정식을 포함한 회귀 / 피팅 ) "x "(가설 테스트), 필요한 샘플 수 (수락 샘플링),
    소수 / 저렴한 / 효율적인 실험 (통계 설계
    ) 에서 최대한 많은 데이터를 얻는 방법 - 면책 조항, 통계학자가 아닙니다 당신은 그들에게 요청할 수 있습니다 질문 "다른 기본 작업은 무엇이며 통계학자가 효율적이고 정확하게 수행 할 수 있는지 어떻게 테스트합니까?
  • 데이터 자체에 액세스 / 사용합니다. 이것은 형식과 도구에 관한 것입니다.
    csv, xlsx (excel), SQL 및
    그림 에서 읽을 수 있어야합니다 . (HDF5, Rdata) 사용자 정의 형식 인 경우 해당 형식
    을 읽고 도구를 사용하여 빠르고
    효율적으로 작업 할 수 있어야합니다 . 형식의 강점 / 약점을 알아야합니다. CSV는 빠르게 사용되며 영원히 사용되었으며 빠른 프로토 타입이지만 부풀어지고 비효율적이며 실행 속도가 느립니다.
  • 모범 사례를 사용하고 죄를 저 지르지 않고 데이터를 올바르게 처리하십시오. 데이터를 버리지 마십시오. 이항 데이터를 연속 선에 맞추지 마십시오. 물리를 무시하지 마십시오.
  • 반복 가능하고 재현 가능한 결과를 제공합니다. 어떤
    사람들은 "거짓말, 망할 거짓말, 통계가있다"고 말하지만 우리
    회사 에는 그렇지 않습니다 . 동일한 양호한 입력은 동일한 우수한 출력을 제공합니다. 결과는 숫자가 아니며 항상
    기술적 조치 를 알려주고 비즈니스 결과를 초래 하는 비즈니스 결정입니다 . 다른 테스트로 다이얼을 5.5 또는 6.5로 설정할 수 있지만 기능 은 항상 1.33 이상입니다.
  • 의사
    결정자 및 / 또는 미니언 개발자 및 / 또는 1 년 내에 자신
    이 최소한의 오류로 이해할 수 있는 언어 및 수준의 결과를 제공합니다 . 할머니가 그것을 얻을 수 있도록 아름다운 것은 그것을 설명 할 수 있습니다. 이 ( link )는 내 대답이지만 좋아합니다.

분석 용 zingers :

나는 불가능한 질문이 훌륭하다고 생각합니다. 이유는 불가능합니다. 게이트 밖에서 불가능한 것을 알 수 있다는 것은 좋은 일입니다. 이유를 아는 방법, 참여 방법 또는 다른 질문을하는 것이 더 좋습니다.

다른 이력서 질문. ( 링크 ) 레딧에서. ( 링크 ) 기타 ( 링크 )

BTW : 이것은 좋은 질문이었습니다. 시간이 지남에 따라이 답변을 업데이트해야 할 수도 있습니다.


3
이것은 내가 묻는 질문과 다른 질문에 대한 좋은 대답 인 것 같습니다. 나는 좋은 직원을 고르는 방법을 묻지 않았다.
Meni Rosenfeld

그때만 통계로 내립니다.
EngrStudent-복직 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.