나는 패턴 인식과 통계 그리고 Mahalanobis distance 의 개념에 부딪힌 주제에 관해 열 었던 거의 모든 책을 연구하고 있습니다 . 이 책은 일종의 직관적 인 설명을 제공하지만, 실제로 무슨 일이 일어나고 있는지 실제로 이해하기에는 충분하지 않습니다. 누군가가 "말라 노비스 거리는 얼마입니까?" 나는 단지 대답 할 수 있었다 : "이 종류의 …
EM 알고리즘을 잘 이해하고 구현하고 사용할 수 있도록 노력하고 있습니다. 나는 하루 종일 레이더에서 오는 위치 정보를 사용하여 항공기를 추적하는 데 EM과 이론을 읽었습니다. 솔직히 나는 기본 아이디어를 완전히 이해하지 못한다고 생각합니다. 누군가 가우시안 분포의 매개 변수 또는 정현파 시리즈의 시퀀스를 추정하거나 선을 맞추는 것과 같이 간단한 문제에 대해 EM의 …
통계학에 관심을 갖게되면 이분법 적 "Frequentist"와 "Bayesian"은 곧 평범 해집니다 (그리고 누가 Nate Silver의 The Signal and Noise를 읽지 못했 습니까?). 대화와 입문 과정에서 관점은 압도적으로 빈번하다 ( MLE , 값). 그러나 베이 즈 공식에 감탄 하고 일반적으로 접선으로 이전 분포 에 대한 아이디어를 다루는 데 시간이 조금 걸리는 경향이 …
많은 시계열로 작업하고 있습니다. 이 시계열은 기본적으로 10 분마다 오는 네트워크 측정이며, 일부는 주기적 (예 : 대역폭)이고 다른 일부는 그렇지 않습니다 (예 : 라우팅 트래픽의 양). 온라인 "이상 점 탐지"를위한 간단한 알고리즘을 원합니다. 기본적으로 각 시계열에 대한 전체 기록 데이터를 메모리 (또는 디스크)에 유지하고 라이브 시나리오에서 새 이상 치를 캡처하려고합니다 …
중앙값이 특이 치에 내성이 있다는 것은 알려진 사실입니다. 그렇다면 언제, 왜 우리는 처음부터 평균을 사용합니까? 내가 생각할 수있는 한 가지는 특이 치의 존재를 이해하는 것입니다. 즉, 중앙값이 평균과 거리가 먼 경우 분포가 왜곡되고 특이 치로 수행 할 작업을 결정하기 위해 데이터를 검사해야 할 수도 있습니다. 다른 용도가 있습니까?
Larry Wasserman 교수는 자신의 저서 인 "All of Statistics"에서 다음과 같은 예를 제시합니다 (188 페이지 11.10). f ( x ) = c 와 같은 밀도 가지고 있다고 가정하자에프ff -여기서 g 는알려진(음이 아닌, 적분 가능) 함수이며 정규화 상수 c > 0 은알 수 없습니다.에프( x ) = c지( x )f(x)=cg(x)f(x)=c\,g(x)지ggc > …
Friedman-Hastie-Tibshirani의 Boosting에 대한 Annals of Statistics 논문과 Freund와 Schapire를 포함한 다른 저자의 동일한 문제에 대한 의견을 여전히 기억합니다. 그 당시 분명히 Boosting은 여러 측면에서 획기적인 것으로 여겨졌습니다. 전산 적으로 실현 가능하고 앙상블 방식으로 훌륭하지만 신비한 성능을 제공합니다. 같은시기에 SVM은 오래된 이론에 기반을 둔 프레임 워크 와 다양한 변형 및 응용 …