통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


5
임상 시험이 초기 단계에서 종료 될 때 편견이 영향을받는 이유는 무엇입니까?
중간 분석은 아마도 초기 연구를 종료하기 전에 하나 개 이상의 시점에서 데이터의 분석의 의도와 연구의 공식 가까운 예입니다. Piantadosi에 따르면, S. ( 임상 시험-방법 론적 관점 ) : " 치료 효과의 추정은 시험이 초기 단계에서 종료 될 때 편향 될 것입니다. 결정이 빠를수록 편향이 더 큽니다. " 이 주장을 설명해 …

4
와 이블 분포에 대한 EM 최대 가능성 추정
참고 : 기술적 인 이유로 본인의 게시물을 게시 할 수없는 이전 학생으로부터 질문을 게시하고 있습니다. pdf Weibull 분포 의 iid 표본 x1,…,xnx1,…,xnx_1,\ldots,x_n 을 고려하면 유용한 누락 변수 표현 따라서 대신 MLE을 찾는 데 사용할 수있는 관련 EM (예상 최대화) 알고리즘 간단한 수치 최적화?fk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 …

13
계량 경제학 교과서?
어떤 좋은 계량 경제학 교과서를 추천 하시겠습니까? 편집 : 다양한 수준의 수학적 정교함을 갖춘 책이 많이 있습니다. 추천하는 책이 얼마나 기술적인지에 대한 아이디어를 얻는 것이 좋습니다.

4
테스트가 서로 관련되어있는 여러 테스트 (유전학)에 대한 p 값 수정
많은 테스트에서 p 값이 있으며 여러 테스트를 수정 한 후 실제로 중요한 것이 있는지 알고 싶습니다. 합병증 : 내 테스트는 독립적이지 않습니다. 내가 생각하고있는 방법 (Fisher 's Product Method의 변형, Zaykin et al., Genet Epidemiol , 2002)은 p 값 사이의 상관 관계가 필요합니다. 이 상관 관계를 추정하기 위해 현재 부트 …

3
시간은 범주 형 변수입니까?
값이 0, 1, 2, ..., 23 일 수있는 "시간"이 범주 형 변수입니까? 예를 들어 5가 3 또는 7에 비해 4 또는 6에 더 가깝기 때문에 아니오라고 말하고 싶습니다. 반면에 23과 0 사이의 불연속성이 있습니다. 일반적으로 범주 형으로 간주됩니까? '시간'은 예측하려는 변수가 아닌 독립 변수 중 하나입니다.



2
“비선형 차원 축소”에서와 같이“비선형”을 이해하는 방법은 무엇입니까?
선형 차원 축소 방법 (예 : PCA)과 비선형 방법 (예 : Isomap)의 차이점을 이해하려고합니다. 나는이 맥락에서 비선형 성이 무엇을 의미하는지 이해할 수 없다. 나는 읽기 위키 백과 그 이에 비해 PCA (선형 차원 축소 알고리즘)를 사용하여 동일한 데이터 집합을 2 차원으로 줄이면 결과 값이 제대로 구성되지 않습니다. 이것은이 매니 폴드를 …

2
Krizhevsky의 '12 CNN은 첫 번째 계층에서 253,440 개의 뉴런을 어떻게 얻습니까?
에서 알렉스 Krizhevsky, 등. 심층 컨볼 루션 신경망을 사용한 이미지 넷 분류 는 각 계층의 뉴런 수를 열거합니다 (아래 다이어그램 참조). 네트워크의 입력은 150,528 차원이며 네트워크의 나머지 계층에있는 뉴런의 수는 253,440–186,624–64,896–64,896–43,264–4096–4096–1000으로 제공됩니다. 3D 뷰 첫 번째 이후의 모든 층에 대한 뉴런의 수는 분명합니다. 뉴런을 계산하는 간단한 방법 중 하나는 해당 …

3
일별 시계열 분석
시계열 분석을 시도하고 있으며이 분야에 익숙하지 않습니다. 저는 2006-2009 년부터 매일 이벤트를보고 있으며 시계열 모델에 맞추고 싶습니다. 내가 한 진보는 다음과 같습니다. timeSeriesObj = ts(x,start=c(2006,1,1),frequency=365.25) plot.ts(timeSeriesObj) 결과 플롯은 다음과 같습니다. 데이터에 계절 성과 추세가 있는지 확인하기 위해이 게시물에 언급 된 단계를 따릅니다 . ets(x) fit <- tbats(x) seasonal <- !is.null(fit$seasonal) …

7
기계 학습 모델 또는 추천 시스템에서 지리 또는 우편 번호를 나타내는 방법은 무엇입니까?
모델을 작성 중이며 지리적 위치가 타겟 변수를 예측하는 데 매우 적합하다고 생각합니다. 각 사용자의 우편 번호가 있습니다. 그래도 모델에서 우편 번호를 예측 기능으로 포함시키는 가장 좋은 방법은 확실하지 않습니다. 우편 번호는 숫자이지만 숫자가 올라가거나 내려 가면 아무 의미가 없습니다. 30,000 개의 우편 번호를 모두 이진화 한 다음 기능이나 새 열로 …

3
희소 PCA가 PCA보다 정확히 어떻게 더 좋습니까?
수업 전에 몇 가지 강의에서 PCA에 대해 배웠고이 매혹적인 개념에 대해 더 많이 알게되면서 희소 한 PCA에 대해 알게되었습니다. 내가 틀리지 않은지 물어보고 싶었다. 이것은 희소 한 PCA이다. PCA에서, 변수 를 가진 데이터 점이 있다면 , PCA를 적용하기 전에 차원 공간 에서 각 데이터 점을 나타낼 수있다 . PCA를 적용한 …

3
Sklearn 혼란 매트릭스를 해석하는 방법
혼동 행렬 을 사용하여 분류기의 성능을 확인하고 있습니다. 나는 Scikit-Learn을 사용하고 있습니다. 결과를 어떻게 해석 할 수 있습니까? from sklearn.metrics import confusion_matrix >>> y_true = [2, 0, 2, 2, 0, 1] >>> y_pred = [0, 0, 2, 2, 0, 2] >>> confusion_matrix(y_true, y_pred) array([[2, 0, 0], [0, 0, 1], [1, …

4
디스크에서 균일 한 분포를 시뮬레이션
원의 임의의 부분에 결함이있을 확률이 동일하도록 원 내 임의의 점 주입을 시뮬레이션하려고했습니다. 원을 같은 면적의 사각형으로 나누면 결과 분포의 면적 당 개수가 포아송 분포를 따를 것으로 예상했습니다. 원형 영역 내에 점을 배치하기 만하면되기 때문에 극좌표에 아르 자형아르 자형R (반경)과 θθ\theta (극각 )의 두 개의 균일 한 랜덤 분포를 주입했습니다 . …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.