통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
가우스 혼합을 계산하는 것이 직접 계산하기 어려운 이유는 무엇입니까?
가우스 혼합의 로그 가능성을 고려하십시오. l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} 왜 그 방정식을 직접 최대화하는 것이 계산 상 어려운지 궁금했습니다. 나는 왜 어려운지 또는 왜 어려운지에 대한 더 엄격한 설명이 분명한 이유에 대한 명확한 직관을 찾고있었습니다. 이 문제가 NP-complete입니까, 아니면 아직 해결 방법을 모르십니까? 이것이 우리가 …

1
특정 분산의 정규 분포 제곱
정상적으로 분포 확률 변수의 제곱의 분포 무엇입니까 X2X2X^2 와 X∼N(0,σ2/4)X∼N(0,σ2/4)X\sim N(0,\sigma^2/4) ? 나는 χ2(1)=Z2χ2(1)=Z2\chi^2(1)=Z^2 가 표준 정규 분포를 제곱 할 때 유효한 인수 라는 것을 알고 있지만 비 단위 분산의 경우는 어떻습니까?

1
PCA에서 정확히 "주요 구성 요소"란 무엇입니까?
가 설계 행렬 데이터 투영의 분산을 최대화하는 벡터 라고 가정 합니다.유uu엑스XX 이제, 를 데이터의 (제 1) 주요 구성 요소로 지칭하는 재료를 보았습니다 . 이는 또한 고유 값이 가장 큰 고유 벡터입니다.유uu 그러나 데이터의 주요 구성 요소가 것을 보았습니다 .엑스유XuX u 분명히 와 는 다른 것입니다. 누구든지 여기에서 나를 도울 수 …

3
로지스틱 회귀 계수의 표준 오차를 계산하는 방법
파이썬의 scikit-learn을 사용하여 로지스틱 회귀를 훈련하고 테스트합니다. scikit-learn은 독립 변수의 회귀 계수를 반환하지만 계수의 표준 오차는 제공하지 않습니다. 각 계수에 대한 Wald 통계량을 계산하고 이러한 계수를 서로 비교하려면 이러한 표준 오류가 필요합니다. 로지스틱 회귀 계수 ( here ) 의 표준 오차를 계산하는 방법에 대한 설명을 찾았 지만 따르기가 다소 어렵습니다. …

1
희소 데이터 수학에서 작동하는 클러스터링 알고리즘 [닫기]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 오년 전에 . 다음과 같은 클러스터링 알고리즘 목록을 컴파일하려고합니다. R로 구현 sparseMatrix 함수에 의해 생성 된 것과 같이 희소 데이터 행렬 (유사 행렬이 아님)에서 작동합니다. CV에는이 개념을 …
18 r  clustering  sparse 

2
PCA의 저 분산 구성 요소는 실제로 잡음 일 뿐입니 까? 그것을 테스트 할 수있는 방법이 있습니까?
PCA의 구성 요소를 유지할지 여부를 결정하려고합니다. 예를 들어 여기 또는 여기 에서 설명하고 비교 한 고유 값의 크기를 기반으로하는 기준의 기준이 있습니다 . 그러나 내 응용 프로그램에서 가장 작은 고유 값은 큰 고유 값에 비해 작고 크기를 기준으로 한 기준은 가장 작은 고유 값을 거부한다는 것을 알고 있습니다. 이것은 내가 …
18 pca 

4
이미지 해상도를 기준으로 기능 수를 계산하는 방법은 무엇입니까?
Andrew Ng의 신경 Netowrks의 비선형 가설을 방금 다루었 고, 우리는 100 x 100 의 그레이 스케일 강도 의 해상도 이미지의 특징 수 를 결정하기 위해 객관식 질문을했습니다 . 답은 5 천만, x 이었습니다.10 755510710710^7 그러나 이전에는 50 x 50 픽셀의 회색조 이미지입니다. 기능 수는 50x50 (2500)입니다. 왜 아닌 x 입니까?10 …


9
차트, 도표 및 도표 유형의 갤러리
포괄적 인 데이터 표시 기술 갤러리로 무엇을 추천 하시겠습니까? 데이터를 표현하는 더 나은 방법에 대해 생각하는 동안 참조 할 수있는 출처? 다음 중 하나를 확인했지만 추가 할 수 있으면 기쁠 것입니다. 온라인 갤러리 : http://www.mathworks.com/discovery/gallery.html http://www.idlcoyote.com/gallery/ https://developers.google.com/chart/interactive/docs/gallery?csw=1 http://www.walkingrandomly.com/?p=4788 http://en.wikipedia.org/wiki/Category:Statistical_charts_and_diagrams (한 페이지 그래픽 갤러리를 제공하지 않음) http://docs.ggplot2.org/current/ http://www.itl.nist.gov/div898/handbook/graphgal.htm http://scikit-learn.org/stable/auto_examples/index.html http://www.stata.com/support/faqs/graphics/gph/stata-graphs/ http://shiny.rstudio.com/gallery/ …

1
MANOVA는 LDA와 어떤 관련이 있습니까?
여러 곳에서 MANOVA는 ANOVA + 선형 판별 분석 (LDA)과 같다는 주장을 보았지만 항상 수동적 인 방식으로 이루어졌습니다. 나는 그것이 정확히 무엇 을 의미 하는지 알고 싶습니다 . 나는 MANOVA 계산의 모든 세부 사항을 설명하는 다양한 교과서를 찾았지만 통계가 아닌 사람이 접근 할 수 있는 좋은 일반적인 토론 ( 그림 만 …


2
카이 제곱 적합도 검정에 대한 데이터 기반 구간 경계의 영향?
이런 종류의 환경에서 카이 제곱의 저전력의 명백한 문제를 제쳐두고 데이터를 비닝하여 지정되지 않은 매개 변수로 일부 밀도에 대해 카이 제곱 우수성 테스트를 수행한다고 상상해보십시오. 구체적으로 알 수없는 평균과 표본 크기가 100 인 지수 분포를 가정 해 봅시다. 구간당 합당한 수의 관측 값을 얻으려면 데이터를 고려해야합니다 (예 : 평균값 아래에 6 …

1
범주 형 속성을 가진 SVM을 처리하는 방법
35 크기의 공간이 있습니다 (속성). 내 분석 문제는 간단한 분류 문제입니다. 35 개 차원 중 25 개가 범주 형이며 각 특성은 50 가지 이상의 유형 값을 갖습니다. 이 시나리오에서는 더미 변수를 도입해도 효과가 없습니다. 범주 속성이 많은 공간에서 SVM을 실행하려면 어떻게해야합니까?

1
클러스터 된 표준 오류와 다단계 모델링?
나는 여러 권의 책 (Raudenbush & Bryk, Snijders & Bosker, Gelman & Hill 등)과 여러 기사 (Gelman, Jusko, Primo & Jacobsmeier 등)를 훑어 보았지만 여전히 내 머리를 감싸지 않았습니다. 군집 표준 오차와 다단계 모델링의 주요 차이점은 다음과 같습니다. 본인은 연구 질문과 관련된 부분을 이해합니다. 다단계 모델링에서만 얻을 수있는 특정 유형의 …

3
치우친 데이터에 대한 t- 검정
의료 비용 데이터를 수만 번 관찰 한 데이터 세트가 있습니다. 이 데이터는 오른쪽으로 치우 치며 0이 많이 있습니다. 두 세트의 사람들에 대해 다음과 같이 보입니다 (이 경우 각각> 3000 obs를 갖는 두 개의 나이 밴드). Min. 1st Qu. Median Mean 3rd Qu. Max. 0.0 0.0 0.0 4536.0 302.6 395300.0 Min. …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.