통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A


3
능선 회귀 구현 :
Python / C 모듈에서 Ridge Regression을 구현하고 있으며이 "작은"문제를 겪었습니다. 아이디어는 "통계 학습의 요소"에 대한 65 페이지의 플롯 과 같이 유효 간격이 어느 정도 동일하게 간격을두고 샘플링하는 것입니다. 즉, 샘플 : df(λ)=∑i=1pd2id2i+λ,df(λ)=∑i=1pdi2di2+λ,\mathrm{df}(\lambda)=\sum_{i=1}^{p}\frac{d_i^2}{d_i^2+\lambda}, 여기서d2idi2d_i^2 는~에서행렬의 고유 값입니다.. 첫 번째 한계를 설정하는 쉬운 방법은\ lambda _ {\ max} = \ sum_i ^ …

6
Markov 체인의 메모리가없는 속성 확인
일련의 관찰 된 시퀀스가 ​​마르코프 체인 인 것 같습니다. X=⎛⎝⎜⎜⎜⎜AB⋮BCA⋮CDA⋮ADC⋮DBA⋮AAD⋮BCA⋮E⎞⎠⎟⎟⎟⎟X=(ACDDBACBAACADA⋮⋮⋮⋮⋮⋮⋮BCADABE)X=\left(\begin{array}{c c c c c c c} A& C& D&D & B & A &C\\ B& A& A&C & A&D &A\\ \vdots&\vdots&\vdots&\vdots&\vdots&\vdots&\vdots\\ B& C& A&D & A & B & E\\ \end{array}\right) 그러나 그들이 실제로 의 메모리없는 속성을 존중하는지 어떻게 확인할 …

4
주관적 순위 순서의 결과를 어떻게 그래프로 나타낼 수 있습니까?
비모수 적 테스트와는 별도로 주관적 순위를 시각화하는 방법을 찾고 있습니다. 나는 12 명의 참가자들에게 다른 주관적인 기준 (각각 다른 등급)에 따라 8 개의 다른 항목을 순위 화하도록 요청했습니다. 개별 순위 집합에 대해, 나는 순위의 높은 수준의 추세를 시각화하는 좋은 방법을 찾고 있습니다. 평균 순위에서 막대 및 레이더 플롯을 모두 시도했지만 …


2
자주주의와 이전
Robby McKilliam 은이 게시물 에 대한 코멘트에서 다음 과 같이 말합니다 . 잦은 주의자 관점에서 사전 지식을 모델에 통합 할 수없는 이유는 없다는 점을 지적해야합니다. 이런 점에서, 잦은 관점은 더 단순합니다. 모델과 데이터 만 있습니다. 사전 정보를 모델에서 분리 할 필요가 없습니다. 또한, 여기 , @jbowman는 베이 즈는이 이전 할 …

2
비상 사태 표 : 어떤 테스트를 언제 언제해야합니까?
나는의 확장보고 싶은 이 논의 범위를 조금 확대, 오래된 카이 제곱 대 피셔의 정확한 테스트 논쟁을. 우발 사고 테이블에는 상호 작용에 대한 많은 테스트가있어서 머리를 돌리기에 충분합니다. 어떤 테스트를 언제 사용해야하는지에 대한 설명과 한 테스트가 다른 테스트보다 선호되어야하는 이유에 대한 설명을 얻고 싶습니다. 내 현재의 문제는 고전적인 사례이지만 적어도 진행 …


2
R에서 여러 종속 변수로 일반 선형 모형을 수행하는 방법은 무엇입니까?
6 개의 종속 변수 (카운트 데이터)와 여러 개의 독립 변수가 있는데 MMR에서 스크립트는 다음과 같습니다. my.model <- lm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn) 그러나 내 데이터는 개수이므로 일반 선형 모델을 사용하고 싶습니다. my.model <- glm(cbind(DV1,DV2,DV3,DV4,DV5,DV6) ~ IV1 + IV2 + ... + IVn, family="poisson") 그리고이 오류 메시지가 …

2
첫 번째 차분 변수로 회귀 분석을 어떻게 해석합니까?
두 개의 시계열이 있습니다. 시장 위험 프리미엄 (ERP; 레드 라인) 국채에 기반한 무위험 금리 (파란색 선) 위험 부담률이 ERP를 설명 할 수 있는지 테스트하고 싶습니다. 이에 따라 저는 기본적으로 Tsay (2010, 3 판, p. 96)의 조언을 따랐습니다. 선형 회귀 모형을 적합하고 잔차의 직렬 상관 관계를 확인하십시오. 잔차 계열이 단위 루트 …

2
동일한 n, k의 모든 가능한 값으로 조합의 합을 단순화
이 방정식을 단순화하는 방법이 있습니까? ( 81) + ( 82) + ( 8삼) + ( 84) + ( 85) + ( 86) + ( 87) + ( 88)(81)+(82)+(8삼)+(84)+(85)+(86)+(87)+(88)\dbinom{8}{1} + \dbinom{8}{2} + \dbinom{8}{3} + \dbinom{8}{4} + \dbinom{8}{5} + \dbinom{8}{6} + \dbinom{8}{7} + \dbinom{8}{8} 또는 더 일반적으로 ∑k = 1엔( n케이)∑케이=1엔(엔케이)\sum_{k=1}^{n}\dbinom{n}{k}

3
t- 검정으로 통계적 유의성을 위해 두 분류기 정확도 결과 비교
통계적으로 유의미한 두 분류기의 정확도를 비교하고 싶습니다. 두 분류기는 모두 동일한 데이터 세트에서 실행됩니다. 이것은 내가 읽은 것에서 하나의 샘플 t- 검정을 사용해야한다고 생각하게합니다 . 예를 들면 다음과 같습니다. Classifier 1: 51% accuracy Classifier 2: 64% accuracy Dataset size: 78,000 이것이 올바른 테스트입니까? 그렇다면 분류기 간의 정확도 차이가 중요한지 어떻게 …

4
이동 평균 모델 오류 항
Box-Jenkins MA 모델에 대한 기본적인 질문입니다. 내가 이해하는 것처럼 MA 모델은 기본적으로 이전 오류 용어 에 대한 시계열 값 의 선형 회귀입니다 . 즉, 관측 값 는 먼저 이전 값 Y_ {t-1}, ..., Y_ {tn} 에 대해 회귀 된 다음 하나 이상의 Y-\ hat {Y} 값이 MA의 오류 항으로 사용됩니다. …

1
잠재 된 디리클레 할당을 사용하기위한 입력 매개 변수
주제 모델링 (Latent Dirichlet Allocation)을 사용할 때 주제 수는 사용자가 지정해야하는 입력 매개 변수입니다. Dirichlet 프로세스가 샘플링해야하는 후보 토픽 세트를 제공해야한다고 생각합니까? 이해가 정확합니까? 실제로 이런 종류의 후보 주제 세트를 설정하는 방법은 무엇입니까?

5
최고의 SVM 메타 파라미터를 찾는 빠른 방법 (그리드 검색보다 빠름)
대기 오염 물질을 단기 예측하기 위해 SVM 모델을 사용하고 있습니다. 새 모델을 훈련 시키려면 SVM 모델 (C, 감마 등)에 적합한 메타 파라미터를 찾아야합니다. Libsvm 문서 (및 내가 읽은 많은 다른 책들)는 그리드 검색을 사용하여 이러한 매개 변수를 찾는 것을 제안합니다. 따라서 기본적으로 특정 세트에서 이러한 매개 변수의 각 조합에 대한 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.