통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
로지스틱 회귀 분석에 가장 중요한 기능 이해
내 데이터에서 매우 정확한 로지스틱 회귀 분류기를 만들었습니다. 이제 왜 그것이 잘 작동하는지 더 잘 이해하고 싶습니다. 특히, 어떤 기능이 가장 큰 기여를하고 있는지 (어떤 기능이 가장 중요한지) 순위를 매기고, 이상적으로는 각 기능이 전체 모델 (또는이 맥락에서)의 정확성에 기여하는 정도를 수량화하고 싶습니다. 어떻게해야합니까? 내 첫 번째 생각은 계수를 기준으로 순위를 …

1
행렬에 새 행을 하나 추가 한 후 SVD 분해 업데이트
SVD 분해 A = U S V with 인 m × n 크기 의 밀도가 높은 행렬 가 있다고 가정합니다 . 에서 나는 SVD를 계산할 수 있습니다 다음과 같습니다 .AA \textbf{A}m×nm×nm \times nA=USV⊤.A=USV⊤.\mathbf{A}=\mathbf{USV}^\top.Rsvd(A) 새로운 번째 행이 A에 추가되면 SVD를 처음부터 다시 계산하지 않고 이전 행을 기반으로 새 SVD 분해를 계산할 …

3
R의 glm 함수에 어떤 최적화 알고리즘이 사용됩니까?
이러한 코드를 사용하여 R에서 로짓 회귀를 수행 할 수 있습니다. > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 최적화 알고리즘이 수렴 된 것처럼 보입니다. 피셔 스코어링 알고리즘의 단계 수에 대한 정보가 있습니다. Call: glm(formula = cbind(Menarche, Total - …

2
불가능한 추정 문제?
질문 음 이항 분포 (NB)의 분산은 항상 평균보다 큽니다. 표본의 평균이 분산보다 큰 경우 최대 가능성 또는 모멘트 추정으로 NB의 모수를 맞추려고하면 실패합니다 (유한 모수를 가진 해는 없습니다). 그러나 NB 분포에서 추출한 표본의 평균이 분산보다 큽니다. 다음은 R의 재현 가능한 예입니다. set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 …

2
LOESS와 LOWESS의 차이점
LOESS와 LOWESS의 차이점은 무엇입니까? 에서 위키 백과 난 단지 황토가 LOWESS의 일반화 것을 볼 수 있습니다. 매개 변수가 약간 다릅니 까?

2
클러스터링 — Kleinberg의 불가능 성 정리의 직관
클러스터링의 어려움을 탐구하는 Kleinberg (2002) 의이 흥미로운 분석에 대한 블로그 게시물을 작성하려고 생각했습니다 . Kleinberg는 군집화 기능에 대한 직관적으로 보이는 세 가지 욕구를 요약 한 다음 해당 기능이 없음을 증명합니다. 세 가지 기준 중 두 가지를 만족시키는 많은 클러스터링 알고리즘이 있습니다. 그러나 세 기능을 동시에 만족시킬 수있는 기능은 없습니다. 간략하고 …

3
앙상블 분류기를 언제 사용하지 않아야합니까?
일반적으로 샘플 외부 클래스 멤버십을 정확하게 예측하는 것이 목표 인 분류 문제에서 앙상블 분류기를 사용 하지 않아야 하는 시점은 언제 입니까? 이 질문은 항상 앙상블 학습을 사용하지 않는 이유 와 밀접한 관련이 있습니다. . 이 질문은 왜 앙상블을 항상 사용하지 않는지 묻습니다. 나는 앙상블이 아닌 것 보다 앙상블이 더 나쁜 …

5
응용 통계 과정에서 첨도를 가르쳐야합니까? 그렇다면 어떻게?
중앙 경향, 확산 및 왜도는 적어도 직관적 인 기준으로 비교적 잘 정의 될 수 있습니다. 이러한 것들에 대한 표준 수학적 측정은 또한 우리의 직관적 인 개념과 비교적 잘 일치합니다. 그러나 첨도는 다른 것 같습니다. 매우 혼란스럽고 분포 모양에 대한 직감과 잘 맞지 않습니다. 적용된 설정에서 첨도에 대한 일반적인 설명은 Microsoft …

2
표본의 CDF가 균일하게 분포 된 이유
여기 에 샘플 가 주어진 것을 읽었습니다 . . . ,X1,X2,...,XnX1,X2,...,Xn X_1,X_2,...,X_n cdf 를 사용한 연속 분포로부터의 X n 에서, 대응하는 샘플 은 표준 균일 분포를 따른다.FXFX F_X Ui=FX(Xi)Ui=FX(Xi) U_i = F_X(X_i) 파이썬에서 질적 시뮬레이션을 사용하여 이것을 확인했으며 관계를 쉽게 확인할 수있었습니다. import matplotlib.pyplot as plt import scipy.stats xs = …
17 pdf  uniform  cdf  intuition 

2
회귀 분석과 곡선 피팅의 차이점
가능한 한 예를 들어 회귀 분석과 곡선 피팅 (선형 및 비선형)의 실제 차이점을 나에게 설명해 줄 수 있습니까? 두 변수 (종속 대 독립) 사이의 관계를 찾은 다음 제안되는 모델과 관련된 매개 변수 (또는 계수)를 결정하려고합니다. 예를 들어 다음과 같은 데이터 세트가있는 경우 : Y = [1.000 1.000 1.000 0.961 0.884 …



1
LOESS의 예측 구간을 계산하는 방법은 무엇입니까?
R의 LOESS 모델을 사용하여 피팅 한 데이터가 있는데,이를 제공합니다. 데이터에는 하나의 예측 변수와 하나의 응답이 있으며 이분법 적입니다. 또한 신뢰 구간을 추가했습니다. 문제는 간격이 선에 대한 신뢰 구간이고 예측 구간에 관심이 있다는 것입니다. 예를 들어, 하단 패널은 상단 패널보다 더 가변적이지만 간격으로 캡처되지는 않습니다. 이 질문은 약간 관련이 있습니다. 다항식 …

1
포장에 대한 이론적 보증은 무엇입니까
나는 (대략) 들었습니다. 배깅은 예측기 / 추정기 / 학습 알고리즘의 분산을 줄이는 기술입니다. 그러나 나는이 진술에 대한 공식적인 수학적 증거를 본 적이 없다. 왜 이것이 수학적으로 사실인지 아는 사람이 있습니까? 그것은 널리 알려진 / 알려진 사실 인 것 같습니다. 나는 이것에 대한 직접적인 언급을 기대합니다. 없는 것이 있으면 놀랐습니다. 또한, …

2
에코 스테이트 네트워크에 대한 직관적 인 설명은 무엇입니까?
저는 RNN (Recurrent Neural Networks)을 처음 접하면서도 개념을 배우고 있습니다. ESN (Echo State Network)은 입력이 제거 된 후에도 일련 의 입력, 즉 신호 를 (재) 생성 할 수 있다는 추상적 인 수준에서 이해 합니다. 그러나 나는 Scholarpedia 기사를 완전히 이해하고 이해하기가 너무 어렵다는 것을 알았 습니다. 누군가가 가장 간단한 형태로 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.