통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
포아송과 음 이항 회귀는 언제 같은 계수에 적합합니까?
R에서 푸 아송과 음 이항 (NB) 회귀는 항상 범주 형이지만 연속적이지 않은 예측 변수에 대해 동일한 계수에 맞는 것으로 나타났습니다. 예를 들어, 범주 형 예측 변수를 사용한 회귀 분석은 다음과 같습니다. data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) …

3
순진한 베이지안 분류 기가 왜 그렇게 잘 작동합니까?
Naive Bayes 분류기는 분류 문제에 널리 사용됩니다. 다음과 같은 여러 가지 이유가 있습니다. "Zeitgeist"-약 10 년 전에 스팸 필터가 성공한 후 널리 인식 쓰기 쉽다 분류기 모델은 빠른 빌드 모델을 다시 만들지 않고도 새로운 교육 데이터로 모델을 수정할 수 있습니다 그러나 이들은 '순진'합니다. 즉, 기능이 독립적이라고 가정합니다. 이는 최대 엔트로피 …

2
모델 식별 기능이란 무엇입니까?
식별 할 수없는 모델의 경우 모델 매개 변수에 대한 여러 가지 다른 할당에 의해 데이터가 생성 될 수 있음을 알고 있습니다. Cassella & Berger 2nd ed, 섹션 11.2의 예에서와 같이 매개 변수를 제한하여 모든 것을 식별 할 수 있음을 알고 있습니다. 특정 모델이 주어지면 식별 가능한지 여부를 어떻게 평가할 수 …

9
이 그림에서
다음 그림에서 와 의 관계는 무엇입니까 ? 내 생각에는 부정적인 선형 관계가 있지만, 특이 치가 많기 때문에 관계가 매우 약합니다. 내가 맞아? 산점도를 어떻게 설명 할 수 있는지 배우고 싶습니다.XYYYXXX

6
신뢰할 수있는 지역과 베이지안 가설 검정의 연관성은 무엇입니까?
빈번한 통계에서는 신뢰 구간과 테스트간에 밀접한 관련이 있습니다. 예를 들어, 분포 에서 에 대한 유추를 예로 사용하면 신뢰 구간 에는 유의 수준 에서 의해 기각되지 않는 모든 값이 포함됩니다 .μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alphax¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha 빈번한 신뢰 구간은 이러한 의미에서 역전 된 테스트입니다. (우연히 이것은 -value를 매개 변수의 null 값이 신뢰 구간에 …

7
R 데이터 세트 (.rda 파일)를 볼 수있는 좋은 브라우저 / 뷰어가 있습니까?
.rda 파일 (R 데이터 세트)을 찾아보고 싶습니다. View(datasetname)명령 에 대해 알고 있습니다. Mac 용 기본 R.app에는 데이터에 대한 브라우저가 좋지 않습니다 (X11에서 창이 열립니다). 나는 View명령으로 열리는 RStudio 데이터 브라우저를 좋아합니다 . 그러나 1000 개의 행만 표시하고 나머지는 생략합니다. ( 업데이트 : RStudio 뷰어에 이제 모든 행이 표시됨) 데이터 세트의 …
38 r 

4
정규 확률 변수에 대한 대략적인 순서 통계
특정 랜덤 분포의 순서 통계에 대해 잘 알려진 공식이 있습니까? 특히 정규 랜덤 변수의 첫 번째 및 마지막 순서 통계이지만 더 일반적인 대답도 인정됩니다. 편집 : 명확히하기 위해 정확한 적분 표현식이 아니라 다소 명시 적으로 평가 될 수있는 수식을 찾고 있습니다. 예를 들어, 정규 rv의 1 차 통계량 (즉, 최소값)에 …

8
변경 점수에 대한 독립 변수의 효과를 테스트 할 때 기준 측정 값을 제어 변수로 포함하는 것이 유효합니까?
OLS 회귀를 실행하려고합니다. DV : 1 년에 걸친 체중 변화 (초기 체중-최종 체중) IV : 운동 여부. 그러나 무거운 사람이 얇은 사람보다 운동 단위당 더 많은 체중을 잃는 것이 합리적입니다. 따라서 제어 변수를 포함하고 싶었습니다. CV : 초기 시작 무게. 그러나 이제 초기 가중치 를 사용하여 종속 변수 AND를 제어 …

5
R의 시계열 '클러스터링'
시계열 데이터 세트가 있습니다. 각 시계열의 실제 날짜가 모두 정확하게 '정렬'되는 것은 아니지만 각 시리즈는 동일한 기간을 포함합니다. 즉, 시계열을 2D 행렬로 읽으면 다음과 같이 보일 것입니다. date T1 T2 T3 .... TN 1/1/01 100 59 42 N/A 2/1/01 120 29 N/A 42.5 3/1/01 110 N/A 12 36.82 4/1/01 N/A …

9
Bernoulli 랜덤 변수의 합을 효율적으로 모델링하는 방법은 무엇입니까?
나는 ~ 15-40k 독립적 인 Bernoulli 랜덤 변수 ( ) 의 합인 랜덤 변수 ( )를 모델링하고 있는데 , 각각 성공 확률이 다릅니다 ( p_i ). 공식적으로 Y = \ sum X_i 여기서 \ Pr (X_i = 1) = p_i 및 \ Pr (X_i = 0) = 1-p_i 입니다.YYYXiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i …

8
임의의 양의 반음계 상관 행렬을 효율적으로 생성하는 방법은 무엇입니까?
PSD (positive-semidefinite) 상관 행렬을 효율적으로 생성 할 수 있기를 원합니다. 생성 할 행렬의 크기를 늘리면 메서드 속도가 크게 느려집니다. 효율적인 솔루션을 제안 할 수 있습니까? Matlab의 예를 알고 있다면 매우 감사하겠습니다. PSD 상관 행렬을 생성 할 때 생성 할 행렬을 설명하기 위해 매개 변수를 어떻게 선택합니까? 평균 상관 관계, 상관 …

3
랜덤 포레스트와 매우 랜덤 화 된 트리의 차이점
랜덤 포레스트와 매우 랜덤 화 된 트리는 랜덤 포레스트에있는 트리의 분할이 결정론적인 반면, 매우 랜덤 화 된 트리의 경우에는 랜덤이라는 점에서 차이가 있음을 이해했습니다. 현재 트리에 대해 선택된 변수에서 임의의 균일 분할 중). 그러나 나는 다양한 상황 에서이 다른 분열의 영향을 완전히 이해하지 못합니다. 편향 / 분산 측면에서 어떻게 비교합니까? …

3
PCA가 부울 (이진) 데이터 유형에 대해 작동합니까?
고차 시스템의 차원을 줄이고 바람직하게는 2 차원 또는 1 차원 필드에서 대부분의 공분산을 포착하고 싶습니다. 나는 이것이 주성분 분석을 통해 이루어질 수 있다는 것을 알고 있으며 많은 시나리오에서 PCA를 사용했습니다. 그러나 부울 데이터 유형에는 사용하지 않았 으며이 세트로 PCA를 수행하는 것이 의미가 있는지 궁금했습니다. 예를 들어, 질적이거나 설명적인 척도가 있다고 …

2
ImageNet : 상위 1 및 상위 5 오류율이란 무엇입니까?
ImageNet 분류 용지에서 상위 1 및 상위 5 오류율은 일부 솔루션의 성공을 측정하는 데 중요한 단위이지만 이러한 오류율은 무엇입니까? 에 깊은 길쌈 신경망과 ImageNet 분류 Krizhevsky 등으로. 하나의 단일 CNN (7 페이지)을 기반으로하는 모든 솔루션에는 상위 5 개의 오류율이 없지만 5 및 7 개의 CNN이있는 솔루션에는 5 개의 CNN에 비해 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.