통계 및 빅 데이터

2

나는 축구 월드컵, 유럽 선수권 및 기타 토너먼트에 일반적으로 게시되는 클래식 Panini 앨범의 인터넷 적응 인 FIFA Panini Online Sticker Album을 재생 하고 있습니다. 앨범에는 424 개의 다른 스티커에 대한 자리 표시자가 있습니다. 이 게임의 목적은 424 개를 모두 모으는 것입니다. 스티커는 5 개 팩으로 제공되며, 온라인에서 찾은 코드를 통해 …

30 probability coupon-collector-problem

5

데이터 "탐사"와 데이터 "스누핑"/ "고문"?

여러 번 나는 "데이터 스누핑"에 대한 비공식적 인 경고를 겪었으며 (여기서는 재미있는 예가있다 ), 그것이 의미하는 바가 무엇이고 왜 그것이 문제가 될 수 있는지에 대한 직관적 인 생각이 있다고 생각한다. 다른 한편으로, "탐사 데이터 분석"은 적어도 그 제목 을 가진 책 이 여전히 고전적인 것으로 인용 된다는 사실에 의해 판단 …

30 multiple-comparisons interpretation eda

9

왜 벡터 오류 수정 모델을 사용합니까?

VECM ( Vector Error Correction Model) 에 대해 혼란 스럽습니다 . 기술 배경 : VECM 은 VAR ( Vector Autoregressive Model )을 통합 된 다변량 시계열 에 적용 할 수있는 가능성을 제공합니다 . 교과서에서 그들은 통합 시계열에 VAR 을 적용하는 데있어 몇 가지 문제를 언급 하는데, 그 중 가장 중요한 …

30 time-series forecasting var cointegration vecm

2

바이 모달 분포 테스트

바이 모달 분포의 중요성을 "테스트"하는 통계 테스트가 있는지 궁금합니다. 내 데이터가 바이 모달 분포를 얼마나 충족 시키는가? 그렇다면 R 프로그램에 테스트가 있습니까?

30 r hypothesis-testing distributions bimodal

2

음 이항 회귀의 가정은 무엇입니까?

나는 큰 데이터 세트 (기밀, 너무 많이 공유 할 수 없음)로 작업하고 있으며 부정적인 이항 회귀가 필요하다는 결론에 도달했습니다. 나는 전에 glm 회귀를 한 적이 없으며 가정이 무엇인지에 대한 명확한 정보를 찾을 수 없습니다. MLR과 동일합니까? 변수를 같은 방식으로 변환 할 수 있습니까 (이미 종속 변수를 변환하는 것이 자연수 여야하기 …

30 regression generalized-linear-model data-transformation assumptions negative-binomial

8

데이터 마이닝 및 머신 러닝을 준비하기 위해 어떤 수학 과목을 제안 하시겠습니까?

데이터 마이닝 및 기계 학습을 준비하기 위해 자체 지시 수학 커리큘럼을 구성하려고합니다. 이것은 코스타에서 Andrew Ng의 머신 러닝 수업 을 시작 하고 진행하기 전에 수학 능력을 향상시켜야한다고 느꼈습니다. 얼마 전 대학을 졸업 했으므로 대수와 통계 (특히 정치 과학 / 심리학 수업)는 녹슬 었습니다. 스레드의 답 수학의 강력한 배경이 ML의 전제 …

30 machine-learning references data-mining

3

멀티 클래스 분류기의 품질을 결정하는 방법

주어진 모든 인스턴스 정확히 하나의 클래스 속하는 클래스 와 함께 인스턴스 를 가진 데이터 세트xixix_iNNNxixix_iyiyiy_i 멀티 클래스 분류기 훈련 및 테스트 후 기본적으로 테스트 세트의 모든 인스턴스 에 대해 실제 클래스 및 예상 클래스 가있는 테이블이 있습니다. 따라서 모든 인스턴스에 대해 일치하는 ( ) 또는 누락 된 ( ) 있습니다.yiyiy_iaiaia_ixixix_iyi=aiyi=aiy_i= …

30 machine-learning classification multi-class

2

lme 및 lmer 비교

이 두 기능의 현재 차이점에 대해 누군가가 나를 밝힐 수 있는지 궁금합니다. 다음 질문을 찾았습니다. 혼합 효과 모델에 대해 nlme 또는 lme4 R 라이브러리를 선택하는 방법은 무엇입니까? 하지만 몇 년 전부터 시작되었습니다. 그것은 소프트웨어 분야에서 평생입니다. 내 구체적인 질문은 다음과 같습니다 에 (여전히) 상관 관계 구조가 있습니까 lme그 lmer처리하지 않습니다는? …

30 r mixed-model lme4-nlme

1

이항 분포 함수가 제한 포아송 분포 함수보다 위 / 아래에 있는가?

하자 파라미터를 이항 분포 함수 (DF)를 나타내고 , N ∈ N 및 P ∈ ( 0 , 1 ) 에서 평가 R ∈ { 0 , 1 , ... , N } : B ( N , P , r ) = r ∑ i = 0 ( nB(n,p,r)B(n,p,r)B(n,p,r)n∈Nn∈Nn \in …

30 binomial poisson-distribution convergence probability-inequalities

3

동료 검토 오픈 소스 저널에 대한 추천?

한 가지 의미의 가설을 테스트하기 위해 부트 스트랩 방법에 대한 원고가 있으며 출판을 위해 보내려고하지만 도덕적 딜레마가 있습니다. 나는 Elsevier에 대한 비 윤리적 사업 관행에 대한 항의에 서명했으며, 전체 문제를 읽으면서 다른 영리 학술 저널의 윤리에 의문을 갖게되었습니다. 따라서 나는 명성이 관련된 한, 더 널리 알려진 저널과 동등한 저널이 아직 …

30 hypothesis-testing bootstrap journals

3

시계열이 정지인지 아닌지를 아는 방법?

내가 R을 사용하고, 나는 구글에 검색하고 배운 kpss.test(), PP.test()그리고 adf.test()시계열의 정상 성에 대해 알고하는 데 사용됩니다. 그러나 나는 통계학자가 아니며 결과를 해석 할 수 있습니다 > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level …

30 r time-series stationarity augmented-dickey-fuller kpss-test

4

R에서 PCA를 사용하여 차원 축소를 수행하는 방법

큰 데이터 집합이 있고 차원 축소를 수행하고 싶습니다. 이제 어디서나 PCA를 사용할 수 있다는 것을 읽었습니다. 그러나 여전히 PCA를 계산 / 수행 한 후해야 할 일을 찾지 못하는 것 같습니다. R에서는이 명령을 사용하여 쉽게 수행 할 수 있습니다 princomp. 그러나 PCA를 계산 한 후 어떻게해야합니까? 처음 주요 구성 요소 를 …

30 r pca

6

선 그래프에 선이 너무 많습니다. 더 나은 해결책이 있습니까?

시간이 지남에 따라 사용자 (이 경우 "좋아요")의 작업 수를 그래프로 표시하려고합니다. 그래서 저는 y 축으로 "행동 횟수"를 가지고 있고 x 축은 시간 (주)이며 각 줄은 한 명의 사용자를 나타냅니다. 내 문제는 약 100 명의 사용자에 대해이 데이터를보고 싶다는 것입니다. 선 그래프는 빠르게 100 개의 선으로 뒤죽박죽이됩니다. 이 정보를 표시하는 데 …

30 r data-visualization

5

샘플링 분포를 가르치기위한 전략

tl; dr 버전 입문 학부 수준에서 (예를 들어 표본 평균의) 표본 분포를 가르치기 위해 어떤 성공적인 전략을 사용하십니까? 배경 9 월에는 David Moore 의 기본 통계 실습을 사용하여 2 학년 사회 과학 (주로 정치 과학 및 사회학) 학생들을위한 입문 통계 과정을 가르치게 됩니다. 내가이 과정을 가르친 것은 다섯 번째 일 …

30 distributions sampling teaching

1

GAM에서 텐서 제품 상호 작용의 직관 (R의 MGCV 패키지)

일반화 된 첨가제 모델은 예를 들어 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 입니다. 기능은 매끄럽고 추정됩니다. 일반적으로 페널티 스플라인에 의해. MGCV는 R에 포함 된 패키지이며, 저자 (Simon Wood)는 R 예제와 함께 그의 패키지에 관한 책을 씁니다. Ruppert 등 (2003) 같은 버전의 더 간단한 버전에 대해 훨씬 …

30 r nonparametric interaction splines intuition