통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
FIFA Panini 앨범을 완성하려면 몇 개의 스티커가 필요합니까?
나는 축구 월드컵, 유럽 선수권 및 기타 토너먼트에 일반적으로 게시되는 클래식 Panini 앨범의 인터넷 적응 인 FIFA Panini Online Sticker Album을 재생 하고 있습니다. 앨범에는 424 개의 다른 스티커에 대한 자리 표시자가 있습니다. 이 게임의 목적은 424 개를 모두 모으는 것입니다. 스티커는 5 개 팩으로 제공되며, 온라인에서 찾은 코드를 통해 …

5
데이터 "탐사"와 데이터 "스누핑"/ "고문"?
여러 번 나는 "데이터 스누핑"에 대한 비공식적 인 경고를 겪었으며 (여기서는 재미있는 예가있다 ), 그것이 의미하는 바가 무엇이고 왜 그것이 문제가 될 수 있는지에 대한 직관적 인 생각이 있다고 생각한다. 다른 한편으로, "탐사 데이터 분석"은 적어도 그 제목 을 가진 책 이 여전히 고전적인 것으로 인용 된다는 사실에 의해 판단 …

9
왜 벡터 오류 수정 모델을 사용합니까?
VECM ( Vector Error Correction Model) 에 대해 혼란 스럽습니다 . 기술 배경 : VECM 은 VAR ( Vector Autoregressive Model )을 통합 된 다변량 시계열 에 적용 할 수있는 가능성을 제공합니다 . 교과서에서 그들은 통합 시계열에 VAR 을 적용하는 데있어 몇 가지 문제를 언급 하는데, 그 중 가장 중요한 …


2
음 이항 회귀의 가정은 무엇입니까?
나는 큰 데이터 세트 (기밀, 너무 많이 공유 할 수 없음)로 작업하고 있으며 부정적인 이항 회귀가 필요하다는 결론에 도달했습니다. 나는 전에 glm 회귀를 한 적이 없으며 가정이 무엇인지에 대한 명확한 정보를 찾을 수 없습니다. MLR과 동일합니까? 변수를 같은 방식으로 변환 할 수 있습니까 (이미 종속 변수를 변환하는 것이 자연수 여야하기 …

8
데이터 마이닝 및 머신 러닝을 준비하기 위해 어떤 수학 과목을 제안 하시겠습니까?
데이터 마이닝 및 기계 학습을 준비하기 위해 자체 지시 수학 커리큘럼을 구성하려고합니다. 이것은 코스타에서 Andrew Ng의 머신 러닝 수업 을 시작 하고 진행하기 전에 수학 능력을 향상시켜야한다고 느꼈습니다. 얼마 전 대학을 졸업 했으므로 대수와 통계 (특히 정치 과학 / 심리학 수업)는 녹슬 었습니다. 스레드의 답 수학의 강력한 배경이 ML의 전제 …

3
멀티 클래스 분류기의 품질을 결정하는 방법
주어진 모든 인스턴스 정확히 하나의 클래스 속하는 클래스 와 함께 인스턴스 를 가진 데이터 세트xixix_iNNNxixix_iyiyiy_i 멀티 클래스 분류기 훈련 및 테스트 후 기본적으로 테스트 세트의 모든 인스턴스 에 대해 실제 클래스 및 예상 클래스 가있는 테이블이 있습니다. 따라서 모든 인스턴스에 대해 일치하는 ( ) 또는 누락 된 ( ) 있습니다.yiyiy_iaiaia_ixixix_iyi=aiyi=aiy_i= …

2
lme 및 lmer 비교
이 두 기능의 현재 차이점에 대해 누군가가 나를 밝힐 수 있는지 궁금합니다. 다음 질문을 찾았습니다. 혼합 효과 모델에 대해 nlme 또는 lme4 R 라이브러리를 선택하는 방법은 무엇입니까? 하지만 몇 년 전부터 시작되었습니다. 그것은 소프트웨어 분야에서 평생입니다. 내 구체적인 질문은 다음과 같습니다 에 (여전히) 상관 관계 구조가 있습니까 lme그 lmer처리하지 않습니다는? …


3
동료 검토 오픈 소스 저널에 대한 추천?
한 가지 의미의 가설을 테스트하기 위해 부트 스트랩 방법에 대한 원고가 있으며 출판을 위해 보내려고하지만 도덕적 딜레마가 있습니다. 나는 Elsevier에 대한 비 윤리적 사업 관행에 대한 항의에 서명했으며, 전체 문제를 읽으면서 다른 영리 학술 저널의 윤리에 의문을 갖게되었습니다. 따라서 나는 명성이 관련된 한, 더 널리 알려진 저널과 동등한 저널이 아직 …

3
시계열이 정지인지 아닌지를 아는 방법?
내가 R을 사용하고, 나는 구글에 검색하고 배운 kpss.test(), PP.test()그리고 adf.test()시계열의 정상 성에 대해 알고하는 데 사용됩니다. 그러나 나는 통계학자가 아니며 결과를 해석 할 수 있습니다 > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level …

4
R에서 PCA를 사용하여 차원 축소를 수행하는 방법
큰 데이터 집합이 있고 차원 축소를 수행하고 싶습니다. 이제 어디서나 PCA를 사용할 수 있다는 것을 읽었습니다. 그러나 여전히 PCA를 계산 / 수행 한 후해야 할 일을 찾지 못하는 것 같습니다. R에서는이 명령을 사용하여 쉽게 수행 할 수 있습니다 princomp. 그러나 PCA를 계산 한 후 어떻게해야합니까? 처음 주요 구성 요소 를 …
30 r  pca 

6
선 그래프에 선이 너무 많습니다. 더 나은 해결책이 있습니까?
시간이 지남에 따라 사용자 (이 경우 "좋아요")의 작업 수를 그래프로 표시하려고합니다. 그래서 저는 y 축으로 "행동 횟수"를 가지고 있고 x 축은 시간 (주)이며 각 줄은 한 명의 사용자를 나타냅니다. 내 문제는 약 100 명의 사용자에 대해이 데이터를보고 싶다는 것입니다. 선 그래프는 빠르게 100 개의 선으로 뒤죽박죽이됩니다. 이 정보를 표시하는 데 …

5
샘플링 분포를 가르치기위한 전략
tl; dr 버전 입문 학부 수준에서 (예를 들어 표본 평균의) 표본 분포를 가르치기 위해 어떤 성공적인 전략을 사용하십니까? 배경 9 월에는 David Moore 의 기본 통계 실습을 사용하여 2 학년 사회 과학 (주로 정치 과학 및 사회학) 학생들을위한 입문 통계 과정을 가르치게 됩니다. 내가이 과정을 가르친 것은 다섯 번째 일 …

1
GAM에서 텐서 제품 상호 작용의 직관 (R의 MGCV 패키지)
일반화 된 첨가제 모델은 예를 들어 y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i 입니다. 기능은 매끄럽고 추정됩니다. 일반적으로 페널티 스플라인에 의해. MGCV는 R에 포함 된 패키지이며, 저자 (Simon Wood)는 R 예제와 함께 그의 패키지에 관한 책을 씁니다. Ruppert 등 (2003) 같은 버전의 더 간단한 버전에 대해 훨씬 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.