통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

2
언제 (그리고 왜) 배포 로그 (숫자)를 가져와야합니까?
과거 주가, 항공권 가격 변동, 회사의 과거 재무 데이터와 같은 과거 데이터가 있다고 가정합니다. 이제 누군가 (또는 일부 공식)가 와서 "배포 로그를 가져 가거나 사용합시다"라고 말하면 여기가 내가 어디로 갈까요 ? 질문 : 왜 먼저 배포 로그를 가져와야합니까? 배포판의 로그는 원래 배포판이 할 수 없었거나 할 수 없었던 것을 '주거나 …

4
QQ 플롯을 해석하는 방법
작은 데이터 세트 (21 개의 관찰)로 작업하고 있으며 R에 다음과 같은 정상적인 QQ 플롯이 있습니다. 음모가 정규성을 지원하지 않는 경우 기본 분포에 대해 무엇을 추론 할 수 있습니까? 오른쪽으로 치우친 분포가 더 적합 할 것 같습니다. 맞습니까? 또한 데이터에서 다른 결론을 도출 할 수 있습니까?

9
왜 텐서에 갑자기 매료됩니까?
최근에 많은 사람들이 많은 방법 (텐서 분해, 텐서 커널, 주제 모델링을위한 텐서 등)과 같은 텐서를 개발하고 있음을 알았습니다. 왜 세상이 갑자기 텐서에 매료됩니까? 특히 놀라운 최신 논문 / 표준 결과가 있습니까? 이전에 예상했던 것보다 계산 비용이 훨씬 저렴합니까? 나는 냉담하지 않고, 진심으로 관심이 있으며, 이것에 관한 논문에 대한 조언이 있다면, …

3
올가미 대 릿지를 언제 사용해야합니까?
많은 매개 변수를 추정하고 다른 매개 변수에 비해 효과가 거의 없다고 생각하기 때문에 그 중 일부에 불이익을 가하고 싶다고 가정 해보십시오. 어떤 벌칙을 사용할지 어떻게 결정합니까? 능선 회귀는 언제 더 적절합니까? 올가미를 언제 사용해야합니까?



8
로지스틱 회귀 분석에서 완벽한 분리를 처리하는 방법은 무엇입니까?
대상 변수에서 0과 1을 완벽하게 분리하는 변수가있는 경우 R은 다음과 같은 "완벽 또는 준 완벽 분리"경고 메시지를 생성합니다. Warning message: glm.fit: fitted probabilities numerically 0 or 1 occurred 우리는 여전히 모델을 얻지 만 계수 추정치는 팽창됩니다. 실제로 이것을 어떻게 처리합니까?

21
Julia는 통계 커뮤니티를 고수 할 희망이 있습니까?
최근에 R-Bloggers의 게시물을 읽었으며 John Myles White 의이 블로그 게시물에 Julia 라는 새로운 언어에 대한 링크가 있습니다 . Julia는 JIT (Just-In-Time) 컴파일러를 활용하여 악의적 인 빠른 실행 시간을 제공하고 C / C ++와 동일한 속도의 속도를 제공합니다 (동일한 순서). , 동등하게 빨리하지 않음). 또한 R의 apply 문과 벡터 연산 대신 …

3
R의 lmer 치트 시트
이 포럼에서를 사용하여 다양한 계층 적 모델을 지정하는 올바른 방법에 대한 많은 토론이 lmer있습니다. 한 곳에서 모든 정보를 얻는 것이 좋을 것이라고 생각했습니다. 시작해야 할 몇 가지 질문 : 어떻게 한 그룹이 다른 내에 중첩되는 여러 수준을 지정합니다 : 그 것이다 (1|group1:group2)나 (1+group1|group2)? 차이 무엇 (~1 + ....)과 (1 | …

3
ROC vs 정밀 및 회수 곡선
나는 그들 사이의 공식적인 차이점을 알고 있습니다. 내가 알고 싶은 것은 하나를 사용하는 것이 더 관련성이 높은시기입니다. 그들은 주어진 분류 / 탐지 시스템의 성능에 대한 보완적인 통찰력을 항상 제공합니까? 예를 들어 종이로 두 가지를 모두 제공하는 것이 합리적입니까? 하나 대신에? 분류 시스템에 대한 ROC 및 정밀 리콜의 관련 측면을 캡처하는 …


2
생식 대 차별
생성은 " 기반"을 의미하고 차별적 인 의미는 " 기반"을 의미 하지만 몇 가지 점에서 혼란스러워합니다.P ( y | x )피( x , y)P(x,y)P(x,y)피( y| x)P(y|x)P(y|x) Wikipedia (웹에서 발생하는 다른 많은 히트)는 SVM 및 의사 결정 트리와 같은 항목을 차별적 인 것으로 분류합니다. 그러나 이것들은 확률 론적 해석조차하지 않습니다. 여기서 차별적 …


6
1을 초과하는 확률 분포 값이 양호 할 수 있습니까?
온 순진 베이 즈 분류에 대한 위키 백과 페이지 ,이 라인이있다 : p(height|male)=1.5789p(height|male)=1.5789p(\mathrm{height}|\mathrm{male}) = 1.5789 (1 이상의 확률 분포는 괜찮습니다. 종 곡선 아래의 면적은 1입니다.) 보다 큰 값은 어떻게 될 수 있습니까? 모든 확률 값이 범위로 표현되었다고 생각했습니다 . 또한 그러한 값을 가질 수 있다고 가정하면 해당 값은 페이지에 표시된 …

6
k- 겹 교차 검증 후 예측 모델을 선택하는 방법은 무엇입니까?
K- 폴드 교차 검증을 수행 한 후 예측 모델을 선택하는 방법이 궁금합니다. 이것은 어색하게 표현 될 수 있으므로 K- 폴드 크로스 밸리데이션을 실행할 때마다 K 서브셋의 훈련 데이터를 사용하고 K 개의 다른 모델로 끝납니다. K 모델 중 하나를 선택하는 방법을 알고 싶습니다.이를 누군가에게 제시하고 "이 모델은 우리가 생산할 수있는 최고의 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.