통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

4
수학적 통계와 통계의 차이점은 무엇입니까?
수학적 통계와 통계의 차이점은 무엇입니까? 본인은했습니다 이 : 통계는 데이터의 수집, 구성, 분석 및 해석에 대한 연구입니다. 설문 조사 및 실험 설계 측면에서 데이터 수집 계획을 포함하여 모든 측면을 처리합니다. 그리고 이것은 : 수학적 통계는 확률 이론과 선형 대수 및 분석과 같은 다른 수학 분기를 사용하여 수학적 관점에서 통계를 연구합니다. …


3
두 시계열의 상관
정확히 같은 크기의 두 시계열 간의 상관 관계를 계산하는 가장 쉬운 방법 / 방법은 무엇입니까? 나는 와 곱하고 곱셈을 더하는 것을 생각했습니다. 이 단일 숫자가 양수라면이 두 계열이 서로 연관되어 있다고 말할 수 있습니까? 그러나 선형 적으로 다른 지수로 증가하는 시계열이 서로 관련이없는 몇 가지 예를 생각할 수 있지만 위의 …

3
결과가 소수 일 때 (두 카운트의 비율) R에서 로지스틱 회귀를 수행하는 방법은 무엇입니까?
다음과 같은 생물학적 실험이있는 논문을 검토하고 있습니다. 장치는 다양한 양의 유체 전단 응력에 세포를 노출시키는 데 사용됩니다. 더 큰 전단 응력이 셀에 가해 짐에 따라 더 많은 전단 응력이 기판에서 분리되기 시작합니다. 전단 응력의 각 수준에서, 그들은 부착 된 상태로 남아있는 세포를 세고, 처음에 부착 된 총 세포 수를 알기 …

1
거대한 희박한 비상 대표를 시각화하는 방법?
약물 이름 (DN)과 이에 해당하는 이상 반응 (AE)이라는 두 가지 변수가 있는데, 이는 다 대다 관계에 있습니다. 33,556 개의 약물 이름과 9,516 개의 부작용이 있습니다. 표본 크기는 약 580 만 개의 관측치입니다. DN과 AE의 연관성 / 관계를 연구하고 이해하고 싶습니다. 그림을 보는 것이 더 낫기 때문에 R 에서이 세트를 시각화하는 …


1
k- 폴드 교차 검증을 누가 발명 했습니까?
k-fold cross-validation이 도입 된 논문에 대한 참조를 찾고 있습니다 (주제에 대한 좋은 학문적 참조가 아니라). 아마도 첫 번째 논문을 모호하지 않게 식별하기에는 시간이 너무 많이 걸리기 때문에 아이디어가 사용 된 초기 논문이 흥미로울 것입니다. 내가 아는 가장 빠른 것은 PA Lachenbruch 및 MR Mickey,“차별 분석에서의 오류율 추정”, Technometrics, vol. 10 …

4
자살 횟수 데이터에서 계절적 영향을 테스트하는 데 적합한 방법입니까?
미국의 17 년 (1995 년에서 2011 년까지) 자살 사망 관련 사망 증명서 데이터를 보유하고 있습니다. 검토 한 결과, 사용 된 방법이나 결과에 대한 확신이 명확하지 않습니다. 따라서 데이터 세트 내에서 특정 달에 자살이 발생할 가능성이 있는지 여부를 확인할 수 있습니다. 모든 분석은 R에서 수행됩니다. 데이터의 총 자살 건수는 13,909 명입니다. …


3
온 전성 검사 : p- 값이 얼마나 낮아질 수 있습니까?
두 샘플의 중앙값을 비교하기 위해 순위 합계 테스트를 사용하고 있으며 ( ) 다음과 크게 다릅니다 . 이러한 작은 값 이 의심 스럽거나 매우 큰 표본을 갖는 것과 관련된 높은 통계적 힘에 기인해야합니까? 의심스럽게 낮은 값 과 같은 것이 있습니까?p pn = 120000엔=120000n=120000p = 1.12E-207피피p피피p

4
이러한 분석 기술에 대한 글로벌 비전이 있습니까?
나는 현재 우리 모두처럼 출력 가 입력 와 어떻게 관련되어 있는지 이해하기 위해 기본적으로 필요한 프로젝트에 있습니다. 여기서의 특이점은 데이터 가 한 번에 하나씩 제공되므로 새로운 받을 때마다 분석을 업데이트하고 싶습니다 . 필자는 필요한 모든 데이터를 보유하고 동시에 모든 데이터를 사용하여 계산을 수행하는 "배치"처리와 달리 "온라인"처리라고합니다.yyyxxx(y,x)(y,x)(y,x)(y,x)(y,x)(y,x) 그래서 나는 아이디어를 둘러 …

3
설명 변수의 순서는 회귀 계수를 계산할 때 중요합니까?
처음에는 순서가 중요하지 않다고 생각했지만 여러 회귀 계수를 계산하는 그램 슈미트 직교 화 프로세스에 대해 읽었으며 이제는 두 번째 생각을하고 있습니다. 그램-슈미트 공정에 따르면, 설명 변수가 다른 변수들 사이에서 색인화 될 때, 그 잔여 벡터는 더 작을 수 있는데, 그 이유는 이전 변수의 잔여 벡터가 그로부터 제거되기 때문이다. 결과적으로, 설명 …

7
Quantile을 동적으로 모니터링하는 알고리즘
일부 데이터의 Quantile을 추정하고 싶습니다. 데이터가 너무 커서 메모리에 수용 할 수 없습니다. 그리고 데이터는 정적 인 것이 아니며 새로운 데이터가 계속 나오고 있습니다. 누구든지 매우 제한된 메모리 및 계산으로 지금까지 관찰 된 데이터의 Quantile을 모니터링하는 알고리즘을 알고 있습니까? 내가 찾을 수 P2 알고리즘 유용하지만, 매우 꼬리 무거운 분산되어 내 …

3
뉴스의 방정식 : 다단계 모델을 일반 사용자에게 번역
New York Times는 뉴욕시 교육자들에게 피드백을 제공하기 위해 사용되는 '부가가치'교사 평가 시스템에 대해 오랫동안 언급했습니다. lede는 문맥없이 표시되는 점수를 계산하는 데 사용되는 방정식입니다. 수사적 전략은 수학을 통해 협박하는 것으로 보입니다. 이 기사의 전문은 http://www.nytimes.com/2011/03/07/education/07winerip.html 에서 볼 수 있습니다 . 마이클 와인 립 (Michael Winerip)이라는 저자는이 방정식의 의미가 평균적인 교사보다 훨씬 …

2
lme와 aov가 R의 반복 측정 ANOVA에 대해 다른 결과를 반환하는 이유는 무엇입니까?
ez패키지 사용에서 lme반복 측정 ANOVA 로 이동하려고합니다 (와 함께 사용자 정의 대비를 사용할 수 있기를 바랍니다 lme). 이 블로그 게시물 의 조언에 따라 aov( ez요청시 와 마찬가지로 ) 및을 사용하여 동일한 모델을 설정할 수있었습니다 lme. 그러나 그 게시물에 주어진 예 에서 F 값 은 ( aov와 lme내가 확인한 것) 사이에 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.