통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

1
Sweave 및 xtable을 사용하여 컬러 테이블을 만드는 방법은 무엇입니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . Sweave 및 xtable 을 사용하여 보고서를 생성하고 있습니다. 테이블에 약간의 색상을 추가하고 싶습니다. 그러나 xtable을 사용하여 컬러 테이블을 생성하는 방법을 찾지 못했습니다. 다른 …

3
대화 형 데이터 시각화는 언제 유용합니까?
연설을 준비하는 동안, 나는 최근 대화식 데이터 시각화를위한 두 가지 주요 도구 인 GGobi 와 mondrian을 파헤 치기 시작했습니다. 둘 다 다양한 기능을 제공합니다 (약간 버그가 있더라도). 조음 (나 자신과 미래의 청중 모두)에게 도움을 요청하고 싶습니다. 대화 형 음모를 사용하는 것이 언제 도움이됩니까? 데이터 탐색 (자신을위한) 및 데이터 프레젠테이션 ( …

2
“모든 파란 티셔츠를 입은 사람”은 체계적인 표본입니까?
나는 인트로 통계 수업을 가르치고 있으며 모든 kth 개인 또는 객체를 샘플링하는 체계적 샘플링을 포함하여 샘플링 유형을 검토하고있었습니다. 한 학생이 특정 특성을 가진 모든 사람을 채취하여 동일한 결과를 얻을 수 있는지 물었습니다. 예를 들어, 파란색 티셔츠로 모든 사람을 샘플링하면 무작위로 충분하고 전체 인구를 충분히 표현할 수 있습니까? 적어도 "무엇을 입고 …
17 sampling 

3
주성분 분석“뒤로”: 주어진 선형 변수 조합에 의해 얼마나 많은 데이터 차이가 설명됩니까?
6 가지 변수 AAA , BBB , CCC , DDD , EEE 및 F에 대한 주성분 분석을 수행했습니다 FF. 올바르게 이해하면 회전하지 않은 PC1은 이러한 변수의 선형 조합이 데이터에서 가장 큰 차이를 설명 / 설명하고 PC2는 이러한 변수의 선형 조합이 데이터에서 다음으로 가장 큰 차이를 설명하는 방식을 알려줍니다. 그냥 궁금 …

3
로지스틱 회귀 및 데이터 세트 구조
이 질문에 올바른 방법으로 물어볼 수 있기를 바랍니다. Play-by-Play 데이터에 액세스 할 수 있으므로 최상의 접근 방식과 데이터 구성에 문제가 있습니다. 내가하고자하는 것은 규정에 남은 점수와 시간이 주어지면 NHL 게임에서 이길 확률을 계산하는 것입니다. 로지스틱 회귀를 사용할 수 있다고 생각하지만 데이터 세트의 모양을 잘 모르겠습니다. 게임마다 그리고 내가 관심있는 시간마다 …

2
통계적인 조경
통계에 대한 다양한 접근 방식에 대한 간단한 설문 조사를 작성한 사람이 있습니까? 첫 번째 근사치에 당신은 빈번하고 베이지안 통계가 있습니다. 그러나 자세히 살펴보면 우도 주의자 및 경험적 베이 즈와 같은 다른 접근 방식도 있습니다. 그리고 베이지안 통계 내에서 주관적인 베이 즈 객관적인 베이와 같은 그룹 내에 세분화가 있습니다. 설문 조사 …

7
중앙값이 평균보다 공정합니까?
나는 최근에 일반적으로 특이 치를 제거하기 위해 중간 값을 사용해야한다는 충고를 읽었습니다. 예 : 다음 기사 http://www.amazon.com/Forensic-Science-Introduction-Scientific-Investigative/product-reviews/1420064932/ 현재 16 리뷰가 있습니다 : review= c(5, 5, 5, 5, 5, 5, 5, 5, 5, 5, 4, 4, 3, 2, 1, 1) summary(review) ## "ordinary" summary Min. 1st Qu. Median Mean 3rd Qu. …
17 mean  median  average 

4
필요한 표본 크기, 분산 추정 정확도를 계산합니까?
배경 분포를 알 수없는 변수가 있습니다. 500 개의 샘플이 있지만 분산을 계산할 수있는 정밀도 (예 : 500의 샘플 크기가 충분 함)를 보여주고 싶습니다. 또한 정밀도 의 분산을 추정하는 데 필요한 최소 샘플 크기를 알고 싶습니다 X%X%X\%. 질문 계산하는 방법 표본 크기가 인 경우 분산 추정치의 정밀도는 n=500n=500n=500? 의 n=Nn=Nn=N ? …

8
클러스터링 품질 측정
입력 매개 변수 (클러스터 수 )가있는 클러스터링 알고리즘 (k가 아닌 )이 있습니다. 클러스터링을 수행 한 후이 클러스터링의 품질을 정량적으로 측정하고 싶습니다. 클러스터링 알고리즘에는 하나의 중요한 속성이 있습니다. 들면 I 피드 경우 I 함유 한 클러스터 얻을 결과,이 알고리즘에 간의 현저한 차이없이 데이터 포인트를 데이터 요소와 함께 하나 개의 클러스터 데이터 …
17 clustering 

2
Platt의 스케일링을 사용하는 이유는 무엇입니까?
과도하게 샘플링 된 데이터를 사용하여 SVM 또는 의사 결정 트리의 신뢰도를 매핑하는 등지도 학습의 확률로 신뢰 수준을 보정하려면 한 가지 방법은 Platt의 스케일링을 사용하는 것입니다 (예 : 부스팅에서 교정 확률 확보 ). 기본적으로 로지스틱 회귀를 사용하여 를 로 매핑 합니다. 종속 변수는 실제 레이블이고 예측 변수는 보정되지 않은 모델의 신뢰도입니다. …

5
데이터를 저장하기위한 단순하고 안정적이며 개방적이며 상호 운용 가능한 일반 텍스트 형식
이전 질문에서 CSV 파일 편집 도구에 대해 물었습니다 . Gavin 은 Duncan Murdoch의 R Help에 대한 의견에 링크하여 데이터 교환 형식이 CSV보다 데이터를 저장하는 것이 더 안정적인 방법이라고 제안했습니다. 일부 응용 프로그램의 경우 전용 데이터베이스 관리 시스템이 필요합니다. 그러나 소규모 데이터 분석 프로젝트의 경우 더 가벼운 것이 더 적합합니다. 파일 …

2
R의 비모수 적 베이지안 분석
RHDP (Hierarchical Dirichlet Process) (최근의 인기있는 비모수 적 베이지안 방법 중 하나) 를 사용하여 데이터를 클러스터링하는 방법에 대한 유용한 자습서를 찾고 있습니다. 가 DPpackage에 (IMHO, 가능한 모든 것들의 가장 포괄적 인) R비모수 베이지안 분석은. 그러나 R NewsHDP를 코딩하기에 충분히 또는 패키지 참조 매뉴얼에 제공된 예제를 이해할 수 없습니다 . 도움이나 …

6
R : 그룹 별 상관 관계 계산
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. R에는 클래스 레이블 C (인수)와 두 개의 측정치 M1 과 M2로 구성된 데이터 프레임이 있습니다. 각 클래스 내에서 M1 과 M2 간의 상관 관계를 어떻게 계산 합니까? 이상적으로는 각 …
17 r  correlation 

9
통계와 생물 통계학의 차이점은 무엇입니까?
통계와 생물 통계학의 차이점에 대해 몇 년 동안 몇 가지 아이디어를 모으는 동안 공식적인 설명을 들어 본 적이 없었습니다. 이 두 분야의 차이점은 무엇입니까 (현재)? 그리고 왜이 구별이 처음부터 시작 되었습니까? 편집 : 나는 원래 질문에 충분히 구체적이지 않았습니다. 생물 통계학은 생물 의학 분야에서 통계의 적용 및 개발이라는 것을 이해합니다. …

1
반복 측정을위한 불균형 혼합 효과 ANOVA
수술 중 두 가지 치료법으로 치료받은 환자의 데이터가 있습니다. 심박수에 미치는 영향을 분석해야합니다. 심박수 측정은 15 분마다 수행됩니다. 수술 길이가 환자마다 다를 수 있다고 가정하면, 각 환자는 7 내지 10의 심박수 측정을 가질 수있다. 따라서 불균형 설계를 사용해야합니다. R을 사용하여 분석을 수행하고 있으며 혼합 효과 분산 분석을 반복적으로 측정하기 위해 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.