통계 및 빅 데이터

통계, 기계 학습, 데이터 분석, 데이터 마이닝 및 데이터 시각화에 관심있는 사람들을위한 Q & A

5
p 값이 높은 강한 상관 계수의 예
p 값이 높은 (.25 이상) 매우 강한 상관 계수 (예 : .9 이상)를 가질 수 있습니까? 다음은 p 값이 높은 낮은 상관 계수의 예입니다. set.seed(10) y <- rnorm(100) x <- rnorm(100)+.1*y cor.test(x,y) cor = 0.03908927, p = 0.6994 높은 상관 계수, 낮은 p 값 : y <- rnorm(100) x <- …


1
지수 모델을 데이터에 피팅
이 질문은 교차 검증에서 답변 될 수 있기 때문에 스택 오버플 로 에서 마이그레이션 되었습니다. 8 년 전에 이주했습니다 . 클래스 "숫자"의 두 변수가 있습니다. > head(y) [1] 0.4651804 0.6185849 0.3766175 0.5489810 0.3695258 0.4002567 > head(x) [1] 59.32820 68.46436 80.76974 132.90824 216.75995 153.25551 나는 그것들을 플로팅했고, 이제 지수 모델을 데이터에 …
21 r 

3
일일 데이터가 포함 된 Auto.arima : 계절 /주기를 캡처하는 방법?
매일 시계열에 ARIMA 모델을 장착하고 있습니다. 데이터는 매일 2010 년 2 월 1 일부터 2011 년 7 월 30 일까지 수집되며 신문 판매에 관한 것입니다. 매주 판매 패턴이 발견 될 수 있기 때문에 (매일 평균 판매량은 월요일에서 금요일까지 동일하다가 토요일과 일요일에 증가합니다)이 "계절성"을 파악하려고합니다. 판매 데이터 "데이터"가 주어지면 다음과 같이 …

4
상관 관계와 인과 관계의 차이는 어느 정도까지 Google과 관련이 있습니까?
문맥 이 사이트에서 인기있는 질문은 " 일반적인 통계 죄는 무엇입니까? "입니다. 죄 중 하나는 가정입니다 언급 "상관 관계가 인과 관계를 의미한다 ..." 링크 그런 다음 5 개의 공감대에 대한 의견에서 다음과 같이 제안합니다. "Google은 1 년에 $ 65B의 차이를 신경 쓰지 않습니다." 가벼운 퀴즈를 과도하게 분석 할 위험이 있으므로, 이것이 …

1
역 Wishart 분산 행렬의 대각선의 한계 분포
가정 . 대각선 요소 의 한계 분포에 관심이 있습니다. 의 하위 행렬 분포에 대한 몇 가지 간단한 결과가 있습니다 (적어도 일부는 Wikipedia에 나열되어 있음). 이를 통해 대각선에있는 단일 요소의 한계 분포가 역 감마임을 알 수 있습니다. 그러나 공동 분포를 추론 할 수 없었습니다.diag ( X ) = ( x 11 …

4
의사 결정 트리는 거의 항상 이진 트리입니까?
내가 본 거의 모든 의사 결정 트리 예제는 이진 트리입니다. 이것은 보편적입니까? 대부분의 표준 알고리즘 (C4.5, CART 등)은 이진 트리 만 지원합니까? 내가 수집 한 것에서 CHAID 는 이진 트리로 제한되지 않지만 예외로 보입니다. 자식 중 하나에 대한 양방향 분할과 다른 양방향 분할은 단일 3 방향 분할과 동일하지 않습니다. 이것은 …

5
항목 반응 이론을 적용하는 방법과 사용할 소프트웨어는 무엇입니까?
문맥 나는 아이템 반응 이론에 대해 읽었으며, 그것이 매력적이라고 ​​생각합니다. 나는 기본을 이해한다고 믿지만 지역과 관련된 통계적 기법을 적용하는 방법이 궁금합니다. 다음은 ITR을 적용하고자하는 분야와 유사한 두 가지 기사입니다. http://www.jstor.org/stable/4640738?seq=7 http://www.ncbi.nlm.nih.gov/pubmed/21744971 두 번째는 실제로이 시점에서 확장하고 싶은 것입니다. jMetrik이라는 무료 프로그램을 다운로드했는데 제대로 작동하는 것 같습니다. IRT가 진행되는 한 그것이 …

2
회귀에서 선형성을 테스트하기 어려움
에서 통계 모델링 : 두 문화 레오 브레이 만 쓴다 현재 적용되는 관행은 적합도 검정 및 잔차 분석을 사용하여 데이터 모델 적합을 확인하는 것입니다. 몇 년 전 한 시점에서 제어 된 양의 비선형 성으로 7 차원으로 시뮬레이션 된 회귀 문제를 설정했습니다. 적합도에 대한 표준 테스트는 비선형 성이 극단적 일 때까지 …

3
포아송 회귀 vs 로그 수 최소 제곱 회귀?
포아송 회귀는 로그 링크 기능 이있는 GLM 입니다. 비정규 분산 카운트 데이터를 모델링하는 다른 방법은 로그 (또는 log (1 + count)를 0으로 처리)를 사용하여 사전 처리하는 것입니다. 로그 카운트 반응에 대해 최소 제곱 회귀 분석을 수행하면 포아송 회귀 분석과 관련이 있습니까? 비슷한 현상을 처리 할 수 ​​있습니까?

2
R의 함수 lm에서 가중치를 사용하는 방법은 무엇입니까?
잠김 . 이 질문과 주제는 주제가 다르지만 역사적 의미가 있기 때문에이 질문과 답변은 잠겨 있습니다. 현재 새로운 답변이나 상호 작용을받지 않습니다. 누구든지 weightsR의 lm함수 에서 인수 를 사용하는 방법에 대한 포인터를 제공 할 수 있습니까? 예를 들어, 교통 데이터에 모델을 맞추려고하는데 수백 개의 행이 있으며 각 행에는 도시가 다릅니다 (인구가 …
21 r  regression 

7
한 표본 T- 검정에서 평균 차이의 신뢰 구간을 해석하는 방법은 무엇입니까?
SPSS는 출력 "차이 수단의 신뢰 구간"을 제공합니다. 나는 "100에서 95 번, 우리의 표본 평균 차이가이 경계 사이에있을 것"이라는 의미를 어떤 곳에서 읽었습니다. "평균 차이의 신뢰 구간"을 설명하기 위해보다 명확한 문구를 제안 할 수 있습니까? 이 출력은 1- 표본 t- 검정과 관련하여 나타납니다.

2
모델 선택 후 교차 검증 (오류 일반화)
참고 : 사례는 n >> p입니다. 통계 학습의 요소를 읽고 있으며 교차 검증을 수행하는 "올바른"방법에 대한 다양한 언급이 있습니다 (예 : 60 페이지, 245 페이지). 특히, 내 질문은 모델 검색이있을 때 k- 폴드 CV 또는 부트 스트랩을 사용하여 (별도의 테스트 세트없이) 최종 모델을 평가하는 방법입니다. 대부분의 경우 (내장 기능 선택이없는 …

2
학습 알고리즘 중에서 선택하는 방법
일부 훈련 데이터를 기반으로 레코드를 2 가지 범주 (참 / 거짓)로 분류하는 프로그램을 구현해야하며 어떤 알고리즘 / 방법론을보고 있는지 궁금합니다. 인공 신경망, 유전자 알고리즘, 기계 학습, 베이지안 최적화 등 중에서 선택할 수있는 많은 것들이 있으며, 어디서부터 시작 해야할지 모르겠습니다. 내 질문은 : 문제에 사용해야하는 학습 알고리즘을 어떻게 선택해야합니까? 이것이 도움이된다면 …

5
이론 측정을위한 소개
비모수 적 베이지안 (및 관련) 기술에 대해 더 배우고 싶습니다. 저의 배경은 컴퓨터 공학에 있으며 측정 이론이나 확률 이론에 대한 과정을 수강하지는 않았지만 확률과 통계에 대한 공식적인 훈련은 제한적이었습니다. 누구든지 시작하기 위해 이러한 개념에 대한 읽기 쉬운 소개를 추천 할 수 있습니까?

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.