«large-data» 태그된 질문

'대규모 데이터'는 관측치 (데이터 포인트) 수가 너무 많아 데이터 분석가가 생각하거나 분석을 수행하는 방식의 변화가 필요한 상황을 나타냅니다. ( '높은 차원 성'과 혼동하지 마십시오.)

1
정규성을 위해 큰 데이터 세트 테스트-어떻게 그리고 신뢰할 수 있습니까?
두 그룹으로 그룹화 된 1에서 1690 사이의 46840 이중 값을 포함하는 데이터 세트의 일부를 검사하고 있습니다. 이 그룹들 간의 차이점을 분석하기 위해 올바른 테스트를 선택하기 위해 값의 분포를 살펴 보았습니다. 정규성 테스트에 대한 안내에 따라 qqplot, histogram & boxplot을 수행했습니다. 이것은 정규 분포가 아닌 것 같습니다. 가이드는 순전히 그래픽 검사로는 …

4
빅 데이터를 이용한 가설 테스트
빅 데이터로 가설 검정을 어떻게 수행합니까? 혼란을 강조하기 위해 다음 MATLAB 스크립트를 작성했습니다. 그것은 두 개의 임의의 계열을 생성하고 한 변수의 다른 선형 회귀 분석을 실행하는 것입니다. 서로 다른 임의의 값을 사용하여이 회귀 분석을 여러 번 수행하고 평균을보고합니다. 샘플 크기를 늘리면 평균 p- 값이 매우 작아지는 경향이 있습니다. 충분히 큰 …

1
언제 모델 찾기를 중단해야합니까?
나는 에너지의 주가와 날씨 사이의 모델을 찾고 있습니다. 유럽 ​​국가간에 구매 한 MWatt의 가격과 날씨에 대한 많은 가치가 있습니다 (Grib 파일). 각 시간은 5 년 (2011-2015)입니다. 가격 / 일 이것은 1 년 동안 하루입니다. 나는 5 년에 시간당이 있습니다. 날씨의 예 1 시간 동안 켈빈 단위의 3Dscatterplot. 시간당 데이터 당 …

1
R에서 대규모 데이터 세트 처리-자습서, 모범 사례 등
저는 R의 대규모 데이터 세트에 대해 다양한 종류의 분석을 수행해야하는 R noob입니다. 언제 어떤 패키지를 사용할 것인지, 어떤 변환을 데이터에 적용 할 것인지 등 나는이 모든 것을 비판하고 체계적인 방법으로 정보를 제시하는 책 / 튜토리얼 / 안내서가 있는지 궁금합니다. 주변을 둘러 보거나 다른 출처의 정보를 온라인에서 수집하는 대신이 작업을 선호합니다. …
11 r  large-data 

1
대규모 PCA도 가능합니까?
PCA (Principal Component Analysis)의 고전적인 방법은 열의 평균이 0 인 입력 데이터 매트릭스에서 수행하는 것입니다 (PCA는 "분산을 최대화 할 수 있습니다"). 컬럼을 중심으로하여 쉽게 달성 할 수 있습니다. 그러나 입력 행렬이 희소 인 경우 중심 행렬은 더 이상 희소하므로 행렬이 매우 큰 경우 더 이상 메모리에 맞지 않습니다. 스토리지 문제에 …

3
이 큰 경우 중첩 이진 로지스틱 회귀 모델 비교
더 나은 내 질문을, 나는 16 변수 모델 (모두에서 출력의 일부를 제공 한 fit)과 17 변수 모델 ( fit2아래)을 (이러한 모델의 모든 예측 변수는이 모델 사이의 유일한 차이점은 그이고, 연속 fit하지 않습니다 변수 17 (var17) 포함) : fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR …

2
전체 모집단의 데이터를 사용할 수있을 때 신뢰 구간을 계산하고 가설을 테스트하는 것이 합리적입니까?
전체 모집단의 데이터를 사용할 수있을 때 신뢰 구간을 계산하고 가설을 테스트하는 것이 합리적입니까? 내 의견으로는, 우리는 매개 변수의 실제 값을 정확하게 계산할 수 있기 때문에 대답은 아니오입니다. 그러나 앞서 언급 한 기술을 사용할 수있는 최초 모집단의 최대 데이터 비율은 얼마입니까?

3
대화 형으로 큰 시계열 데이터를 보는 방법은 무엇입니까?
나는 종종 적절한 타임 스탬프 양의 시계열 데이터, 관련 타임 스탬프와 함께 5 억에서 2 억 배의 배를 처리하고이를 동적으로 시각화하고 싶습니다. 이를 효과적으로 수행 할 수있는 기존 소프트웨어가 있습니까? 라이브러리와 데이터 형식은 어떻습니까? 줌 캐시 는 큰 시계열에 중점을 둔 라이브러리의 한 예입니다. 줌 캐시에서 데이터는 여러 해상도로 요약되어 …

1
매우 큰 시계열 데이터 세트 다루기
매우 큰 데이터 세트에 액세스 할 수 있습니다. 데이터는 4 가지 장르 중 하나에서 음악 발췌를 듣는 사람들의 MEG 기록에서 가져온 것입니다. 데이터는 다음과 같습니다. 6 과목 3 실험 반복 (에포크) 에포크 당 120 개의 평가판 275 MEG 채널의 500Hz (= 4000 개 샘플)에서 시행 당 8 초의 데이터 여기의 …

3
거대한 데이터 세트에서 학습 할 때 접근하는 방법
기본적으로 거대한 데이터 세트에 대해 배우는 두 가지 일반적인 방법이 있습니다 (시간 / 공간 제한이있는 경우). 부정 행위 :)-훈련을 ​​위해 "관리 가능한"하위 집합 만 사용하십시오. 수익 감소 법칙으로 인해 정확도 손실을 무시할 수 있습니다. 모델의 예측 성능은 모든 교육 데이터가 통합되기 훨씬 전에 평평 해집니다. 병렬 컴퓨팅-문제를 더 작은 부분으로 …

1
K- 평균 : 실제 상황에서 얼마나 많은 반복이 있습니까?
데이터 마이닝 또는 빅 데이터에 대한 업계 경험이 없으므로 경험을 공유하는 것을 듣고 싶습니다. 사람들이 실제로 큰 데이터 세트에서 k- 평균, PAM, CLARA 등을 실행합니까? 아니면 무작위로 샘플을 추출합니까? 데이터 집합의 샘플 만 가져 오는 경우 데이터 집합이 정규 분포를 따르지 않으면 결과가 신뢰할 수 있습니까? 이러한 알고리즘을 실행할 때 …

2
고차원 데이터 세트에 대한 가우스 프로세스 회귀
누구나 가우시안 프로세스 회귀 (GPR)를 고차원 데이터 세트에 적용한 경험이 있는지 알고 싶었습니다. 다양한 희소 GPR 방법 (예 : 희박 의사 입력 GPR) 중 일부를 조사하여 이상적 특성 선택이 매개 변수 선택 프로세스의 일부인 고차원 데이터 세트에 어떤 효과가 있는지 확인합니다. 시도 할 논문 / 코드 / 또는 다양한 방법에 …

2
확장 가능한 치수 축소
기능의 수를 일정하게 고려하면 Barnes-Hut t-SNE 는O ( n 로그n )O(nlog⁡n)O(n\log n), 임의 예측 및 PCA는의 복잡성을O ( n )O(n)O(n) 매우 큰 데이터 세트에 "적절한"가격을 제공합니다. 반면에 다차원 스케일링에 의존하는 메소드 는O (엔2)O(n2)O(n^2) 복잡성. 다른 치수 축소 기술이 있습니까 (첫 번째를 보는 것처럼 사소한 기술을 제외하고) 케이kk 물론 열의 복잡도가 …

6
hadoop / map-reduce를 사용하여 확장 할 수있는 기계 학습 알고리즘
확장 가능한 머신 러닝 알고리즘은 요즘 유행하는 것처럼 보입니다. 모든 회사는 큰 데이터를 처리하지 않습니다 . Map-Reduce와 같은 병렬 아키텍처를 사용하여 어떤 머신 러닝 알고리즘을 확장 할 수 있는지, 어떤 알고리즘을 사용할 수 없는지에 대한 교과서가 있습니까? 아니면 관련 논문?

2
혼합 모델을위한 파라 메트릭, 세미 파라 메트릭 및 비 파라 메트릭 부트 스트랩
이 기사 에서 다음과 같은 이식편을 가져옵니다 . 부트 스트랩을 사용하고 R boot패키지가있는 선형 혼합 모델을 위해 파라 메트릭, 반 파라 메트릭 및 비 파라 메트릭 부트 스트랩 부트 스트랩을 구현하려고 초보자 입니다. R 코드 내 R코드 는 다음과 같습니다 . library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.