«large-data» 태그된 질문

'대규모 데이터'는 관측치 (데이터 포인트) 수가 너무 많아 데이터 분석가가 생각하거나 분석을 수행하는 방식의 변화가 필요한 상황을 나타냅니다. ( '높은 차원 성'과 혼동하지 마십시오.)

4
PCA 공간에 새로운 벡터를 투영하는 방법?
주성분 분석 (PCA)을 수행 한 후 PCA 공간에 새 벡터를 투영하려고합니다 (즉, PCA 좌표계에서 해당 좌표를 찾습니다). 를 사용하여 R 언어로 PCA를 계산했습니다 prcomp. 이제 내 벡터에 PCA 회전 행렬을 곱할 수 있어야합니다. 이 매트릭스의 주요 구성 요소를 행 또는 열로 배열해야합니까?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
* 백만 * 계수 / 독립 변수로 다변량 회귀 분석을 실제로 수행합니까?
나는 기계 학습을 배우는 데 시간을 보내고 (재귀에 대한 미안 :) 다변량 선형 회귀의 경우 회귀 계수 계산을위한 직접 방정식 풀기보다 Gradient Descent를 선택 하는 규칙에 흥미를 느끼지 못했습니다 . 경험 법칙 : 피처 수 (읽기 계수 / 독립 변수)가 또는 백만 이상인 경우 그라디언트 디센트 (Gradient Descent)를 사용하지 않으면 …

6
핵심 데이터 분석 옵션
저는 5 년 가까이 SAS를 전문적으로 사용해 왔습니다. 랩톱에 설치했으며 1,000-2,000 개의 변수와 수십만 개의 관측치로 데이터 세트를 자주 분석해야합니다. 비슷한 크기의 데이터 세트에서 분석을 수행 할 수있는 SAS의 대안을 찾고있었습니다. 이런 상황에서 다른 사람들이 무엇을 사용하는지 궁금합니다. 이것은 오늘날 사용되는 방식에서 "빅 데이터"가 아닙니다. 또한 내 데이터 세트가 메모리에 …
18 r  sas  large-data 

5
큰 데이터의 포아송 회귀 분석 : 측정 단위를 변경하는 것이 잘못 되었습니까?
포아송 분포의 계승으로 인해 관측치가 클 때 포아송 모형을 추정하는 것은 실용적이지 않습니다 (예를 들어, 최대 우도 사용). 예를 들어, 주어진 연도의 자살 횟수를 설명하는 모델을 추정하려고 할 때 (연간 데이터 만 제공) 매년 수천 명의 자살자가 있다고합니다. 2998이 29.98 ~ = 30이되도록? 즉, 측정 단위를 변경하여 데이터를 관리하기가 잘못 …

5
평균 절대 편차 및 큰 데이터 세트를위한 온라인 알고리즘
나는 나를 놀리 게 만드는 약간의 문제가 있습니다. 다변량 시계열의 온라인 획득 프로세스에 대한 절차를 작성해야합니다. 매 시간 간격 (예 : 1 초)마다 기본적으로 N 크기의 부동 소수점 벡터 인 새 샘플을 얻습니다. 수행해야하는 작업은 약간 까다 롭습니다. 각각의 새 샘플에 대해 요소를 1로 합치도록 벡터를 정규화하여 해당 샘플의 백분율을 …

4
투표에 대한 평판의 영향에 대한 분석을 개선하려면 어떻게해야합니까?
최근에는 평판에 영향을 미치는 업 보트 ( blog-post 참조)에 대한 분석을 수행 한 후 , 더 많은 깨달음 (또는 더 적절한) 분석 및 그래픽에 대한 몇 가지 질문이있었습니다. 따라서 몇 가지 질문이 있습니다 (특히 누군가에게 자유롭게 대답하고 다른 사람들은 무시하십시오). 화신의 현재에서, 나는 포스트 번호의 중심을 의미하지 않았다. 포스트 카운트의 …

5
많은 데이터를 그래픽으로 표시하는 좋은 방법
주택 데이터에 대한 14 개의 변수와 345,000 개의 관찰 (연도, 평방 피트, 판매 가격, 거주지 등)을 포함하는 프로젝트를 진행하고 있습니다. 좋은 그래픽 기술과 멋진 플로팅 기술을 포함하는 R 라이브러리를 찾으려고 노력하고 있습니다. 나는 ggplot과 격자에서 무엇이 잘 작동하는지 이미보고 있으며, 숫자 변수에 대한 바이올린 플롯을 생각하고 있습니다. 사람들이 명확하고 세련되며 …

4
표본 크기가 매우 클 때 신뢰 구간
내 질문은 특히 저널 간행물에 대해 "빅 데이터를 사용하여 샘플링 오류를 평가하는 방법"으로 표현할 수 있습니다. 다음은 도전 과제를 설명하는 예입니다. 매우 큰 데이터 세트 (100000 개 병원에서 100 만 명 이상의 고유 환자 및 처방약)에서 특정 약물을 복용하는 환자의 비율을 추정하는 데 관심이있었습니다. 이 비율을 얻는 것은 간단합니다. n이 …


3
R의 빅 데이터 클러스터링 및 샘플링과 관련이 있습니까?
데이터 과학을 처음 사용하고 R에서 200,000 개의 행과 50 개의 열이있는 데이터 세트에서 클러스터를 찾는 데 문제가 있습니다. 데이터에는 숫자 변수와 명목 변수가 모두 있으므로 유클리드 거리 측정을 사용하는 K- 평균과 같은 방법은 적절한 선택처럼 보이지 않습니다. 따라서 거리 매트릭스를 입력으로 받아들이는 PAM, agnes 및 hclust로 전환합니다. 데이지 방법은 혼합 …

5
큰 데이터 세트에 대해 경사 하강이 왜 비효율적인가?
데이터 세트에 백만 개의 예 ( )가 포함되어 있으며, 그래디언트 디센트를 사용하여 이러한 데이터 세트에 대해 로지스틱 또는 선형 회귀를 수행하려고합니다.x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} 그라디언트 디센트 방법으로 비효율적 인 것은 무엇입니까? 시간 에서의 경사 하강 단계 는 다음에 의해 주어진다는 것을 상기 하자.ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) 여기서 …

1
대용량 벡터에 서포트 머신을 사용할 수 있습니까?
SVM에 대한 제한된 지식으로 짧고 뚱뚱한 데이터 매트릭스 (많은 기능과 많은 인스턴스는 아님)에는 좋지만 빅 데이터에는 적합하지 않습니다.엑스엑스X 한 가지 이유는 커널 행렬 가 행렬 이라는 것을 이해합니다. 여기서 은 데이터의 인스턴스 수입니다. 우리가 100K 데이터라고 말하면, 커널 행렬 는 요소를 가지며 ~ 80G 메모리를 사용할 수 있습니다.케이케이Kn × n엔×엔n …

3
빅 데이터 설정을 위해 병렬 / 분산 방식으로 선형 회귀를 실행하는 방법은 무엇입니까?
데이터 크기가 너무 커서 시스템 클러스터에 저장 해야하는 매우 큰 선형 회귀 문제를 연구 중입니다. 모든 샘플을 하나의 단일 시스템 메모리 (디스크 포함)로 집계하기에는 너무 큽니다. 이 데이터를 회귀시키기 위해 병렬 접근 방식, 즉 각 개별 상자에서 회귀를 실행 한 다음 각 개별 베타 통계 (아마도 평균 또는 중앙값)를 기반으로 …

5
매우 많은 수의 데이터 포인트에서 값을 대치하는 방법은 무엇입니까?
데이터 세트가 매우 커서 약 5 %의 임의 값이 없습니다. 이 변수들은 서로 상관되어 있습니다. 다음 예제 R 데이터 세트는 더미 상관 데이터가있는 장난감 예제 일뿐입니다. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

4
매우 큰 표본 크기에 적합한 적합도
나는 매일 매우 큰 범주 형 데이터의 표본 (> 1,000,000)을 수집하고 데이터 수집에서 오류를 감지하기 위해 데이터가 날마다 "상당히"다르게 보이기를 원합니다. 나는 적합 테스트 (특히 G 테스트)를 사용하는 것이 이것에 적합하다고 생각했습니다. 예상 분포는 전날의 분포로 제공됩니다. 그러나 샘플 크기가 너무 크기 때문에 검정의 검정력이 매우 높고 많은 오 탐지가 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.