«large-data» 태그된 질문

'대규모 데이터'는 관측치 (데이터 포인트) 수가 너무 많아 데이터 분석가가 생각하거나 분석을 수행하는 방식의 변화가 필요한 상황을 나타냅니다. ( '높은 차원 성'과 혼동하지 마십시오.)

1
RMSE를 기반으로 정확도 측정을 계산하는 방법은 무엇입니까? 대규모 데이터 세트가 정상적으로 배포됩니까?
수천 점의 데이터 세트가 여러 개 있습니다. 각 데이터 세트의 값은 공간의 좌표를 나타내는 X, Y, Z입니다. Z- 값은 좌표 쌍 (x, y)에서의 고도 차이를 나타냅니다. 일반적으로 GIS 분야에서 고도 오차는지면 진리 점을 측정점 (LiDAR 데이터 점)으로 빼서 RMSE에서 참조됩니다. 일반적으로 최소 20 개의 지상 점검 포인트가 사용됩니다. NDEP (National …

3
매우 큰 데이터 세트에서 중요한 변수를 빠르게 선택하는 방법은 무엇입니까?
약 2,000 개의 이진 변수 / 100,000 행의 데이터 세트가 있고 단일 이진 종속 변수를 예측하려고합니다. 이 단계에서 나의 주요 목표는 예측의 정확성을 얻는 것이 아니라 이러한 변수 중 어떤 변수가 중요한 예측 변수인지 식별하는 것입니다. 최종 모델의 변수 수를 약 100으로 줄이려고합니다. 가장 중요한 변수를 얻는 비교적 빠른 방법이 …

3
공간 효율적인 클러스터링
내가 본 대부분의 클러스터링 알고리즘은 모든 지점 사이에 거리를 좁히는 것으로 시작하여 더 큰 데이터 세트에서 문제가됩니다. 하지 않는 것이 있습니까? 아니면 일종의 부분적 / 대략적 / 스 태거 방식입니까? 어떤 클러스터링 알고리즘 / 구현이 O (n ^ 2)보다 적은 공간을 차지합니까? 알고리즘 목록과 시간 및 공간 요구 사항이 있습니까?

1
모든 MCMC 반복에서 큰 데이터 집합을 하위 샘플링 할 수 있습니까?
문제 : 큰 데이터 세트보다 약간 뒤떨어지기 위해 Gibbs 샘플링을 수행하려고합니다. 불행히도 내 모델은 매우 간단하지 않으므로 샘플링 속도가 너무 느립니다. 나는 변형 또는 병렬 접근법을 고려할 것이지만, 그 전에는 ... 질문 : 모든 Gibbs 반복에서 데이터 세트에서 무작위로 (대체로) 샘플링 할 수 있는지 알고 싶습니다. 모든 단계에서 배울 수있는 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.