«large-data» 태그된 질문

'대규모 데이터'는 관측치 (데이터 포인트) 수가 너무 많아 데이터 분석가가 생각하거나 분석을 수행하는 방식의 변화가 필요한 상황을 나타냅니다. ( '높은 차원 성'과 혼동하지 마십시오.)

12
0을 포함하여 음이 아닌 데이터를 어떻게 변환해야합니까?
긍정적 인 데이터가 치우친 경우 종종 로그를 가져옵니다. 그러나 0을 포함하는 비대칭 비대칭 데이터로 무엇을해야합니까? 나는 두 가지 변형이 사용되는 것을 보았다. log(x+1)log⁡(x+1)\log(x+1)0은 0에 매핑되는 깔끔한 기능을 가진 입니다. log(x+c)log⁡(x+c)\log(x+c) 여기서 c는 추정되거나 매우 작은 양의 값으로 설정됩니다. 다른 접근법이 있습니까? 하나의 접근법을 다른 접근법보다 선호해야 할 이유가 있습니까?

14
대규모 데이터 세트가 가설 ​​검정에 적합하지 않습니까?
A의 최근 기사 의 Amstat 뉴스 을 선언합니다 - 저자 (마크 반 데르 Laan와 세리 로즈) 우리는 충분히 큰 표본 크기에 대한, 아니 효과의 귀무 가설이 참하는 모든 연구를 포함하여 사람이 알고 "고 말했다 통계적으로 유의 한 효과. " 글쎄, 나는 그것을 알지 못했다. 이것이 사실입니까? 가설 검정이 대규모 데이터 …


7
산업 대 카글 도전. 멋진 모델링보다 더 많은 관측치를 수집하고 더 많은 변수에 액세스하는 것이 더 중요합니까?
나는 제목이 자명 한 희망이다. Kaggle에서 대부분의 승자는 수백 가지 기본 모델과 함께 스태킹을 사용하여 MSE의 몇 가지 추가 비율을 줄이고 정확도를 높입니다 ... 일반적으로 경험상 스태킹과 같은 멋진 모델링은 단순히 더 많은 데이터와 더 많은 기능을 수집하는 것보다 중요합니다 데이터를 위해?

8
'빅 데이터'시점에서 샘플링이 관련이 있습니까?
아니면 더 "그렇게 될까"? 빅 데이터 는 통계와 관련 지식을 더욱 중요하게하지만 샘플링 이론을 수행하는 것으로 보입니다. 나는 '빅 데이터'에 대한이 과대 광고를 보았고 "왜"가 모든 것을 분석하고 싶은지 궁금해 할 수 없습니다 . "샘플링 이론"을 설계 / 구현 / 발명 / 발견 할 이유가 없었습니까? 데이터 세트의 전체 '인구'를 …

10
한 번의 대량 읽기 데이터 세트의 중앙값을 추정하는 데 유용한 알고리즘은 무엇입니까?
저장하기에 너무 큰 데이터 세트의 중앙값을 추정하여 각 값을 한 번만 읽을 수 있도록 (해당 값을 명시 적으로 저장하지 않는 한) 좋은 알고리즘 (최소 계산, 최소 스토리지 요구 사항)을 찾고 있습니다. 추정 할 수있는 데이터에는 한계가 없습니다. 정확도가 알려진 한 근사치가 좋습니다. 어떤 포인터?

10
빅 데이터 란 정확히 무엇입니까?
나는 여러 차례 질문을 받았다. 빅 데이터 란? 학생들과 친척 모두 통계와 ML에 대한 화제가되고 있습니다. 이 CV-post를 찾았 습니다 . 그리고 나는 거기에 유일한 대답에 동의한다고 생각합니다. 위키 백과 페이지는 또한 몇 가지 의견이 있지만 난 정말이 모든에 동의하면 나는 확실하지 않다. 편집 : (나는 Wikipedia 페이지가 이것을 다루는 …
44 large-data 

2
"빅 데이터"에서 올바른 결론을 도출하는 방법은 무엇입니까?
"빅 데이터"는 미디어 어디에나 있습니다. KDNuggets는 2012 년의 뜨거운 주제에 대한 설문 조사와 같이 "빅 데이터"가 2012 년에 가장 중요한 것이라고 말합니다 . 그러나 나는 여기에 깊은 우려가 있습니다. 빅 데이터를 사용하면 모든 것이 무엇이든 기뻐하는 것 같습니다 . 그러나 우리는 가설 검정 및 대표 표본 추출과 같은 모든 고전적인 …

6
유의성 검정에 대한 가설로서의 효과 크기
오늘, 교차 검증 저널 클럽에서 (왜 거기에 없었습니까?) @mbq는 다음과 같이 물었습니다. 우리 (현대 데이터 과학자)가 의미가 무엇인지 알고 있다고 생각하십니까? 그리고 그것이 결과에 대한 우리의 확신과 어떤 관련이 있습니까? @Michelle은 (나를 포함하여) 일반적으로 다음과 같이 대답했습니다. 나는 커리어를 계속할수록 중요성 (p- 값을 기준으로)이라는 개념이 점점 덜 도움이된다는 것을 알게되었습니다. …

5
매우 높은 차원 분류를위한 무료 데이터 세트 [닫기]
1000 개 이상의 피쳐 (또는 커브가 포함 된 경우 샘플 포인트) 로 분류 할 수 있는 무료 데이터 세트 는 무엇입니까 ? 무료 데이터 세트에 대한 커뮤니티 위키가 이미 있습니다. 자유롭게 사용 가능한 데이터 샘플 찾기 그러나 여기서는 보다 편리하게 사용할 수 있는 보다 집중적 인 목록을 작성하는 것이 좋으며 …

3
scikit-learn을 사용한 다항식 회귀
다항식 회귀 분석에 scikit-learn을 사용하려고합니다. 다항식 회귀를 읽는 것에서 선형 회귀의 특별한 경우가 있습니다. scikit의 일반 선형 모델 중 하나가 고차 다항식에 맞게 매개 변수화 될 수 있기를 바랐지만 그렇게 할 수있는 옵션이 없습니다. 폴리 커널과 함께 Support Vector Regressor를 사용했습니다. 그것은 내 데이터의 하위 집합과 잘 작동하지만 더 큰 …

9
대규모 데이터 세트를 처리하기위한 통계 및 데이터 마이닝 소프트웨어 도구
현재 약 2 천만 개의 레코드를 분석하고 예측 모델을 작성해야합니다. 지금까지 Statistica, SPSS, RapidMiner 및 R을 사용해 보았습니다.이 통계 중 데이터 마이닝을 처리하는 데 가장 적합한 것으로 보이며 RapidMiner 사용자 인터페이스도 매우 편리하지만 Statistica, RapidMiner 및 SPSS는 소규모 데이터 세트에만 적합합니다. . 누구든지 큰 데이터 세트에 적합한 도구를 추천 할 …

1
최첨단 스트리밍 학습
나는 최근에 큰 데이터 세트로 작업 해 왔으며 많은 스트리밍 방법 논문을 발견했습니다. 몇 가지 예를 들면 다음과 같습니다. 규제 리더 및 미러 하강 : 등가 이론 및 L1 정규화 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) 스트리밍 학습 : 단일 패스 SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos : SVM을위한 Primal Estimated sub-GrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf …

1
거대한 희박한 비상 대표를 시각화하는 방법?
약물 이름 (DN)과 이에 해당하는 이상 반응 (AE)이라는 두 가지 변수가 있는데, 이는 다 대다 관계에 있습니다. 33,556 개의 약물 이름과 9,516 개의 부작용이 있습니다. 표본 크기는 약 580 만 개의 관측치입니다. DN과 AE의 연관성 / 관계를 연구하고 이해하고 싶습니다. 그림을 보는 것이 더 낫기 때문에 R 에서이 세트를 시각화하는 …

3
빅 데이터의 첫 번째 단계 (
하루에 수십억 건의 관측치로 거대한 데이터 세트를 분석한다고 가정합니다. 각 관측치에는 수 천 개의 희소하고 중복되는 수치 및 범주 형 변수가 있습니다. 회귀 문제 하나, 불균형 이진 분류 문제 하나 및 "어떤 예측 변수가 가장 중요한지 알아내는 작업"이 있다고 가정하겠습니다. 문제에 접근하는 방법에 대한 내 생각은 다음과 같습니다. 다음과 같은 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.