통계 및 빅 데이터 dataset

3

나는 종종 모든 요소에서 평균을 제거하여 데이터 세트의 차원 / 기능을 만드는 사람들이 제로 평균임을 알 수 있습니다. 그러나 나는 왜 그렇게 해야하는지 이해하지 못했습니까? 전처리 단계로 수행하면 어떤 효과가 있습니까? 분류 성능이 향상됩니까? 데이터 세트에 대한 답변에 도움이 되나요? 시각화를 수행 할 때 데이터를 이해하는 데 도움이됩니까?

12 data-mining dataset

2

원시 데이터에 대해 회귀와 같은 모델 가정을 테스트하고 나머지에 대해 다른 사람들이 테스트하는 이유는 무엇입니까?

저는 실험 심리학 박사 과정 학생이며 데이터 분석 방법에 대한 기술과 지식을 향상시키기 위해 열심히 노력합니다. 심리학에서 5 년째까지 회귀 형 모델 (예 : 분산 분석)은 다음과 같은 사항을 가정한다고 생각했습니다. 데이터의 정규성 데이터에 대한 분산 동질성 학부 과정에서 데이터에 대한 가정이 있다고 믿게되었습니다. 그러나 5 학년 때, 일부 강사들은 …

12 regression dataset residuals assumptions

4

통계 분석을 위해 데이터를 R에 간단하게 저장하는 가장 좋은 방법

닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 육년 전 . 나는 텍스트 파일을 사용하여 얼마 동안 아무런 문제없이 R에 대한 데이터를 저장했습니다. 그러나 최근 프로젝트의 경우 원시 텍스트 파일을 처리하기에는 파일 크기가 너무 커지고 …

12 r dataset

1

R-자유도에서 PROC Mixed과 lme / lmer의 차이점

참고 :이 질문은 법적 이유로 인해 이전 질문을 삭제해야했기 때문에 다시 게시되었습니다. SAS의 PROC MIXED를 R lme의 nlme패키지 기능과 비교하는 동안 다소 혼란스러운 차이점을 발견했습니다. 구체적으로는, 다른 시험에서 자유도간에 상이 PROC MIXED하고 lme, 그리고 왜 생각해. 다음 데이터 세트에서 시작하십시오 (아래 제공된 R 코드). ind : 측정 대상을 나타내는 계수 …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

통계 도구를 부적절하게 사용하여 비용이 많이 드는 결과의 예

통계 도구를 사용하는 대부분의 사용자는 보조 사용자 (정식에 대한 공식 교육이 거의 없거나 아예없는 사람들) 인 것 같습니다. 동료 검토 논문, 회색 문헌, 웹 또는 회의에서“이전에 완료된”것을 보았 기 때문에 연구자와 다른 전문가들이 데이터에 통계적 방법을 적용하는 것은 매우 유혹적입니다. 그러나 필요한 가정과 통계 도구의 한계에 대한 명확한 이해없이 그렇게하면 …

12 dataset methodology

2

주어진 반응 변수에 대한 최적의 비닝

주어진 응답 (목표) 이진 변수와 최대 간격 수를 매개 변수로 사용하여 연속 변수의 최적 비닝 방법 (분화)을 찾고 있습니다. 예 : 나는 "높이"(숫자 연속)와 "has_back_pains"(이진) 변수를 가진 사람들에 대한 관찰 결과를 가지고 있습니다. 나는 허리 통증이있는 사람들의 다른 비율로 최대 높이를 3 간격 (그룹)으로 이산화하고 싶습니다. 그래서 알고리즘이 그룹 간의 …

12 r dataset optimization discrete-data binning

2

'Tidy 데이터'작성을위한 우수 사례

Hadley Wickham은 작년 JSS에서 데이터 조작 및 분석을 수행하기 위해 데이터를 "최적의"조건으로 만드는 방법에 대한 "Tidy Data"( link ) 라는 훌륭한 기사를 작성했습니다 . 그러나 작업 환경에서 표 형식 데이터를 표시하는 데있어 모범 사례가 무엇인지 궁금했습니다. 동료가 데이터를 제공하도록 요청한다고 가정 해 보겠습니다. 해당 데이터를 구성 할 때 사용하는 일반적인 …

12 dataset tables

2

데이터를 시험과 훈련으로 나누는 것이 순전히 "통계"인가?

나는 기계 학습 / 데이터 과학을 공부하는 물리학 학생 이므로이 질문이 충돌을 시작한다는 의미는 아닙니다.) 그러나 물리 학부 프로그램의 대부분은 실험실 / 실험을 수행하는 것입니다. 이는 많은 데이터를 의미합니다. 처리 및 통계 분석. 그러나 물리학 자들이 데이터를 다루는 방식과 데이터 과학 / 통계 학습서가 데이터를 다루는 방식 사이에는 큰 차이가 …

11 regression machine-learning cross-validation dataset experiment-design

3

데이터가 포함 된 실용적인 PCA 튜토리얼

인터넷에서 PCA 튜토리얼을 검색하면 수천 개의 결과 (동영상)가 제공됩니다. 많은 튜토리얼이 매우 좋습니다. 그러나 데모에 사용할 수있는 일부 데이터 세트를 사용하여 PCA를 설명하는 실용적인 예를 찾을 수 없습니다. PCA 분석 전후에 플롯하기 쉬운 작은 데이터 세트 (10000s의 데이터가 아닌 10000s의 라인이 아님)를 제공하는 자습서가 필요하며 차이 / 결과를 명확하게 보여줄 …

11 data-visualization dataset pca data-mining

14

이름에서 얼마나 많은 정보를 찾을 수 있습니까?

이름 : 먼저, 중간, 성. 공개적으로 사용 가능한 데이터 세트를 사용하여 이름에서 채굴 할 수있는 정보의 양이 궁금합니다. 나는 미국 인구 조사 데이터를 사용하여 (입력에 따라) 낮은 확률 사이에서 다음과 같은 것을 얻을 수 있음을 알고 있습니다 : 1) 성별. 2) 레이스. 예를 들어, Facebook은 사이트 사용자의 인종 분포 (https://www.facebook.com/note.php?note_id=205925658858)를 …

11 dataset data-mining census

3

거대한 이진 데이터 집합을 몇 가지 범주로 클러스터링하려면 어떤 알고리즘을 사용해야합니까?

바이너리 데이터 (0-1 항목 만)의 큰 (650K 행 * 62 열) 행렬이 있습니다. 매트릭스는 대부분 희박합니다. 약 8 %가 채워집니다. 1에서 5로 명명 된 5 개의 그룹으로 클러스터링하고 싶습니다. 계층 적 클러스터링을 시도했지만 크기를 처리 할 수 없었습니다. 또한 길이 62의 650K 비트 벡터를 고려하여 해밍 거리 기반 k- 평균 …

11 clustering dataset k-means binary-data

3

데이터 전처리 및 이상치 탐지 기술을 다루는 훌륭한 책

제목이 올라 가면서, 일반적으로 데이터 전처리, 특히 이상치 탐지 기술을 다루는 최신의 좋은 책을 아는 사람이 있습니까? 이 책은 그것에 독점적으로 초점을 맞출 필요는 없지만 앞에서 언급 한 주제를 철저히 다루어야합니다. 나는 시작점에 만족하지 않고 논문 목록을 인용하며 다양한 기술에 대한 설명이 책 자체. 누락 된 데이터를 처리하는 기술이 바람직하지만 …

11 dataset data-mining references outliers

4

“데이터 세트”란 정확히 무엇을 의미합니까?

데이터 포인트의 집계입니까? 아니면 다른 변수의 값으로 정렬 된 표 형식으로 다른 요소에 대한 데이터 요소를 표시합니까? 원시 데이터와 어떻게 다릅니 까?

10 dataset terminology definition

1

데이터 처리 오류가 이미 통계 분석에 '가격이 책정되어 있습니까?'

좋습니다, 공정한 경고-이것은 숫자가없는 철학적 질문입니다. 시간이 지남에 따라 오류가 데이터 세트에 발생하는 방식과 분석가가 처리해야하는 방식 또는 실제로 중요해야하는지에 대해 많이 생각했습니다. 배경을 위해, 나는 7-8 년 동안 아마 25 명에 의해 수집 된 많은 데이터 세트를 포함하는 장기 연구에 대한 분석을 수행하고 있습니다. 아무도 모든 데이터를 일관된 구조로 …

10 dataset error

2

데이터 유형 (공칭 / 소수 / 간격 / 비)이 실제로 변수 유형으로 간주되어야합니까?

예를 들어 표준 교과서에서 얻은 정의는 다음과 같습니다. 변수-모집단 또는 표본의 특성. 전의. 테스트시 주식 또는 등급의 가격 데이터-실제 관측 값 따라서 두 개의 열 보고서 [Name | 수입] 열 이름은 변수 및 실제 관측 값입니다. {dave | 100K}, {jim | 200K}는 데이터입니다 따라서 [이름] 열이 명목 데이터이고 [소득]이 비율 …

10 dataset ordinal-data categorical-data ratio

«dataset» 태그된 질문