«dataset» 태그된 질문

이 사이트에서 데이터 세트 요청이 주제를 벗어났습니다. 데이터 세트 작성, 처리 또는 유지 보수와 관련된 질문에이 태그를 사용하십시오.


2
오버 샘플링 된 불균형 데이터에 대한 분류 테스트
심각하게 불균형 한 데이터를 작업 중입니다. 문헌에서, 리샘플링 (과다 또는 과소 샘플링)을 사용하여 데이터를 재조정하기 위해 여러 방법이 사용됩니다. 두 가지 좋은 접근 방식은 다음과 같습니다. SMOTE : 합성 소수 오버 샘플링 TEchnique ( SMOTE ) ADASYN : 불균형 학습을위한 적응 형 합성 샘플링 접근법 ( ADASYN ) ADASYN은 적응성이 …

2
95 번째 백분위 수 계산 : 정규 분포, R Quantile 및 Excel 접근법 비교
다음 데이터 세트에서 95 번째 백분위 수를 계산하려고했습니다. 나는 그것을하는 몇 가지 온라인 참조를 보았습니다. 접근법 1 : 샘플 데이터 기반 첫 번째 얻기 위해 나에게 말한다 TOP 95 Percent선택 후 데이터 세트를하고 MIN또는 AVG결과 세트의. 다음 데이터 세트에 대해 그렇게하면 나에게 도움이됩니다. AVG: 29162 MIN: 0 접근법 2 : …
17 r  dataset  quantiles  sql 

6
큰 텍스트 모음을 어디에서 찾을 수 있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 육년 전 . 다운로드 할 큰 (> 1000) 텍스트 말뭉치를 찾고 있습니다. 세계 뉴스 나 어떤 종류의 보고서가있는 것이 바람직하다 . 특허가있는 제품 만 찾았습니다. 어떤 제안?
16 dataset 

5
교육 데이터를 늘리면 전체 시스템 정확도에 어떤 영향이 있습니까?
어떤 상황에서 훈련 데이터를 늘리면 전체 시스템이 향상 될 수 있는지 예를 들어 누군가를 요약 해 줄 수 있습니까? 더 많은 훈련 데이터를 추가하면 데이터가 과적 합 될 수 있고 테스트 데이터에 대한 정확도가 높지 않다는 것을 언제 감지 할 수 있습니까? 이것은 매우 구체적이지 않은 질문이지만 특정 상황에 대한 …

4
통계 분석의 특정 측면을 설명하는 데 유용한 데이터 세트는 무엇입니까?
나는 이것이 주관적이라는 것을 알고 있지만, 우리가 가장 좋아하는 데이터 세트와 우리가 생각하는 것들에 대해 이야기하는 것이 좋을 것이라고 생각했습니다. 풍부한 데이터가 있으며 모든 API (예 : Datamob )와 클래식 데이터 세트 (예 : R data )를 사용하면 매우 흥미로운 응답을 얻을 수 있다고 생각합니다. 예를 들어, 나는 항상 "Boston …
16 dataset 

5
훈련 데이터 세트에 대해서만 탐색 적 데이터 분석을 수행하는 것이 더 낫습니까?
데이터 세트에서 탐색 적 데이터 분석 (EDA)을 수행하고 있습니다. 그런 다음 종속 변수를 예측하기 위해 일부 기능을 선택합니다. 문제는 : 훈련 데이터 세트에 대해서만 EDA를 수행해야합니까? 아니면 교육 및 테스트 데이터 세트에 함께 참여한 후 EDA를 수행하고이 분석을 기반으로 기능을 선택해야합니까?

4
무료 공익 데이터 호스팅? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 3 년 전 . http://data.barrycarter.info/ 에서 많은 관측소에 대한 시간별 및 일일 온도 보고서가 있습니다. 사람들이 다운로드하도록 권장하지만 6.6G에서는 많은 대역폭을 사용합니다. "공익"데이터를 무료로 호스팅하는 서비스가 있습니까? …
14 dataset 

3
데이터 확대 및 기차 검증 분할을 수행하는 방법은 무엇입니까?
기계 학습을 사용하여 이미지 분류를하고 있습니다. 교육 데이터 (이미지)가 있고 데이터를 교육 및 유효성 검사 세트로 분할한다고 가정합니다. 또한 임의 회전 및 노이즈 주입을 통해 데이터를 확대 (원본 이미지에서 새 이미지 생성)하고 싶습니다. 기능 보강은 오프라인으로 수행됩니다. 데이터 기능 보강을 수행하는 올바른 방법은 무엇입니까? 먼저 데이터를 교육 및 유효성 검사 …

6
식별자로 그룹화 된 데이터 프레임의 첫 번째 행을 얻는 빠른 방법 R
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 때때로 개인별로 여러 개의 관측치가있을 때 연령과 성별을 검색 할 때와 같이 식별자로 그룹화 된 데이터 세트의 첫 번째 행만 가져와야합니다. R 에서이 …
14 r  dataset  aggregation  plyr 

2
k- 폴드 교차 검증은 훈련 / 검증 / 테스트 세트의 맥락에 어떻게 적합합니까?
나의 주요 질문은 k- 폴드 교차 검증이 훈련 / 검증 / 테스트 세트를 갖는 맥락에서 어떻게 맞는지 이해하려고 노력하는 것과 관련이 있습니다 (그러한 맥락에서 전혀 적합하다면). 일반적으로 사람들은 데이터를 훈련, 검증 및 테스트 세트 (앤드류 응 코스 당 60/20/20의 비율)로 분할하여 검증 세트가 모델 훈련을위한 최적의 파라미터를 식별하는 데 사용된다고 …

4
임상 시험에 대한 원시 데이터는 어디에서 찾을 수 있습니까? [닫은]
닫은. 이 질문은 주제에 맞지 않습니다 . 현재 답변을받지 않습니다. 이 질문을 개선하고 싶습니까? 교차 검증에 대한 주제가 되도록 질문을 업데이트하십시오 . 휴일 2 년 전 . 마스터 학생들의 연말 시험을 위해 임상 시험에 대한 원시 데이터를 사용하고 싶습니다. 이러한 데이터는 시험이 완료되는 한 (1 단계에서 4 단계까지) 모든 종류의 …


4
표본에서 두 모집단 분리
단일 데이터 세트에서 두 개의 값 그룹을 분리하려고합니다. 모집단 중 하나가 정규 분포이고 표본 크기의 절반 이상이라고 가정 할 수 있습니다. 두 번째 값은 첫 번째 값보다 낮거나 높습니다 (배포를 알 수 없음). 내가하려는 것은 정상적으로 분포 된 인구를 다른 사람들과 묶는 상한과 하한을 찾는 것입니다. 내 가정은 시작점을 제공합니다. …

4
데이터를 집계하고 분석하는 가장 좋은 방법
최근에 머신 러닝 및 데이터 분석을 가르치기 시작하면서 대규모 데이터 세트를 생성하고 쿼리해야 할 필요성에 직면했습니다. 전문적이고 개인적인 삶에서 수집 한 데이터를 수집하고 분석하고 싶지만 다음을 수행하는 가장 좋은 방법은 확실하지 않습니다. 이 데이터를 어떻게 저장해야합니까? 뛰어나다? SQL? ?? 초보자가이 데이터를 분석하기 시작하는 좋은 방법은 무엇입니까? 저는 전문 컴퓨터 프로그래머이므로 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.