«data-cleaning» 태그된 질문

4
R 형식이 일치하지 않는 데이터를 정리 하시겠습니까?
통계를 수행하기 전에 많은 정리가 필요한 지저분한 설문 조사 데이터를 다루는 경우가 많습니다. Excel에서이 작업을 "수동으로"수행하고, 때로는 Excel 수식을 사용하고, 항목을 하나씩 확인하는 경우가있었습니다. 나는 R에서 스크립트를 작성함으로써 훨씬 더 많은 작업을 시작했다. R에서 스크립트를 작성함으로써 매우 유익했다. 업데이트). 그러나 여전히 효율적으로 처리하는 데 문제가있는 몇 가지 유형의 데이터가 있습니다. …
16 r  data-cleaning 

1
중복 제거 기술
레코드 중복 제거의 최첨단 방법은 무엇입니까? 중복 제거는 레코드 연결, 엔터티 확인, ID 확인, 병합 / 지우기라고도합니다. 예를 들어 CBLOCK [1]에 대해 알고 있습니다. 답변에 메소드를 구현하는 기존 소프트웨어에 대한 참조도 포함되어 있다면 감사하겠습니다. 예를 들어 Mahout이 캐노피 클러스터링을 구현 한다는 것을 알고 있습니다. Lucene을 사용하는 Duke 도 있습니다 . …

3
데이터를 재구성하고 재구성하는 가장 좋은 방법은 무엇입니까?
저는 실험실 (자원 봉사자)의 연구 조교입니다. 저와 소규모 그룹은 대규모 연구에서 가져온 일련의 데이터에 대한 데이터 분석 작업을 수행했습니다. 불행히도 데이터는 일종의 온라인 앱으로 수집되었으며 가장 유용한 형식으로 데이터를 출력하도록 프로그래밍되지 않았습니다. 아래 그림은 기본적인 문제를 보여줍니다. 나는 이것을 "개조"또는 "구조 변경"이라고 들었다. 질문 : 10k가 넘는 항목이있는 대용량 데이터 …
12 r  excel  data-cleaning 

3
자동 데이터 정리
일반적인 문제는 ML이 데이터의 품질이 좋지 않다는 것입니다. 기능 값의 오류, 잘못 분류 된 인스턴스 등 이 문제를 해결하는 한 가지 방법은 수동으로 데이터를 확인하고 확인하는 것이지만 다른 기술이 있습니까? (나는 내기했다!) 어느 쪽이 더 좋고 왜?

2
실제 데이터에서 "데모"데이터 생성 : 구성없이 위장
(통계가 아니기 때문에이 태그에 무엇을 태그할지 알 수 없습니다. 어떤 필드에 해당하는지 알 수 없습니다. 더 적합한 태그를 자유롭게 추가하십시오.) 데이터 분석 소프트웨어를 생산하는 회사에서 일하고 있으며 최신 제품을 테스트하고 시연하려면 적절한 데이터 세트가 필요합니다. 프로그램의 출력이 중요하지 않기 때문에 난수 생성기의 출력으로 데이터베이스를 채울 수는 없습니다. 이러한 데이터를 얻는 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.