«record-linkage» 태그된 질문

1
중복 제거 기술
레코드 중복 제거의 최첨단 방법은 무엇입니까? 중복 제거는 레코드 연결, 엔터티 확인, ID 확인, 병합 / 지우기라고도합니다. 예를 들어 CBLOCK [1]에 대해 알고 있습니다. 답변에 메소드를 구현하는 기존 소프트웨어에 대한 참조도 포함되어 있다면 감사하겠습니다. 예를 들어 Mahout이 캐노피 클러스터링을 구현 한다는 것을 알고 있습니다. Lucene을 사용하는 Duke 도 있습니다 . …

2
레코드 연결에 EM 알고리즘 사용
이름, 성 및 생년월일로 두 데이터 집합의 레코드를 연결하는 데 관심이 있습니다. EM 알고리즘으로 이것이 가능할 수 있습니까? 그렇다면 그렇다면 어떻게해야합니까? Carl McCarthy, 1967. 예를 들어 1st의 다음 레코드를 고려하십시오. 두 번째 데이터 집합의 모든 레코드를 검색하고 이름과 Carl 사이의 jaro-winkler 거리와 성과 McCarthy 사이의 jaro-winkler 거리를 할당합니다. 이 거리는 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.