이름, 성 및 생년월일로 두 데이터 집합의 레코드를 연결하는 데 관심이 있습니다. EM 알고리즘으로 이것이 가능할 수 있습니까? 그렇다면 그렇다면 어떻게해야합니까?
Carl McCarthy, 1967. 예를 들어 1st의 다음 레코드를 고려하십시오. 두 번째 데이터 집합의 모든 레코드를 검색하고 이름과 Carl 사이의 jaro-winkler 거리와 성과 McCarthy 사이의 jaro-winkler 거리를 할당합니다. 이 거리는 출생 연도 사이의 거리와 마찬가지로 확률 적입니다. 이 3 가지 확률 (곱하기 평균은?)을 1로 결합합니다.
이제 결정 규칙 부분이 온다. 모든 확률을 최고에서 최저로 순위를 매 깁니다. 먼저 P (첫 번째 적중이 일치)> = 임계 값을 원합니다. 둘째, P (두 번째 적중이 일치) P (두 번째 적중이 일치) / = (두 번째 적중이 일치)> = 임계 값도 원합니다. 셋째,이 두 번째 데이터 세트의 첫 번째 조회가 Carl McCarthy, 1967의 첫 번째 데이터 세트에서 한 명 이상과 일치하지 않기를 원합니다.
이러한 임계 값은 어떻게 결정될 수 있습니까?
Stata 및 / 또는 Perl의 접근법을 선호합니다.
예를 들어 :
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(그것에도 불구하고, 나는 왜 그리고 어떻게, 입력과 출력이 무엇인지, 그리고 가정과 제한이 무엇인지 완전히 따르지 않습니다).