많은 주소 문자열이 있습니다.
1600 Pennsylvania Ave, Washington, DC 20500 USA
구성 요소로 구문 분석하고 싶습니다.
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
그러나 물론 데이터는 더러워집니다. 여러 언어로 작성된 많은 국가에서 다른 방식으로 작성되었으며 철자가 틀리거나 조각이 없거나 여분의 정크가 있습니다.
현재 우리의 접근 방식은 퍼지 가제트 매칭과 결합 된 규칙을 사용하는 것이지만, 머신 러닝 기술을 탐구하고 싶습니다. 우리는지도 학습을위한 훈련 데이터에 라벨을 붙였습니다. 문제는 어떤 종류의 기계 학습 문제입니까? 실제로 클러스터링, 분류 또는 회귀가 아닌 것 같습니다 ....
내가 알아낼 수있는 가장 가까운 것은 각 토큰을 분류하는 것이지만 "최대 한 국가가 있어야합니다"와 같은 제약 조건을 만족시키면서 동시에 모든 토큰을 분류하려고합니다. 실제로 문자열을 토큰 화하는 방법에는 여러 가지가 있으며, 각각을 시도하고 최선을 선택하고 싶습니다 ... 통계적 구문 분석이라는 것이 있다는 것을 알고 있지만 그것에 대해 아무것도 모릅니다.
따라서 주소를 구문 분석하기 위해 어떤 기계 학습 기술을 탐색 할 수 있습니까?