문자열 패턴 학습을위한 기계 학습 기술


11

다른 자체 정의 범주에 속하는 단어 목록이 있습니다. 각 범주에는 고유 한 패턴이 있습니다 (예를 들어, 하나는 특수 문자로 고정 길이를 가지며 다른 하나는이 범주에서 "단어"등으로 나타나는 문자가 존재 함).

예를 들면 다음과 같습니다.

"ABC" -> type1
"ACC" -> type1
"a8 219" -> type2
"c 827" -> type2
"ASDF 123" -> type2
"123123" -> type3
...

훈련 데이터를 기반으로 이러한 패턴을 스스로 학습하는 기계 학습 기술을 찾고 있습니다. 나는 이미 몇 가지 예측 변수 (예 : 단어 길이, 특수 문자 수 등)를 스스로 정의하려고 시도한 다음 신경망을 사용하여 범주를 배우고 예측했습니다. 그러나 그것은 내가 원하는 것이 아닙니다. 나는 전혀 생각하지 않은 패턴을 배우기 위해 각 범주의 패턴을 스스로 배우는 기술을 원합니다.

그래서 알고리즘 학습 데이터 (단어 범주 예제로 구성)를 제공하고 나중에 유사하거나 동일한 단어에서 범주를 예측하기 위해 각 범주에 대한 패턴을 배우기를 원합니다.

이를위한 최첨단 방법이 있습니까?

당신의 도움을 주셔서 감사합니다


내 관점에서이 cistrome.org/cr/images/Figure4.png 와 같은 smth를 수행 할 수 있지만 ACGT 대신 "숫자, 대문자, 소문자, 공백"등과 같은 패턴을 사용할 수 있습니다.
독일어 Demidov

의견을 보내 주셔서 감사합니다. 나는 이미 이와 같은 것을 생각했다. 그러나 실제로 학습 알고리즘이 자체적으로 수행하고 패턴을 감지하기를 원합니다. (ML이 가능한지 모르겠습니다).
chresse

실제로이 패턴은 기계 학습입니다. 물론 머신 러닝으로 할 수 있지만 ML 알고리즘에 입력으로 제공하기 전에 먼저 기능 추출을 수행해야합니다. 이 예제에서 어떤 기능을 추출 하시겠습니까? 해시 함수에 대해서는 생각할 수 있지만 길이가 다른 문자열에는 매우 좋지 않습니다. 따라서 기능을 추출하는 방법을 찾을 수 있으므로 ML 방법을 사용할 수 있습니다. 다른 클래스의 심볼 사이의 거리를 Levenshtein과 같은 방식으로 분류하고 군집화하고 분류를 위해 중심까지의 최소 거리를 사용할 수도 있습니다.
독일 Demidov

@chresse 당신은 질문에 비지도 학습 태그를 추가 할 수 있습니다 . 신경망으로이 작업을 수행하려면 LeCun 백서가 유용 할 수 있습니다. 텍스트 마이닝이나 신경망에 대한 경험이 많지 않기 때문에이 방법이 얼마나 좋은지 말할 수 없습니다.
GeoMatt22

1
따라서 자연스럽게 사용하는 기능 (u-대문자, l-소문자, n-숫자, s-공백)을 사용하여 벡터를 변환하면 벡터는 "ABC"- "uuu", "a8 219"- "lnsnnn"이됩니다. 의 위에. 그런 다음 en.wikipedia.org/wiki/Smith –Waterman_algorithm 알고리즘을 사용하여 거리 측정을 도입해야합니다 . 이 후에는 데이터의 분류 / 클러스터 화 / 시각화를 수행 할 수 있습니다.
독일 데미 도프

답변:



5

입력은 단어의 문자 시퀀스이고 출력은 카테고리 인 반복 신경 네트워크를 사용해 볼 수 있습니다. 기능을 직접 코딩하지 않도록 요구 사항에 맞습니다.

그러나이 방법이 실제로 작동하려면 상당히 큰 훈련 데이터 세트가 필요합니다.

당신은 참조 할 수 있습니다 알렉스 그레이브스에 의해 재발 신경망과 감독 시퀀스 라벨링 자세한 내용은 제 2 장.

이것은 사전 인쇄에 대한 링크입니다


1
"preprint.pdf"링크가 나중에 중단되는 경우 최종 참조를 위해 전체 인용을 추가 할 수 있습니까? ( 이것이 관련 장 이라고 생각 합니까?)
GeoMatt22
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.