«tokenize» 태그된 질문

토큰 화는 문자열을 토큰이라는 개별 요소로 분할하는 작업입니다.


16
문자열 구분 기호 (표준 C ++)를 사용하여 C ++에서 문자열 구문 분석 (분할)
다음을 사용하여 C ++에서 문자열을 구문 분석하고 있습니다. using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input); if (getline(input_stringstream,parsed,' ')) { // do some processing. } 단일 문자 구분 기호로 구문 분석하는 것이 좋습니다. 그러나 문자열을 구분 기호로 사용하려면 어떻게해야합니까? 예 : 분할하고 싶습니다 : scott>=tiger 와 >=구분 기호로 …
361 c++  parsing  split  token  tokenize 



10
스캐너와 StringTokenizer 및 String.Split
방금 Java의 스캐너 클래스에 대해 배웠으며 이제 StringTokenizer 및 String.Split과 어떻게 비교 / 경쟁하는지 궁금합니다. StringTokenizer 및 String.Split은 문자열에서만 작동하므로 스캐너를 문자열로 사용하려는 이유는 무엇입니까? 스캐너는 분할을위한 원 스톱 쇼핑이 목적입니까?

4
"토큰 라이저", "파서"및 "렉서"가 무엇인지 그리고 이들이 서로 어떻게 관련되고 사용되는지에 대한 명확한 정의를 찾고 있습니까?
"토큰 라이저", "파서"및 "렉서"가 무엇이며 서로 어떻게 관련되어 있는지에 대한 명확한 정의를 찾고 있습니다 (예 : 파서에서 토크 나이저를 사용하거나 그 반대)? 데이터 선언 및 정의를 추출하기 위해 c / h 소스 파일을 통과하는 프로그램을 만들어야합니다. 나는 예제를 찾고 정보를 찾을 수 있지만 문법 규칙, 구문 분석 트리 및 추상 …
151 parsing  lexer  tokenize 

5
파이썬 코드 줄이 들여 쓰기 중첩 수준을 알 수 있습니까?
이런 식으로 : print(get_indentation_level()) print(get_indentation_level()) print(get_indentation_level()) 나는 이와 같은 것을 얻고 싶다 : 1 2 3 이 방법으로 코드를 읽을 수 있습니까? 내가 원하는 것은 코드의 더 중첩 된 부분의 출력이 더 중첩 될 것입니다. 이렇게하면 코드를보다 쉽게 ​​읽을 수 있으며 출력을보다 쉽게 ​​읽을 수 있습니다. 물론 나는 이것을 사용하여 …


11
NLTK 토크 나이저를 사용하여 구두점을 제거하는 방법은 무엇입니까?
방금 NLTK를 사용하기 시작했는데 텍스트에서 단어 목록을 얻는 방법을 잘 모르겠습니다. 을 사용하면 nltk.word_tokenize()단어 목록과 구두점을 얻습니다. 대신 단어 만 필요합니다. 구두점을 제거하려면 어떻게해야합니까? 또한 word_tokenize여러 문장에서 작동하지 않습니다. 점이 마지막 단어에 추가됩니다.
125 python  nlp  tokenize  nltk 

13
Oracle에서 문자열을 여러 행으로 분할
나는 이것이 PHP와 MYSQL로 어느 정도 대답되었다는 것을 알고 있지만 누군가 Oracle 10g (바람직하게는)와 11g에서 문자열 (쉼표로 구분)을 여러 행으로 분할하는 가장 간단한 방법을 가르쳐 줄 수 있는지 궁금합니다. 표는 다음과 같습니다. Name | Project | Error 108 test Err1, Err2, Err3 109 test2 Err1 다음을 만들고 싶습니다. Name | …
104 sql  string  oracle  plsql  tokenize 
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.