«parsing» 태그된 질문

구조화되지 않은 데이터를 분석하여 구조화 된 정규화 된 형식으로 변환합니다.

5
웹 페이지에서 데이터를 안정적이고 효율적으로 가져 오기
최근에 정규식을 사용하여 웹 사이트의 HTML을 구문 분석하여 필요한 데이터를 얻는 것이 최선의 조치가 아니라는 것을 알게되었습니다. 그래서 내 질문은 간단합니다. 그렇다면이 데이터를 얻는 가장 / 가장 효율적이며 일반적으로 안정적인 방법은 무엇입니까? 나는 주목해야한다 : API가 없습니다 데이터를 얻을 수있는 다른 소스는 없습니다 (데이터베이스, 피드 등 없음) 소스 파일에 액세스 …
11 data  parsing 

7
XML 파싱 기법
나는 XML을 처리하기가 다소 번거 롭다는 것을 항상 발견했다. 나는 XML 파서를 구현하는 것에 대해 이야기하는 것이 아니라 노드별로 XML을 처리하는 SAX 파서와 같은 기존 스트림 기반 파서를 사용 하는 것에 대해 이야기하고 있습니다. 예, 이러한 파서에 대한 다양한 API를 배우는 것은 정말 쉽지만 XML을 처리하는 코드를 볼 때마다 항상 …

2
SQL 코드 형식화 알고리즘
SQL 코드 (SQL Server / MySQL)를 형식화하는 도구 (사내 사용)가 필요합니다. 다양한 타사 도구와 온라인 웹 사이트가 있지만 정확히 어떻게 작동하지는 않습니다. 그래서 내 필요에 맞는 도구를 직접 작성하고 싶습니다. 첫 번째 질문은 SQL 코드의 형식을 지정하는 방법에 대한 표준 또는 규칙이 있습니까? (내가 시도한 도구는 다르게 포맷합니다) 두 번째 …

1
왜 GCC가 Bison에서 C ++ 및 C에 대한 재귀 강하 파서로 전환 했습니까?
언어 변경이 필요했거나 Bison이 더 이상 적합하지 않거나 최적의 이유가 아닌 실질적인 이유가 있습니까? GCC 3.4 및 GCC 4.1 릴리스 정보를 참조하여 wikipedia 에서 전환 한 것을 보았습니다 . 이 릴리스 노트는 다음과 같습니다. 손으로 쓴 재귀 적하 C ++ 파서는 이전 GCC 릴리스의 YACC 파생 C ++ 파서를 대체했습니다. …
10 c++  c  parsing  compiler 


3
컴파일러 작성 컴파일러-사용 및 기능에 대한 이해
이것은 언어 프로젝트에 사용 된 개념을 프레임 워크 형태로 추상화하는 것을 목표로하는 추상화 프로젝트의 자매 프로젝트에 중점을 둔 일련의 질문의 일부입니다. 자매 프로젝트는 OILexer라고하며 일치하는 코드 삽입을 사용하지 않고 문법 파일에서 구문 분석기를 구성합니다. 구조 입력과 관련하여 다음 질문에 관련된 일부 다른 페이지는 볼 수 있습니다 여기에 , 사용의 용이성, …

2
중요한 단어를 찾기위한 언어 파싱
어휘 주제에 접근하는 방법에 대한 의견과 이론을 찾고 있습니다. 문자열 모음이 있다고 가정 해 봅시다. 한 문장 또는 여러 문장 일 수 있습니다. 이 문자열을 구문 분석하고 가장 중요한 단어를 제거하고 싶습니다. 어쩌면 단어가 중요 할 가능성을 나타내는 점수로 평가하고 싶습니다. 내가 무엇을 의미하는지 몇 가지 예를 봅시다. 예 # …


4
명령 처리 응용 프로그램을 어떻게 구현해야합니까?
숫자를 가져 와서 해당 번호의 명령을 처리하는 간단한 개념 증명 응용 프로그램 (REPL)을 만들고 싶습니다. 예 : 1부터 시작합니다. 그런 다음 " add 2"를 쓰면 나에게 3 multiply 7을줍니다. 그런 다음 " "를 쓰면 나에게 21을줍니다. 그런 다음 소수인지 알고 싶어서 " is prime"(현재 숫자에- 21), 그것은 나에게 거짓을 준다. …

6
파일을 파싱하는 가장 좋은 방법
EDIFACT 및 TRADACOMS 와 같은 유명한 파일 형식 중 일부에 대한 파서를 만드는 더 나은 솔루션을 찾으려고 합니다. 이러한 표준에 익숙하지 않은 경우 Wikipedia에서이 예제를 확인하십시오. 제품 가용성 요청에 응답하는 데 사용되는 EDIFACT 메시지의 예는 아래를 참조하십시오. UNA:+.? ' UNB+IATB:1+6XPPC+LHPPC+940101:0950+1' UNH+1+PAORES:93:1:IA' MSG+1:45' IFT+3+XYZCOMPANY AVAILABILITY' ERC+A7V:1:AMD' IFT+3+NO MORE FLIGHTS' ODI' TVL+240493:1000::1220+FRA+JFK+DL+400+C' …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.