소프트웨어 프로젝트에서 사용하기 위해 영어로 사용되는 문자 또는 단어 시퀀스에 대한 통계를 수집하려고합니다.
다양한 주제를 다루는 많은 양의 영어 일반 텍스트를 어디에서 얻을 수 있습니까?
소프트웨어 프로젝트에서 사용하기 위해 영어로 사용되는 문자 또는 단어 시퀀스에 대한 통계를 수집하려고합니다.
다양한 주제를 다루는 많은 양의 영어 일반 텍스트를 어디에서 얻을 수 있습니까?
답변:
Wikipedia의 데이터 덤프를 사용할 수 있습니다 . 현재 개정판 만 포함 된 영어 위키 백과 의 XML 데이터 덤프 는 약 31GB이므로 연구를 시작하는 것이 좋습니다. 데이터 덤프는 상당히 크므로 SAX 파서를 사용하여 XML에서 텍스트를 추출하는 것을 고려해야합니다. WikiXMLJ 는 Wikipedia에 맞게 조정 된 편리한 Java API입니다.
물론, 항상 Stack Exchange 데이터 덤프가 있습니다. 최신 사람은 당신이 원하는 것 정도로 아마 일반화되지 자연스럽게 스택 교환 게시물은 각 사이트의 범위에 집중되어, 2011 년 9 월까지 모든 공공 베타 버전이 아닌 스택 Exchange 사이트 및 해당 메타 사이트까지를 포함하지만. 메타 게시물은 좀 더 일반적이기 때문에 Wikipedia 외에 다른 게시물도 고려할 수 있습니다.
나는 당신이 특히 평범한 텍스트로 더 나은 것을 찾을 것이라고 생각하지 않습니다. Data Hub를 통해 여러 개의 열린 데이터 세트를 사용할 수 있지만 English Wikipedia 데이터 덤프는 찾고있는 것과 매우 유사하다고 생각합니다.
Google 은 n-gram 확률을 결정하는 데 사용하는 데이터 세트 모음을 보유하고 있습니다. bigram (2 그램) 데이터 세트를 검사하면 좋은 그림이 될 것입니다. 이 분석이 이미 수행 된 다른 많은 corpi가 있습니다.
프로젝트 구텐베르크 에는 영어로 된 많은 양의 텍스트가 있으며 이미 텍스트 형식입니다.
프로젝트 구텐베르크는 42,000 개가 넘는 무료 전자 책을 제공합니다.
우리는 고품질 전자 책을 가지고 있습니다 : 모든 전자 책은 선의의 출판사에 의해 이미 출판되었습니다. 우리는 수천 명의 자원 봉사자들의 도움으로 디지털화하고 부지런히 교정했습니다.
통계를 위해, 아마도 "영어로 된 Bigram Frequency"를보고 계실 것입니다. 살펴보기 : Wiki-Bigram Stats
큰 텍스트를 찾는 경우 빈도는 텍스트 유형에 따라 편향됩니다. 예를 들어 주소를 분석하면 신문 기사를 분석하여 다른 결과를 얻을 수 있습니다. 테스트하려는 경우 모든 책의 PDF 파일 (수학 또는 프로그래밍 또는 의학 서적이 아님)을 사용하여 텍스트로 변환 한 다음 테스트를 실행할 수 있습니다. 신문 웹 페이지를 텍스트로 변환하여 작업 할 수도 있습니다.