다양한 샘플 텍스트를 어디서 구할 수 있습니까? [닫은]


14

소프트웨어 프로젝트에서 사용하기 위해 영어로 사용되는 문자 또는 단어 시퀀스에 대한 통계를 수집하려고합니다.

다양한 주제를 다루는 많은 양의 영어 일반 텍스트를 어디에서 얻을 수 있습니까?


3
어떻게 든 당신이 특히 즐길 느낌 그림을
야 니스

@Yannis Rizos 이들은 대단합니다 : D.
JSideris

@Yannis Rizos 오 그들은 예쁘다 ...
sevenseacat

@YannisRizos 몇 년 전에 문을 닫았습니다. 마침내 질문을 편집하여 QA 형식에 대해 좀 더 구체적이고 개선했습니다. 지금 닫을 수 있습니까? (이 스레드에서 여전히 중재자 인 유일한 사람입니다).
JSideris

답변:


19

Wikipedia의 데이터 덤프를 사용할 수 있습니다 . 현재 개정판 만 포함 된 영어 위키 백과XML 데이터 덤프 는 약 31GB이므로 연구를 시작하는 것이 좋습니다. 데이터 덤프는 상당히 크므로 SAX 파서를 사용하여 XML에서 텍스트를 추출하는 것을 고려해야합니다. WikiXMLJ 는 Wikipedia에 맞게 조정 된 편리한 Java API입니다.

물론, 항상 Stack Exchange 데이터 덤프가 있습니다. 최신 사람은 당신이 원하는 것 정도로 아마 일반화되지 자연스럽게 스택 교환 게시물은 각 사이트의 범위에 집중되어, 2011 년 9 월까지 모든 공공 베타 버전이 아닌 스택 Exchange 사이트 및 해당 메타 사이트까지를 포함하지만. 메타 게시물은 좀 더 일반적이기 때문에 Wikipedia 외에 다른 게시물도 고려할 수 있습니다.

나는 당신이 특히 평범한 텍스트로 더 나은 것을 찾을 것이라고 생각하지 않습니다. Data Hub를 통해 여러 개의 열린 데이터 세트를 사용할 수 있지만 English Wikipedia 데이터 덤프는 찾고있는 것과 매우 유사하다고 생각합니다.


1
그것들은 멋진 자원입니다.
hanzolo 2012

스택 스택은 광범위하지만 (필요에 따라) 매우 좁은 담론 영역을 다루므로 제대로 일반화되지 않을 수 있습니다.
jonsca

세상에,이 파일들은 엄청나 다! 내가 그들을 열고 모든 XML 쓰레기를 걸러내는 방법을 찾을 수있게되면 이것이 잘 작동합니다. 감사!
JSideris

1
@Bizorke Glad 도와 드리겠습니다. 완료되면 연구 링크로 질문을 업데이트해야합니다.
yannis

5

Google 은 n-gram 확률을 결정하는 데 사용하는 데이터 세트 모음을 보유하고 있습니다. bigram (2 그램) 데이터 세트를 검사하면 좋은 그림이 될 것입니다. 이 분석이 이미 수행 된 다른 많은 corpi가 있습니다.


3
나는 단지 같은 것을 쓰고 있었다 .
jcmeloni 2012

트윗 담아 가기
jonsca

5

프로젝트 구텐베르크 에는 영어로 된 많은 양의 텍스트가 있으며 이미 텍스트 형식입니다.

프로젝트 구텐베르크는 42,000 개가 넘는 무료 전자 책을 제공합니다.

우리는 고품질 전자 책을 가지고 있습니다 : 모든 전자 책은 선의의 출판사에 의해 이미 출판되었습니다. 우리는 수천 명의 자원 봉사자들의 도움으로 디지털화하고 부지런히 교정했습니다.


1
Project Gutenberg에 대해 생각했지만 집중적 인 데이터 덤프를 찾을 수 없습니다. 책이 포함 되려면 저작권이 만료되어야하며 일반적으로 책이 출판 된 지 50 년에서 70 년이 지났습니다. 따라서 데이터 세트로서 Project Gutenberg가 오늘날 사용되는 언어를 대표한다고 생각하지 않습니다.
yannis

1
"오늘 사용 된 언어를 대표하는"것을 원한다면 YouTube 댓글을 사용해보십시오. 슬프지만 사실이야.
Jörg W Mittag

@ JörgWMittag-아야. 정말로 나를 귀찮게하는 것은 당신이 얼마나 잘못이 아니냐입니다.
Michael Kohne

요 르그 W MITTAG 그것의 가능하지만 YouTube에 특정 단어의 특정 같이, 매우 자주 올 것 @ : YO OU UT TU UB하는 것은 더 나쁜, 또는 : FA AK KE ND GA AY
JSideris

1

통계를 위해, 아마도 "영어로 된 Bigram Frequency"를보고 계실 것입니다. 살펴보기 : Wiki-Bigram Stats

큰 텍스트를 찾는 경우 빈도는 텍스트 유형에 따라 편향됩니다. 예를 들어 주소를 분석하면 신문 기사를 분석하여 다른 결과를 얻을 수 있습니다. 테스트하려는 경우 모든 책의 PDF 파일 (수학 또는 프로그래밍 또는 의학 서적이 아님)을 사용하여 텍스트로 변환 한 다음 테스트를 실행할 수 있습니다. 신문 웹 페이지를 텍스트로 변환하여 작업 할 수도 있습니다.


2
그러나 나는 결과가 편향 될 것이라는 것을 알고있다. 가능한 많은 주제를 다루는 자료가 필요합니다. 나는 많은 전자 책을 다운로드하는 것을 고려했는데, 주요 문제는 그것들을 모두 텍스트로 변환하는 것입니다. 그러나 일부 bigram 통계를 찾는 것이 아프지 않을 것입니다 (저는 2 글자 조합이 무엇인지 알지 못했습니다).
JSideris 2012

당신의 의견에 감사드립니다. ADOBE PDF 리더에서 파일-> 텍스트로 저장을 사용하여 PDF를 텍스트로 변환 할 수 있습니다. 이 링크의 가치는 다음과 같습니다 : data-compression.com/english.html
NoChance

@EmmadKareem OP는 몇 GB의 텍스트를 요구합니다. 그가 Adobe Reader를 사용하여 PDF에서 텍스트를 추출 할 것을 진지하게 제안하고 있습니까?
yannis

@YannisRizos, 몇 GB가 필수 요구 사항이라는 것을 알지 못했습니다. 이 경우이 목적으로 사용할 수있는 더 나은 도구가 있습니다. 이것을 지적 해 주셔서 감사합니다.
NoChance
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.