영어 단어 데이터베이스를 얻는 방법? [닫은]


148

영어로 된 모든 유효한 단어의 데이터베이스가 필요합니다. /usr/share/dict/words파일을 확인 했는데 100k 미만의 단어가 포함되어 있습니다. Wikipedia에 따르면 영어에는 475k 단어가 있습니다. 전체 목록 (미국 철자법)은 어디서 구할 수 있습니까?

또한 아시아 및 유럽 언어를 포함한 다른 언어로 된 단어를 제공하는 단일 웹 사이트가 있습니까?

편집 : 추가하는 것을 잊었습니다. 이름 등이 필요하지 않으며 유효한 영어 단어 만 있습니다.


9
/usr/share/dict/words단어는 479829 개이므로 여기에 약간의 변형이있을 수 있습니다 (다른 사람들에게 적합 할 수 있음).
marshall.ward

4
wc -l /usr/share/dict/wordsMac에서 235,886 단어입니다 (2014 년 7 월-OSX Mavericks 10.9.4)
nelsonic

2
내가 찾은 최고의 목록 : raw.githubusercontent.com/docdis/english-words/master/... . 감사합니다 @nelsonic.
james.garriss


1
당신은 여기 worlist를 얻을 수 있습니다 marcoagpinto.cidadevirtual.pt/proofingtoolgui.html .. 오른쪽에있는 단어 목록 링크를 찾으
kofifus

답변:


75

WordNet 데이터베이스가 도움이 될 수 있습니다. 나는 한때 단어와 단어와 단어 사이의 단순하고 복잡한 연관을 다루는 Firefox 애드온에서 일했습니다. WordNet이 매우 유용 할 것 같습니다.

여기는 MySQL 형식 입니다. 그리고이 하나 (웹 아카이브 링크)는 이전 Wordnet 2.0 데이터 대신 Wordnet v3.0 데이터를 사용합니다.


다운로드 가능한 목록이 있습니까?

1
예, CSV, MySQL 데이터베이스 등 다양한 형식으로 데이터베이스를 다운로드 할 수있는 기능을 제공하며 .Net, Java 등을 통해 사용할 수있는 API도 있습니다.이 페이지는 다운로드 페이지입니다. wordnet.princeton .edu / wordnet / download
user266803


개인적으로 다운로드하지는 않았지만 코딩을 시작할 때 준비가되었습니다. 어떤 파일에 어떤 파일이 있는지 알 수 없습니다. 다른 형식으로 다운로드 할 수 있다는 것을 알고 있습니다. 원하는 형식으로 알려 주시면 도와 드릴 수 있습니다.
user266803

실제로 매우 흥미로운 프로젝트처럼 보입니다.
Wim Hollebrandse

36

infochimps.org에서 필요한 것을 찾을 수 있습니다 .

무료로 다운로드 할 수있는 간단한 350,000 개의 단어 (예 : 비화합물) 목록이 있습니다.

단어 목록-350,000 개 이상의 간단한 영어 단어

다른 언어와 관련하여 위키 낱말 사전을 둘러보고 싶을 수도 있습니다. 다음은 모든 데이터베이스 백업에 대한 링크입니다 . 정보가 구성되지 않았지만 언어가있는 경우 SQL 형식으로 데이터를 다운로드 할 수 있습니다.


6
다운로드 링크가 변경되었습니다 -infochimps.com/datasets/…
Chris Rae

36
짜증나게 infochimps 파일은 .xls입니다 (6 개의 워크 시트로 나뉘어 진 단어가있는 Excel 파일입니다!) ... 354986 개의 단어 를 모두 txt 파일 로 추출했습니다 : github.com/nelsonic/english-words
nelsonic

@nelsonic 감사합니다. infochimps 링크는 404입니다

1
@ChrisRae 모두 링크가 작동하지 않습니다
garg10may

5
tecnology 와 같이 철자가 틀린 단어가 포함 된 것 같습니다. 아마도 웹에 나타나는 모든 것을 수집하기 때문일 것입니다. 암호 크래킹 / 유효성 검사에는 좋지만 철자 검사기 등 실제 단어가 필요한 응용 프로그램에는 적합하지 않습니다.
최대

13

나는 여기에 언급 된 http://wordlist.sourceforge.net/을 보지 못했지만 , 나는 이런 것을 찾고 있다면 시작할 것입니다 (그리고이 질문을 우연히 만났을 때였습니다).

원하는 것을 찾을 수없고 원하는 단어가 영어 단어 목록 인 경우 원하는 단어를 인식하는 방법을 설명하는 데 시간을 더 투자해야합니다.


1
이 광범위한 목록에 "C ++"또는 "C #"과 같이 문장 부호가있는 단어가 포함되기를 기대했지만 찾을 수 없었습니다. 그래서 그것이 당신이 단락 한 후에 당신이하고있는 것이라면이 것을 건너 뛸 수 있습니다 (다른 답변의 좁은 목록).
hobs

9

"완전한"목록은 없습니다. 사람들마다 다른 측정 방법이 있습니다. 예를 들어 속어, 신학, 여러 단어 구, 불쾌감을주는 용어, 외국어, 동사 활용 등이 있습니다. 어떤 사람들은 심지어 백만 단어를 세었 습니다 ! 따라서 단어 목록에서 원하는 것을 결정해야합니다.


3
그 링크 주셔서 감사합니다. 영어에 몇 단어가 있는지, 그리고 그 단어의 수에 도달하려고 시도하는 것이 무의미하다는 것을 아주 잘 읽었습니다. 보다 간결하고 최신 정보를 얻으려면 en.oxforddictionaries.com/explore/language-questions/…도 있습니다.
Prometheus

4

Mozilla, OpenOffice 및 기타 여러 소프트웨어에서 사용하는 *spell en-GB 사전을 확인할 수 있습니다 .


mozilla의 링크 en-gb.pyxidium.co.uk/dictionary/en_GB.zip 은 서버를 찾을 수 없음을 나타 냅니다 . 감사합니다


이제 새로운 링크는 404, @mloskot입니다.
james.garriss

@ james.garriss 전체 extensions.openoffice.org 사이트가 다운 된 것 같습니다.
mloskot

3

이 목록에 필요한 것을 말하지 않았습니다. 비밀번호 확인을위한 블랙리스트로 사용 된 것이 충분하다면 cracklib 이 적합 할 수 있습니다. 150 만 단어 이상이 포함되어 있습니다.


1
아니요, 블랙리스트가 아닙니다. 나는 일종의 단어 게임 / 그래프를하고 있습니다.

여기에는 "정크 단어"가 많지만 여기에 적어 놓은 것에 대해 매우 감사합니다. 다른 사전에없는 특정 단어를 검색 할 때 완벽합니다 (예 : firetruck)
kangalioo
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.