영어 문장의 복잡성을 결정하는 방법?


10

사람들이 제 2 언어로 영어를 배우도록 돕기 위해 앱을 개발 중입니다. 추가 문맥을 제공함으로써 문장이 언어를 배우는 데 도움이된다는 것을 확인했습니다. 나는 60 명의 학생들로 구성된 작은 교실에서 작은 연구를 수행함으로써 그렇게했습니다.

다양한 영어 단어 (Barrons'800 단어 및 1000 개의 가장 일반적인 영어 단어 포함)에 대해 Wikipedia에서 수십만 문장을 채굴했습니다.

전체 데이터는 https://buildmyvocab.in 에서 볼 수 있습니다

내용의 품질을 유지하기 위해 이해하기 어려울 수 있으므로 160 자보다 긴 문장을 필터링했습니다.

다음 단계로, 이해하기 쉬운 순서로이 콘텐츠를 정렬하는 프로세스를 자동화 할 수 있기를 원합니다. 나는 비 영어 원어민입니다. 어려운 문장과 쉬운 문장을 구분하기 위해 어떤 기능을 사용할 수 있는지 알고 싶습니다.

또한 이것이 가능하다고 생각하십니까?

답변:


8

예. fogg 인덱스와 같은 다양한 메트릭이 있습니다. 파이썬의 텍스트 는 멋진 목록과 구현이 있습니다.

>>> ts.flesch_kincaid_grade_level
10.853709110179697
>>> ts.readability_stats
{'automated_readability_index': 12.801546064781363,
 'coleman_liau_index': 9.905629258346586,
 'flesch_kincaid_grade_level': 10.853709110179697,
 'flesch_readability_ease': 62.51222198133965,
 'gulpease_index': 55.10492845786963,
 'gunning_fog_index': 13.69506833036245,
 'lix': 45.76390294037353,
 'smog_index': 11.683781121521076,
 'wiener_sachtextformel': 5.401029023140788}

엔트로피 또는 고유 단어의 백분율을 볼 수도 있지만 위의 메트릭이 더 적합합니다.
GrimSqueaker
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.