이 지역 프로젝트를 통해 현지 뉴스 웹 사이트를 크롤링하고 범죄 지수와 정치적 불안정 지수를 구축하려고합니다. 프로젝트의 정보 검색 부분을 이미 다뤘습니다. 나의 계획은 :
- 감독되지 않은 주제 추출.
- 거의 중복 감지.
- 감독 분류 및 사건 수준 (범죄 / 정치-높음 / 중간 / 낮음).
나는 파이썬과 sklearn을 사용하고 이미 그 작업에 사용할 수있는 알고리즘을 연구했습니다. 2. 이야기의 관련성 요소를 제공 할 수 있다고 생각합니다. 뉴스 나 기사에 대한 기사가 많을수록 해당 날짜와 관련이 있습니다.
다음 단계는 내가 가진 기능을 기반으로 월별, 주별 및 일별 인덱스 (전국 및 도시 별)를 구축하는 것입니다. "불안정성 민감도"가 시간이 지날수록 증가합니다. 작년의 주요 불안정 사건의 지수는 올해의 지수보다 작을 수 있음을 의미합니다. 또한 고정 스케일을 사용하는 경우 0-100.
나중에 나는 지난 몇 주 동안의 사건의 연속이 주요 사건으로 이어지는 지 여부에 근거하여 사건을 예측할 수 있기를 원합니다. 그러나 지금은 분류 작업을 수행하고 인덱스 모델을 작성하는 데 만족할 것입니다.
나는 논문, 관련 독서 또는 생각에 대한 조언을 부탁드립니다. 감사.
PD : 질문이 여기에 속하지 않으면 죄송합니다.
업데이트 : 아직 "만들지"않았지만 최근에는 뉴스 보관소를 사용하여 이벤트 를 예측 하는 시스템에서 작업하고 미래의 사건을 예측하기 위해 웹 마이닝 웹 관련 문서 를 발표 한 한 과학자 그룹에 대한 뉴스가있었습니다 (PDF ).