뉴스 기사를 바탕으로 범죄 지수와 정치적 불안정 지수를 만들고 싶습니다

이 지역 프로젝트를 통해 현지 뉴스 웹 사이트를 크롤링하고 범죄 지수와 정치적 불안정 지수를 구축하려고합니다. 프로젝트의 정보 검색 부분을 이미 다뤘습니다. 나의 계획은 :

감독되지 않은 주제 추출.
거의 중복 감지.
감독 분류 및 사건 수준 (범죄 / 정치-높음 / 중간 / 낮음).

나는 파이썬과 sklearn을 사용하고 이미 그 작업에 사용할 수있는 알고리즘을 연구했습니다. 2. 이야기의 관련성 요소를 제공 할 수 있다고 생각합니다. 뉴스 나 기사에 대한 기사가 많을수록 해당 날짜와 관련이 있습니다.

다음 단계는 내가 가진 기능을 기반으로 월별, 주별 및 일별 인덱스 (전국 및 도시 별)를 구축하는 것입니다. "불안정성 민감도"가 시간이 지날수록 증가합니다. 작년의 주요 불안정 사건의 지수는 올해의 지수보다 작을 수 있음을 의미합니다. 또한 고정 스케일을 사용하는 경우 0-100.

나중에 나는 지난 몇 주 동안의 사건의 연속이 주요 사건으로 이어지는 지 여부에 근거하여 사건을 예측할 수 있기를 원합니다. 그러나 지금은 분류 작업을 수행하고 인덱스 모델을 작성하는 데 만족할 것입니다.

나는 논문, 관련 독서 또는 생각에 대한 조언을 부탁드립니다. 감사.

PD : 질문이 여기에 속하지 않으면 죄송합니다.

업데이트 : 아직 "만들지"않았지만 최근에는 뉴스 보관소를 사용하여 이벤트 를 예측 하는 시스템에서 작업하고 미래의 사건을 예측하기 위해 웹 마이닝 웹 관련 문서 를 발표 한 한 과학자 그룹에 대한 뉴스가있었습니다 (PDF ).

machine-learning classification text-mining

— 롤란도 맥스
소스

기술 부분 (도구)에 대해서는 O'Reiley의 두 가지 책을 추천합니다 .Python 코드가있는 Collective Intelligence, R 코드가있는 Machine Learning은 ... 당신과 관련된 주제를 포착합니다. 다음 단계는 Manning 웹 사이트 일 수 있습니다 ... 방법론적인 부분은 LinkedIn에서 Semantic Web 그룹을 추천합니다.

— Radu Marius Florin

이 질문과 매우 비슷합니다. 우리를 업데이트 유지!

— 엔트로피

GINI 점수의 변형을 고려하십시오.

정규화되고 출력 범위는 0에서 1 사이입니다.

편집하다:

GINI가 "차가운"이유 또는 적어도 적절한 이유 :

불평등이나 불평등의 척도입니다. 무한 및 임의 네트워크를 포함하여 스케일없는 네트워크의 이종성을 특성화하기위한 스케일없는 측정으로 사용됩니다. CART 트리를 작성하는 데 유용합니다 (CART 트리는 특정 데이터 분할의 분할 성능을 측정하기 때문에).

범위로 인해 :

반올림 오류가 적습니다. 1.0에서 멀리 떨어진 범위는 숫자 문제를 겪는 경향이 있습니다.
인간이 읽을 수 있고 더 인간이 접근 할 수 있습니다. 인간은 수십억의 물체보다 물체의 물체를 더 구체적으로 파악합니다.

정규화 되었기 때문에 :

점수 비교는 의미가 있습니다. 한 국가의 0.9는 다른 국가의 0.9와 동일한 수준의 상대 불균일성을 의미합니다.
완벽한 균일 성을 위해 Lorenz 곡선에 대해 정규화되므로 값은 관심 값의 분포와 Lorenz 곡선의 관계에 대한 관련 지표입니다.

참고 문헌 :

— EngrStudent-복직 모니카
소스

@EngrStudent 사이트에 오신 것을 환영합니다. GINI 계수에 대해 조금 더 말씀해 주시겠습니까? 그리고 왜 이것이 정답입니까? 여기에 새로 가입하여 참여하기 시작한 이 사이트에 대한 많은 정보가 포함 된 FAQ 를 읽어보십시오 .

— 복직 모니카