답변:
비슷한 알고리즘 및 관련 연구 논문에 비해 성능이 우수한 SentiStrength 를 사용해보십시오 . 다른 도구 및 방법에 대한 설명은 여기 및 여기를 참조하십시오 .
여기에 수행되는 것의 많은 것을 나는 인상이 매우 휴리스틱 . 사실, 대부분의 사람들은 이것을 120 자 미만의 트위터 문장에 적용하는 것 같습니다. 아마도 (이 방법으로 계산되지는 않았지만) 결과는 작은 위치 정보를 가진 "긍정적 인"단어와 "부정적인"단어를 세는 것보다 훨씬 나을 것입니다 ( "A보다 B"= A에 긍정적, B에 부정)
그렇다면 전체 트위터 피드 (초당 mbit?)를 구매하고 이에 대한 감정 분석을 주장하는 회사가 통계적 타당성 이 있는지 궁금하게 생각합니다 . 야후가 사우스 캐롤라이나의 선출을 예측하는 데 실패한 것은 당연합니다. http://www.technologyreview.com/web/39487/
사람들은 모든 양의 데이터를 처리 할 수 있다는 사실에 자부심을 갖고 예의 바르게 행동하며, 성능을 제대로 검증하는 것을 완전히 무시하는 것 같습니다.
최첨단 기술에 대해 비관적으로 생각해서 죄송합니다.