나는 세 개의 다른 뉴스 간행물이 어떻게 다른 주제를 다루는지를 시각적으로 비교하려고합니다 (LDA 주제 모델을 통해 결정). 나는 그렇게하는 두 가지 관련 방법을 가지고 있지만 이것이 매우 직관적이지 않다는 동료로부터 많은 피드백을 받았습니다. 나는 누군가를 시각화하기위한 더 좋은 아이디어가 있기를 바랍니다.
첫 번째 그래프에서는 다음과 같이 각 발행물의 각 주제 비율을 보여줍니다.
이것은 내가 이야기 한 거의 모든 사람에게 매우 간단하고 직관적입니다. 그러나 간행물의 차이점을 이해하기는 어렵습니다. 어떤 신문이 어떤 주제를 더 다루고 있습니까?
이를 위해, 나는 가장 높은 출판물로 채색 된 주제의 비율이 가장 높은 출판물과 두 번째로 높은 출판물 간의 차이를 그래프로 표시했습니다. 이처럼 :
예를 들어, 축구에 대한 막대는 실제로 al-Ahram English와 Daily News Egypt (축구 범위에서 2 위) 사이의 거리이며 Al-Ahram이 1 위이기 때문에 빨간색으로 표시됩니다. 마찬가지로, Egypt Independent의 비율이 가장 높고 막대 크기가 Egypt Independent와 Daily News Egypt 간의 거리이므로 (2 번) 시험은 녹색입니다.
두 단락에서 모두 설명한다는 사실은 그래프가 자급 자족 테스트에 실패했다는 확실한 신호입니다. 보고있는 것만으로 실제로 무슨 일이 일어나고 있는지 말하기는 어렵습니다.
보다 직관적 인 방법으로 각 주제에 대한 주요 발행물을 시각적으로 강조 표시하는 방법에 대한 일반적인 제안이 있습니까?
편집 : 데이터와 재생 다음의 dput
R의 출력 뿐만 아니라 CSV 파일 .
편집 2 : 예비 점 플롯 버전이 있습니다. 점의 지름은 말뭉치의 주제 비율에 비례합니다 (주제가 원래 정렬 된 방식). 여전히 조금 더 조정해야하지만 이전에했던 것보다 훨씬 직관적입니다. 모두 감사합니다!