답변:
확률 (비율 또는 주)의 경우 1 합산, 가족 Σ의 P I [ LN ( 1 / P I ) ] B는 이 영역 내에서 측정을위한 여러 제안 (인덱스 계수이든) 캡슐화한다. 그러므로
는 발견 된 별개의 단어 수를 반환하며, 확률의 차이를 무시하지 않고 생각하기가 가장 간단합니다. 컨텍스트로만 사용하는 경우 항상 유용합니다. 다른 분야에서 이것은 한 부문의 회사 수, 현장에서 관찰 된 종의 수 등이 될 수 있습니다. 일반적으로이항목을 별개의 항목이라고합니다.
는 반복 확률 또는 순도 또는 일치 확률 또는 동형 접합으로 알려진 Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg 제곱 확률의 합을 반환합니다. 그것은 종종 보체 또는 그 역수로보고되며, 때로는 불순물 또는 이종 접합과 같은 다른 이름으로보고됩니다. 이러한 맥락에서, 무작위로 선택된 두 단어가 동일 할 확률이고, 그 보완 물은 두 단어가 다를 확률이 1 − ∑ p 2 i 입니다. 역수 1 / ∑ p 2 i 동등한 공통 범주의 동등한 수로 해석합니다. 이것을 때때로 숫자로 간주합니다. 이러한 해석은 동일한 공통 범주 (따라서 각 확률 1 / k )에 ∑ p 2 i = k ( 1 / k ) 2 = 1 / k를 의미 하므로 확률의 역수는 k 일뿐임을 알 수 있습니다 . 이름을 고르는 것은 당신이 일하는 분야를 배신 할 가능성이 높습니다. 각 분야는 그들 자신의 선구자를 존중하지만, 나는 일치 확률 을 단순하고 거의 자기 정의하는 것으로 칭찬 합니다.
은 종종 H 로 표시되고 이전 답변에서 직접 또는 간접적으로 신호를 보낸Shannon 엔트로피를 반환합니다. 엔트로피라는 이름은 훌륭하고 좋은 이유가 아니라 때로는 물리 부러워하기 때문에 여기에 붙어 있습니다. 참고 EXP ( H는 ) 것으로 유사한 스타일에 의해 지적 된 바와 같이,이 측정 동등한 숫자 인 K 동일 공통 카테고리 수득 H = Σ의 K ( 1 / K ) LN [ 1 / ( 1 / K 이므로 exp ( H ) = exp ( ln k ) 는 k 를 돌려 줍니다. 엔트로피에는 많은 훌륭한 특성이 있습니다. "정보 이론"은 좋은 검색어입니다.
제형은 IJ Good에서 발견된다. 종의 개체군 빈도와 개체군 추정치. Biometrika 40 : 237-264. www.jstor.org/stable/2333344 .
다른 대수의 로그 (예 : 10 또는 2)는 맛이나 선례 또는 편의성에 따라 위와 같은 일부 공식에 내포 된 간단한 변형만으로 동일하게 가능합니다.
두 번째 측정의 독립적 인 재발견 (또는 재발 명)은 여러 분야에 걸쳐 다양하며 위의 이름은 전체 목록에서 멀리 떨어져 있습니다.
가정에서 공통된 수단을 함께 사용하는 것이 수학적으로 약간 호소력이있는 것은 아닙니다. 그것은 희소하고 일반적인 항목에 적용되는 상대적 가중치에 따라 측정 방법을 선택할 수 있다는 것을 강조하고, 따라서 명백한 임의의 제안이 소량 만 들어서 생기는 어도비에 대한 인상을 줄입니다. 일부 분야의 문헌은 저자가 선호하는 일부 조치가 모든 사람이 사용해야하는 최선의 조치라는 주장에 근거한 논문 및 심지어 책에 의해 약화됩니다.
내 계산에 따르면 예제 A와 B는 첫 번째 측정을 제외하고 크게 다르지 않습니다.
----------------------------------------------------------------------
| Shannon H exp(H) Simpson 1/Simpson #items
----------+-----------------------------------------------------------
A | 0.656 1.927 0.643 1.556 14
B | 0.684 1.981 0.630 1.588 9
----------------------------------------------------------------------
(여기서 이름이 Simpson (Edward Hugh Simpson, 1922-) 인 Simpson은 Simpson의 역설이라는 이름과 동일하다는 점에 주목하고 싶을 것입니다. 그는 Stigler의 역설이며 차례로 바뀌게됩니다 ....)
일반적인 방법이 있는지 모르겠지만 경제학의 불평등 문제와 유사합니다. 각 단어를 개인으로 취급하고 그 수를 소득과 비교할 수있는 것으로 취급하는 경우, 단어 수가 동일한 수 (완전한 평등)를 갖는 모든 단어의 극단 사이 또는 모든 수를 갖는 하나의 단어 사이에있는 단어를 비교하는 데 관심이 있습니다. 그리고 다른 사람들은 0입니다. "제로"가 표시되지 않는 복잡한 문제는 일반적으로 정의 된 단어 한 묶음에서 1보다 작을 수 없습니다.
A의 Gini 계수는 0.18이고 B의 0.43입니다. 이는 A가 B보다 "같다"는 것을 나타냅니다.
library(ineq)
A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)
다른 답변에도 관심이 있습니다. 분명히 구식 수의 차이도 시작점이 될 것입니다. 그러나 크기가 다른 백과 단어 당 다른 평균 수에 대해 비교할 수 있도록 확장해야합니다.
이 기사 에는 언어 학자들이 사용하는 표준 분산 측정에 대한 검토가 있습니다. 그것들은 단일 단어 분산 측정 (섹션, 페이지 등의 단어 분산 측정)으로 나열되지만 단어 빈도 분산 측정으로 사용될 수 있습니다. 표준 통계 자료는 다음과 같습니다.
고전은 다음과 같습니다.
본문에는 두 가지 더 많은 분산 측정 방법이 언급되어 있지만 단어의 공간적 위치에 의존하므로이 단어는 백 오브 단어 모델에는 적용 할 수 없습니다.
내가 할 첫 번째는 Shannon의 엔트로피를 계산하는 것입니다. R 패키지 infotheo
, 함수를 사용할 수 있습니다 entropy(X, method="emp")
. 감싸면 natstobits(H)
이 소스의 엔트로피를 비트 단위로 얻을 수 있습니다.