단어 빈도 데이터의 분산을 측정하는 방법은 무엇입니까?


10

단어 개수로 구성된 벡터에서 분산 량을 어떻게 정량화 할 수 있습니까? 자주 발생하지 않는 여러 단어가 포함되어 있기 때문에 문서 A에 대해 높은 통계를 찾고 있는데, 자주 발생하는 단어 하나 (또는 ​​몇 단어)가 포함되어 있기 때문에 문서 B에 대해서는 낮습니다.

보다 일반적으로 명목 데이터의 분산 또는 "확산"을 어떻게 측정합니까?

텍스트 분석 커뮤니티에서이를 수행하는 표준 방법이 있습니까?

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

답변:


10

확률 (비율 또는 주)의 경우 1 합산, 가족 Σ의 P I [ LN ( 1 / P I ) ] B는 이 영역 내에서 측정을위한 여러 제안 (인덱스 계수이든) 캡슐화한다. 그러므로나는나는[ln(1/나는)]

  1. 는 발견 된 별개의 단어 수를 반환하며, 확률의 차이를 무시하지 않고 생각하기가 가장 간단합니다. 컨텍스트로만 사용하는 경우 항상 유용합니다. 다른 분야에서 이것은 한 부문의 회사 수, 현장에서 관찰 된 종의 수 등이 될 수 있습니다. 일반적으로이항목을 별개의 항목이라고합니다.=0,=0

  2. 는 반복 확률 또는 순도 또는 일치 확률 또는 동형 접합으로 알려진 Gini-Turing-Simpson-Herfindahl-Hirschman-Greenberg 제곱 확률의 합을 반환합니다. 그것은 종종 보체 또는 그 역수로보고되며, 때로는 불순물 또는 이종 접합과 같은 다른 이름으로보고됩니다. 이러한 맥락에서, 무작위로 선택된 두 단어가 동일 할 확률이고, 그 보완 물은 두 단어가 다를 확률이 1 p 2 i 입니다. 역수 1 /p 2 ia=2,b=01pi21/pi2 동등한 공통 범주의 동등한 수로 해석합니다. 이것을 때때로 숫자로 간주합니다. 이러한 해석은 동일한 공통 범주 (따라서 각 확률 1 / k )에 p 2 i = k ( 1 / k ) 2 = 1 / k를 의미 하므로 확률의 역수는 k 일뿐임을 알 수 있습니다 . 이름을 고르는 것은 당신이 일하는 분야를 배신 할 가능성이 높습니다. 각 분야는 그들 자신의 선구자를 존중하지만, 나는 일치 확률 을 단순하고 거의 자기 정의하는 것으로 칭찬 합니다.k1/kpi2=k(1/k)2=1/kk

  3. 은 종종 H 로 표시되고 이전 답변에서 직접 또는 간접적으로 신호를 보낸Shannon 엔트로피를 반환합니다. 엔트로피라는 이름은 훌륭하고 좋은 이유가 아니라 때로는 물리 부러워하기 때문에 여기에 붙어 있습니다. 참고 EXP ( H는 ) 것으로 유사한 스타일에 의해 지적 된 바와 같이,이 측정 동등한 숫자 인 K 동일 공통 카테고리 수득 H = Σ의 K ( 1 / K ) LN [ 1 / ( 1 / Ka=1,b=1Hexp(H)k 이므로 exp ( H ) = exp ( ln k ) k 를 돌려 줍니다. 엔트로피에는 많은 훌륭한 특성이 있습니다. "정보 이론"은 좋은 검색어입니다.H=k(1/k)ln[1/(1/k)]=lnkexp(H)=exp(lnk)케이

제형은 IJ Good에서 발견된다. 종의 개체군 빈도와 개체군 추정치. Biometrika 40 : 237-264. www.jstor.org/stable/2333344 .

다른 대수의 로그 (예 : 10 또는 2)는 맛이나 선례 또는 편의성에 따라 위와 같은 일부 공식에 내포 된 간단한 변형만으로 동일하게 가능합니다.

두 번째 측정의 독립적 인 재발견 (또는 재발 명)은 여러 분야에 걸쳐 다양하며 위의 이름은 전체 목록에서 멀리 떨어져 있습니다.

가정에서 공통된 수단을 함께 사용하는 것이 수학적으로 약간 호소력이있는 것은 아닙니다. 그것은 희소하고 일반적인 항목에 적용되는 상대적 가중치에 따라 측정 방법을 선택할 수 있다는 것을 강조하고, 따라서 명백한 임의의 제안이 소량 만 들어서 생기는 어도비에 대한 인상을 줄입니다. 일부 분야의 문헌은 저자가 선호하는 일부 조치가 모든 사람이 사용해야하는 최선의 조치라는 주장에 근거한 논문 및 심지어 책에 의해 약화됩니다.

내 계산에 따르면 예제 A와 B는 첫 번째 측정을 제외하고 크게 다르지 않습니다.

----------------------------------------------------------------------
          |  Shannon H      exp(H)     Simpson   1/Simpson      #items
----------+-----------------------------------------------------------
        A |      0.656       1.927       0.643       1.556          14
        B |      0.684       1.981       0.630       1.588           9 
----------------------------------------------------------------------

(여기서 이름이 Simpson (Edward Hugh Simpson, 1922-) 인 Simpson은 Simpson의 역설이라는 이름과 동일하다는 점에 주목하고 싶을 것입니다. 그는 Stigler의 역설이며 차례로 바뀌게됩니다 ....)


이것은 훌륭한 답변입니다 (1953 년 좋은 논문보다 훨씬 쉽게 따라갈 수 있습니다). 감사합니다!
dB '

7

일반적인 방법이 있는지 모르겠지만 경제학의 불평등 문제와 유사합니다. 각 단어를 개인으로 취급하고 그 수를 소득과 비교할 수있는 것으로 취급하는 경우, 단어 수가 동일한 수 (완전한 평등)를 갖는 모든 단어의 극단 사이 또는 모든 수를 갖는 하나의 단어 사이에있는 단어를 비교하는 데 관심이 있습니다. 그리고 다른 사람들은 0입니다. "제로"가 표시되지 않는 복잡한 문제는 일반적으로 정의 된 단어 한 묶음에서 1보다 작을 수 없습니다.

A의 Gini 계수는 0.18이고 B의 0.43입니다. 이는 A가 B보다 "같다"는 것을 나타냅니다.

library(ineq)

A <- c(3, 2, 2, rep(1, 11))
B <- c(9, 2, rep(1, 7))
Gini(A)
Gini(B)

다른 답변에도 관심이 있습니다. 분명히 구식 수의 차이도 시작점이 될 것입니다. 그러나 크기가 다른 백과 단어 당 다른 평균 수에 대해 비교할 수 있도록 확장해야합니다.


좋은 전화-지니 계수도 나의 첫 생각이었습니다! 그러나 Google 학자 검색에서 텍스트 데이터와 함께 사용하는 것에 대한 선례는 많지 않았습니다. NLP / 텍스트 검색 커뮤니티가 이런 종류의 것들에 대해 더 표준적인 척도가 있는지 궁금합니다.
dB '

조심하십시오 : 내 카운트에 의해 Gini는 적어도 세 가지 다른 측정의 이름으로 주어졌습니다. 역사는 각 경우에 방어 적이지만 사람들은 사용 된 공식을 볼 필요가 있습니다.
Nick Cox

1
좋은 점 @NickCox-불평등에 사용되는 것으로, 나는 이것이 가장 일반적인 용도라고 생각합니다. ellisp.github.io/blog/2017/08/05/weighted-gini 다른 방법을 보았습니다. 이 문맥에서 모두 동일한 기본 정의로 추정 / 계산합니다. 나는 ... 사람들은 뭔가 다른 위해 그것을 사용하는 기계 학습을 알고 있지만 자신의 변명을 보지 못했다
피터 엘리스에게

1
: @dB은 '나는이 텍스트 응용 프로그램에서 지니를 사용하여 종이 발견 proceedings.mlr.press/v10/sanasam10a/sanasam10a.pdf을 (나는 그것이를 A를 구별 최고의 직업이하는 단순히 같이 허용 한이 대답을 선호 B!)
대런 쿡

5

기사 에는 언어 학자들이 사용하는 표준 분산 측정에 대한 검토가 있습니다. 그것들은 단일 단어 분산 측정 (섹션, 페이지 등의 단어 분산 측정)으로 나열되지만 단어 빈도 분산 측정으로 사용될 수 있습니다. 표준 통계 자료는 다음과 같습니다.

  1. 최대 분
  2. 표준 편차
  3. CV
  4. χ2

고전은 다음과 같습니다.

  1. =1V1
  2. 에스=(나는=1나는)2
  3. 2=(로그2나는=1나는로그2나는)/로그2()
  4. =1χ24

ni

본문에는 두 가지 더 많은 분산 측정 방법이 언급되어 있지만 단어의 공간적 위치에 의존하므로이 단어는 백 오브 단어 모델에는 적용 할 수 없습니다.

  • 참고 : 기사에서 원래 표기법을 변경하여 공식이 표준 표기법과 일치하도록했습니다.

fxi

vi

1
소스의 방정식이 정확히 복사되지 않는 이유는 무엇입니까 (표현식의 레이블 변경뿐만 아니라 표현식의 변경이거나 레이블 / 변수의 일관성있는 변경이 아님)?
Sextus Empiricus

@NickCox 감사합니다. 정의 된 양만 포함하도록 수식을 수정했습니다.
크리스 노박

@MartijnWeterings 당신은 기사가 단어 빈도로 사소하게 일반화되는 것처럼 보이지만 원래 기사가 단일 단어 분산 메트릭을 다루는 것이 맞습니다. 그 정보를 답변에 포함시킨 경우를 대비하여. 나는 원래 표기법을 바꾸어 단어 가방에 적용 할 수 있도록했습니다 (f를 N으로 바꾸고 v_i를 n_i로 바꾸십시오). 나는 이것을 나타 내기 위해 메모를 추가했지만 여전히 오도 된 것으로 생각되면 대답에 더 긴 정당성을 제공 할 수 있습니다.
크리스 노박

4

내가 할 첫 번째는 Shannon의 엔트로피를 계산하는 것입니다. R 패키지 infotheo, 함수를 사용할 수 있습니다 entropy(X, method="emp"). 감싸면 natstobits(H)이 소스의 엔트로피를 비트 단위로 얻을 수 있습니다.


3

p(p1,...,pn)

H¯()나는ln나는ln.

0H¯()1

  • 케이나는=나는(나는=케이)H¯()=0

  • 나는=1/H¯()=1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.