최대 및 폐쇄 빈도-답변 포함


10

My  dataset:
1:A,B,C,E
2:A,C,D,E
3:     B,C,E
4:A,C,D,E
5:    C,D,E
6:    A,D,E

나는 발견 할 최대한의 빈번한 항목 세트폐쇄 빈번한 아이템 세트를 .

  • 빈번한 항목 세트 는 빈번한 수퍼 세트가없는 경우 최대 입니다.XF
  • 주파수가 동일한 수퍼 셋이없는 경우 빈번한 항목 세트 X ∈ F가 닫힙니다.

그래서 각 항목 세트의 발생 횟수를 세었습니다.

{A} = 4 ;  {B} = 2  ; {C} = 5  ; {D} = 4  ; {E} = 6

{A,B} = 1; {A,C} = 3; {A,D} = 3; {A,E} = 4; {B,C} = 2; 
{B,D} = 0; {B,E} = 2; {C,D} = 3; {C,E} = 5; {D,E} = 3

{A,B,C} = 1; {A,B,D} = 0; {A,B,E} = 1; {A,C,D} = 2; {A,C,E} = 3; 
{A,D,E} = 3; {B,C,D} = 0; {B,C,E} = 2; {C,D,E} = 3

{A,B,C,D} = 0; {A,B,C,E} = 1; {B,C,D,E} = 0

Min_Support가 설정 됨 // 매우 중요합니다. 이를 상기시켜 준 steffen에게 감사드립니다.50

합니까 최대 = ?{A,B,C,E}

음주자 폐쇄 = ?{A,B,C,D} and {B,C,D,E}

답변:


5

소스 에서 약간 확장 된 정의를 찾았습니다 (좋은 설명 포함). 다음은보다 안정적인 (게시) 소스 CHARM : 모하메드 J. 자키와 칭 JUI 샤오에 의해 폐쇄 된 항목 집합 마이닝을위한 효율적인 알고리즘 .

이 출처에 따르면 :

  • 즉각적인 수퍼 세트 중 어느 것도 아이템 세트와 동일한 지원을하지 않으면 아이템 세트가 닫힙니다
  • 즉각적인 상위 집합이 자주없는 경우 항목 집합은 최대 빈도입니다.


일부 비고 :

  • 어떤 항목 세트가 빈번한 지 정의 하는 min_support (support = 관심있는 하위 세트를 포함하는 항목 세트 수를 모든 항목 세트 수로 나눈 값)를 설정해야합니다 . 지원> = min_support 인 경우 항목 집합이 자주 사용됩니다.
  • 알고리즘과 관련하여 최대 빈번하고 닫힌 항목 세트를 찾으려고 할 때 min_support가있는 항목 세트 만 고려됩니다.
  • 클로즈드 정의의 중요한 측면 은 즉각적인 수퍼 세트가 더 많은 지원을받는 경우 중요하지 않으며, 정확히 동일한 지원을 가진 즉각적인 수퍼 세트 만 중요하다는 것입니다.
  • 최대 빈도 => 폐쇄 => 빈도는 많지만 그 반대는 아닙니다.

OP의 예에 적용

노트 :

  • 지원 횟수를 확인하지 않았습니다
  • min_support = 0.5라고합시다. min_support_count> = 3 인 경우 충족됩니다.
{A} = 4; {A, E} (으)로 인해 폐쇄되지 않았습니다
{B} = 2; 자주하지 않음 => 무시
{C} = 5; {C, E} (으)로 마감되지 않았습니다
{D} = 4; {D, E}로 인해 닫히지 않았지만 {A, D}로 인해 최대가 아님
{E} = 6; {D, E}로 인해 폐쇄되었지만 최대가 아님

{A, B} = 1; 자주하지 않음 => 무시
{A, C} = 3; {A, C, E}로 인해 닫히지 않음
{A, D} = 3; {A, D, E}로 인해 닫히지 않음
{A, E} = 4; {A, D, E}로 인해 폐쇄되었지만 최대가 아님
{B, C} = 2; 자주하지 않음 => 무시
{B, D} = 0; 자주하지 않음 => 무시
{B, E} = 2; 자주하지 않음 => 무시
{C, D} = 3; {C, D, E}로 인해 닫히지 않음
{C, E} = 5; {C, D, E}로 인해 폐쇄되었지만 최대가 아님
{D, E} = 4; {A, D, E}로 인해 폐쇄되었지만 최대가 아님

{A, B, C} = 1; 자주하지 않음 => 무시
{A, B, D} = 0; 자주하지 않음 => 무시
{A, B, E} = 1; 자주하지 않음 => 무시
{A, C, D} = 2; 자주하지 않음 => 무시
{A, C, E} = 3; 최대 빈번
{A, D, E} = 3; 최대 빈번
{B, C, D} = 0; 자주하지 않음 => 무시
{B, C, E} = 2; 자주하지 않음 => 무시
{C, D, E} = 3; 최대 빈번

{A, B, C, D} = 0; 자주하지 않음 => 무시
{A, B, C, E} = 1; 자주하지 않음 => 무시
{B, C, D, E} = 0; 자주하지 않음 => 무시

소스 링크가 손상되어 알려줍니다. 그리고 min_support는 매우 중요합니다. 저는 50을 사용하고 있습니다
Mike John

1
죄송합니다. 수정되었습니다.
steffen

1
min_support = 0.5 <=> min_support_count = 3을 변경하고 그에 따라 응용 프로그램을 예제로 변경했습니다.
steffen

사용 APRIORI는, 당신은 ... 계산 및 건설 itemsets을 많이 절약 할 수 있습니다
Anony - 무스 - 종료 될

@ Anony-Mousse APRIORI를 알고 있습니다 ... OP (IMHO)의 혼동의 원인이 되었기 때문에 가능한 한 상세하고 폐쇄적 인 최대 항목 집합의 개념을 설명하기 위해 항목 집합을 수동으로 살펴 보았습니다.
steffen

1

APRIORI 알고리즘을 읽으십시오. 영리한 가지 치기를 통해 불필요한 항목 세트를 피할 수 있습니다.

{A} = 4 ;  {B} = 2  ; {C} = 5  ; {D} = 4  ; {E} = 6

B는 빈번하지 않습니다. 제거하십시오.

두 항목을 구성하고 계산합니다 (아직 마법을 제외하고 B는 이미 제외)

{A,C} = 3; {A,D} = 3; {A,E} = 4; 
{C,D} = 3; {C,E} = 5; {D,E} = 3

이 모든 것은 빈번합니다 (빈번 B할 수 없었던 모든 것을 알 수 있습니다!)

이제 접두사 규칙을 사용하십시오. 동일한 n-1 항목으로 시작하는 항목 세트 만 결합하십시오. 서브 세트가 빈번하지 않은 모든 것을 제거하십시오. 나머지 항목 세트를 세십시오.

{A,C,D} = 2; {A,C,E} = 3; {A,D,E} = 3; 
{C,D,E} = 3

그 주 {A,C,D}를 자주하지 않습니다. 공유 접두사가 없으므로 더 큰 항목 집합 이있을 수 없습니다 !

내가 한 일이 얼마나 적 었는지 주목하십시오!

최대 / 닫힌 항목 세트의 경우 하위 세트 / 슈퍼 세트를 확인하십시오.

예를 들어 {E}=6, 및 {A,E}=4. {E}는 하위 집합 이지만 더 높은 지원을 제공합니다. 즉 닫히지 만 최대가 아닙니다. {A}지원보다 높지 않기 때문에 {A,E}, 즉 중복 되지 않습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.