데이터 테이블 또는 igraph를 사용하여 그룹별로 즉각적인 이웃 찾기

14

나는이 data.table를 :

groups <- data.table(group = c("A", "B", "C", "D", "E", "F", "G"), 
                     code_1 = c(2,2,2,7,8,NA,5),
                     code_2 = c(NA,3,NA,3,NA,NA,2),
                     code_3 = c(4,1,1,4,4,1,8))

group code_1 code_2 code_3
  A      2     NA      4
  B      2      3      1
  C      2     NA      1
  D      7      3      4
  E      8     NA      4
  F     NA     NA      1
  G      5      2      8

내가 달성하고자하는 것은 각 그룹이 사용 가능한 코드를 기반으로 즉각적인 이웃을 찾는 것입니다. 예를 들어, 그룹 A는 code_1 (모든 그룹에서 code_1이 2 임)로 인해 인접 이웃 그룹 B, C가 있고 code_3으로 인해 인접 이웃 그룹 D, E가 있습니다 (모든 그룹에서 code_3이 4 임).

내가 시도한 것은 각 코드에 대해 다음과 같이 일치 항목을 기반으로 첫 번째 열 (그룹)을 하위 설정합니다.

groups$code_1_match = list()
for (row in 1:nrow(groups)){

  set(groups, i=row, j="code_1_match", list(groups$group[groups$code_1[row] == groups$code_1]))
}

  group code_1 code_2 code_3          code_1_match
    A      2     NA      4              A,B,C,NA
    B      2      3      1              A,B,C,NA
    C      2     NA      1              A,B,C,NA
    D      7      3      4                  D,NA
    E      8     NA      4                  E,NA
    F     NA     NA      1 NA,NA,NA,NA,NA,NA,...
    G      5      2      8                  NA,G

이 "kinda"는 작동하지만 더 많은 데이터 테이블 종류가 있다고 가정합니다. 나는 시도했다

groups[, code_1_match_2 := list(group[code_1 == groups$code_1])]

그러나 이것은 작동하지 않습니다.

처리 할 명확한 데이터 테이블 트릭이 누락 되었습니까?

이상적인 사례 결과는 다음과 같습니다 (현재 3 열 모두에 내 방법을 사용한 다음 결과를 연결해야 함).

group code_1 code_2 code_3    Immediate neighbors
  A      2     NA      4         B,C,D,E
  B      2      3      1         A,C,D,F
  C      2     NA      1         A,B,F
  D      7      3      4           B,A
  E      8     NA      4           A,D
  F     NA     NA      1           B,C
  G      5      2      8

r data.table igraph

— 사용자 2321
소스

igraph를 사용하여 수행 할 수 있습니다.

— zx8754

1

내 목표는 결과를 인접 그래프를 만들기 위해 igraph에 공급하는 것입니다. 내가 할 수있는 일부 기능이 없으면 알려주십시오. 실제로 도움이 될 것입니다!

— User2321

1

@ zx8754 관련 솔루션을 게시하는 igraph것이 좋습니다. 정말 흥미로울 수 있습니다.

— tmfmnk

@tmfmnk는 더 나은 igraph 방법이 있다고 생각했지만 게시했습니다.

— zx8754

10

igraph를 사용하여 2도 이웃을 얻고 숫자 노드를 삭제하고 나머지 노드를 붙여 넣습니다.

library(data.table)
library(igraph)

# reshape wide-to-long
x <- melt(groups, id.vars = "group")[!is.na(value)]

# convert to graph
g <- graph_from_data_frame(x[, .(from = group, to = paste0(variable, "_", value))])

# get 2nd degree neighbours
x1 <- ego(g, 2, nodes = groups$group)

# prettify the result
groups$res <- sapply(seq_along(x1), function(i) toString(intersect(names(x1[[ i ]]),
                                                                   groups$group[ -i ])))

#    group code_1 code_2 code_3        res
# 1:     A      2     NA      4 B, C, D, E
# 2:     B      2      3      1 A, C, D, F
# 3:     C      2     NA      1    A, B, F
# 4:     D      7      3      4    B, A, E
# 5:     E      8     NA      4       A, D
# 6:     F     NA     NA      1       B, C
# 7:     G      5      2      8

더 많은 정보

이것이 igraph 객체로 변환하기 전에 데이터가 어떻게 보이는지입니다. 값이 2 인 code1이 값이 2 인 code2와 다른지 확인하고 싶습니다.

x[, .(from = group, to = paste0(variable, "_", value))]
#     from       to
#  1:    A code_1_2
#  2:    B code_1_2
#  3:    C code_1_2
#  4:    D code_1_7
#  5:    E code_1_8
#  6:    G code_1_5
#  7:    B code_2_3
#  8:    D code_2_3
#  9:    G code_2_2
# 10:    A code_3_4
# 11:    B code_3_1
# 12:    C code_3_1
# 13:    D code_3_4
# 14:    E code_3_4
# 15:    F code_3_1
# 16:    G code_3_8

네트워크는 다음과 같습니다.

참고 A..G노드가 항상를 통해 연결되어있다 code_x_y. 그래서 우리는 2도를 얻어야하고 ego(..., order = 2)이웃에게 2도를 포함시킬 수있게하고리스트 객체를 반환합니다.

이름을 얻으려면 :

lapply(x1, names)
# [[1]]
# [1] "A"        "code_1_2" "code_3_4" "B"        "C"        "D"        "E"       
# 
# [[2]]
# [1] "B"        "code_1_2" "code_2_3" "code_3_1" "A"        "C"        "D"        "F"       
# 
# [[3]]
# [1] "C"        "code_1_2" "code_3_1" "A"        "B"        "F"       
# 
# [[4]]
# [1] "D"        "code_1_7" "code_2_3" "code_3_4" "B"        "A"        "E"       
# 
# [[5]]
# [1] "E"        "code_1_8" "code_3_4" "A"        "D"       
# 
# [[6]]
# [1] "F"        "code_3_1" "B"        "C"       
# 
# [[7]]
# [1] "G"        "code_1_5" "code_2_2" "code_3_8"

결과를 확인하려면 code_x_y노드와 원점 노드 (첫 번째 노드) 를 제거해야합니다.

sapply(seq_along(x1), function(i) toString(intersect(names(x1[[ i ]]), groups$group[ -i ])))
#[1] "B, C, D, E" "A, C, D, F" "A, B, F"    "B, A, E"    "A, D"       "B, C"       ""

— zx8754
소스

igraph 전문가가 아니라면 정말 이상하게 보입니다. 그것은 제대로 작동하는 것 같습니다 :) 올바르게 이해하면 먼저 코드가 바로 인접한 이웃 그래프를 생성 한 다음 해당 그래프에서 두 번째 이웃으로 실제 인접 이웃을 찾습니다.

— User2321

@ User2321 더 많은 정보를 추가했습니다.

— zx8754

1

@ User2321 btw 전혀 전문가가 아니며 때로는 igraph 문제를 해결하는 것과 같습니다. 더 나은 방법을 제안하기 위해 일부 전문가를 기다리고 있습니다.

— zx8754

1

네, 만약에 대비하여 현상금 제공을 고려하고 있습니다. 그러나 2 일 후에 보자 :)

— User2321

7

아마도 이것을 달성하는 더 실용적인 방법이 있을 수 있지만 melts와 joins를 사용하여 이와 같은 것을 할 수 있습니다 .

mgrp <- melt(groups, id.vars = "group")[!is.na(value)]
setkey(mgrp, variable, value)
for (i in seq_along(groups$group)) {
  let = groups$group[i]
  set(
    groups, 
    i = i, 
    j = "inei", 
    value = list(mgrp[mgrp[group == let], setdiff(unique(group), let)])
  )
}

groups
#    group code_1 code_2 code_3    inei
# 1:     A      2     NA      4 B,C,D,E
# 2:     B      2      3      1 A,C,D,F
# 3:     C      2     NA      1   A,B,F
# 4:     D      7      3      4   B,A,E
# 5:     E      8     NA      4     A,D
# 6:     F     NA     NA      1     B,C
# 7:     G      5      2      8

— sindri_baldur
소스

5

이것은 @sindri_baldur의 용해에서 영감을 얻었습니다. 이 솔루션 :

그룹을 녹입니다
데카르트 자체 조인을 수행합니다.
일치하는 모든 그룹을 함께 붙여 넣습니다.
원래 DT로 다시 연결

library(data.table)
#> Warning: package 'data.table' was built under R version 3.6.2
groups <- data.table(group = c("A", "B", "C", "D", "E", "F", "G"), code_1 = c(2,2,2,7,8,NA,5), code_2 = c(NA,3,NA,3,NA,NA,2), code_3=c(4,1,1,4,4,1,8))

molten_grps = melt(groups, measure.vars = patterns("code"), na.rm = TRUE)

inei_dt = molten_grps[molten_grps,
            on = .(variable, value),
            allow.cartesian = TRUE
            ][,
              .(inei = paste0(setdiff(i.group, .BY[[1L]]), collapse = ", ")),
              by = group]

groups[inei_dt, on = .(group), inei := inei]

groups
#>     group code_1 code_2 code_3       inei
#>    <char>  <num>  <num>  <num>     <char>
#> 1:      A      2     NA      4 B, C, D, E
#> 2:      B      2      3      1 A, C, D, F
#> 3:      C      2     NA      1    A, B, F
#> 4:      D      7      3      4    B, A, E
#> 5:      E      8     NA      4       A, D
#> 6:      F     NA     NA      1       B, C
#> 7:      G      5      2      8

— 서양 평지
소스

5

사용하여 zx8754 바와 같이 data.table::melt하여 combn다음과igraph::as_adjacency_matrix

library(data.table)
df <- melt(groups, id.vars="group", na.rm=TRUE)[,
    if (.N > 1L) transpose(combn(group, 2L, simplify=FALSE)), value][, (1) := NULL]

library(igraph)
as_adjacency_matrix(graph_from_data_frame(df, FALSE))

산출:

7 x 7 sparse Matrix of class "dgCMatrix"
  A B C E D G F
A . 1 1 1 1 1 .
B 1 . 2 . 1 1 1
C 1 2 . . . 1 1
E 1 . . . 1 1 .
D 1 1 . 1 . . .
G 1 1 1 1 . . .
F . 1 1 . . . .

또는 사용하지 않고 igraph

x <- df[, unique(c(V1, V2))]
df <- rbindlist(list(df, data.table(x, x)))
tab <- table(df)   #or xtabs(~ V1 + V2, data=df)
ans <- t(tab) + tab
diag(ans) <- 0L
ans

산출:

   V1
V2  A B C D E F G
  A 0 1 1 1 1 0 1
  B 1 0 2 1 0 1 1
  C 1 2 0 0 0 1 1
  D 1 1 0 0 1 0 0
  E 1 0 0 1 0 0 1
  F 0 1 1 0 0 0 0
  G 1 1 1 0 1 0 0

— 친순 12
소스

1

단계 xtabs와 유사한 출력을 작성할 수 igraph있습니까?

— 콜

이것은 정말 도움이되고 (내 눈에) 우아한 대답입니다. 감사합니다!

— User2321

@Cole, 예 table또는xtabs

— chinsoon12