상관 행렬의 SVD는 부가 적이어야하지만 그렇지 않은 것으로 보인다


29

방금 다음 논문 인 Gene Expression Data에서 상관 관계있는 Biclusters 찾기 에 대한 주장을 복제하려고합니다 .

법안 4. . 우리는 :XIJ=RICJT

나는. 경우 첨가제 모델과 완벽한 bicluster는 다음 열에 대한 상관 관계와 완벽한 bicluster이다; ii. 경우 첨가제 모델과 완벽한 bicluster는 다음 X_ {IJ는} 행에 대한 상관 관계와 완벽한 bicluster이다; iii. R_IC_J 가 모두 가산 모델을 가진 완벽한 biclusters라면 X_ {IJ} 는 완벽한 상관 bicluster입니다.RIXIJ
CJXIJ
RICJXIJ

이러한 제안은 쉽게 입증 될 수 있습니다 ...

...하지만 물론 증명하지는 않습니다.

나는이 제안을 입증 할 수 있는지 확인하기 위해 종이 + 기본 + 사용자 정의 R 코드의 간단한 예제 중 일부를 사용하고 있습니다.

corbic <- matrix(c(0,4,-4,2,2,-2,6,0,4,-8,16,-2,-2,10,-14,4), ncol=4)

(표 1F부터)

논문에 설명 된대로 표준 X = UdVT svd 형식을 X=RCT 로 변환하는 일부 사용자 지정 코드 :

svdToRC <- function(x, ignoreRank = FALSE, r = length(x$d), zerothresh=1e-9) {
#convert standard SVD decomposed matrices UEV' to RC' form
#x -> output of svd(M)
#r -> rank of matrix (defaults to length of singular values vector)
            # but really is the number of non-zero singular values
#ignoreRank -> return the full decomposition (ignore zero singular values)
#zerothresh -> how small is zero?

    R <- with(x, t(t(u) * sqrt(d)))
    C <- with(x, t(t(v) * sqrt(d)))

    if (!ignoreRank) {
        ind <- which(x$d >= zerothresh)
    } else {
        ind <- 1:r
    }

    return(list(R=as.matrix(R[,ind]), C=as.matrix(C[,ind])))
}

이 함수를 데이터 세트에 적용하십시오.

 > svdToRC(svd(corbic))
$R
           [,1]       [,2]
[1,]  0.8727254 -0.9497284
[2,] -2.5789775 -1.1784221
[3,]  4.3244283 -0.7210346
[4,] -0.8531261 -1.0640752

$C
          [,1]       [,2]
[1,] -1.092343 -1.0037767
[2,]  1.223860 -0.9812343
[3,]  3.540063 -0.9586919
[4,] -3.408546 -1.0263191

환각을 일으키지 않는 한,이 매트릭스는 비록 피질이 행과 열 사이의 완벽한 상관 관계를 나타내더라도 부가 적이 지 않습니다. 그들이 제공하는 예제가 그들이 말한 속성을 나타내는 것이 이상하게 보입니다 ... 내가 svd 또는 post svd 변환 단계를 놓치지 않는 한?


3
Hi, zzk : 여기에서 (a) 모든 사람이 종이에 접근 할 수있는 것은 아니며 (b) 가정하는 일반성에 따라 몇 가지 다른 것을 의미 할 수 있기 때문에 완벽한 bicluster 의 정의를 간략하게 설명하면 도움 이 될 수 있습니다.
추기경

1
기본적으로, 행렬의 모든 행 대 행과 열 대 열 사이의 쌍별 상관 점수의 절대 값은 1입니다.
zzk

3
혼란 스러워요. 그렇게 4iii말하지 P(R), P(C), additivity => P(X)않습니까? (나는 " Y완벽한 bicluster" 라고 약칭 한다 P(Y)). 당신은 다른 방향으로 가고있는 것 같습니다. 다른 조건에서 그 중독성을 기대합니다. 더 설명 해주세요.
Stumpy Joe Pete

Stumpy-나는 내가 공급하는 매트릭스 (corbic)가 완벽한 상관 관계를 나타내는 것을 알고 있기 때문에 R & C에서 가산 성을 기대하고 있습니다-논문 자체에서 주어진 완벽한 bicluster.
zzk

6
나는 아직도 당신이 잘못된 방향으로 가고 있다고 생각하고 있습니다. 4iii 말을하지 않는 경우에 것을 X있는 완벽 다음 bicluster 상관 관계 RC첨가제를 될 것입니다. 그 의미는 다른 방향으로 진행됩니다. 자, 그들이 제시 한 예가 옆에있는 정리와 혼동하지 않는 것이 이상하다는 데 동의합니다. 아마도 당신이 제공 할 수있는 다른 정보가 있습니까? 다른 방향으로 진행되는 다른 정리가 있습니까?
Stumpy Joe Pete

답변:


2

이 기사에서 'bicluster'는 행렬 의 하위 집합 , "열의 하위 집합에서 유사한 동작을 나타내는 행의 하위 집합 또는 그 반대로"를 나타냅니다. biclusters의 식별은 일반적으로 데이터 마이닝 알고리즘에서 수행됩니다. 저자는 이러한 하위 집합을 식별하는 데 사용 된 이전 모델과 다른 새로운 '상관 된 bicluster 모델'을 제안하고 있습니다. 나는 유전학에 대해서는 아무것도 몰랐지만 여기의 혼란은 분명하고 두 가지 원인에서 비롯된 것 같습니다.

1. '첨가제'라는 단어 사용

이 논문에는 함수의 출력에 주어진 두 행렬이 '가산 적'이어야 함을 암시하는 것은 없습니다. 저자는 이런 의미에서 첨가제라는 단어를 사용하지 않습니다. 그들은 첨가제 모델로 "각 행 또는 열을 다른 행 또는 열에 상수를 추가하여 얻을 수있는"bicluster를 얻는 것을 말합니다.

2. 잘못된 제안 4.3

RICJXIJXIJRICJRICJ 반대로 가산 적이거나 가산 성 모델에 적합해야합니다.

* 또한 예시 데이터는 문제에서 논의 된 제안과 완전히 다른 섹션의 논문에서 나온 것입니다.


저희 웹 사이트에서 가장 많이 답변 된 질문에 대한 답변이 드디어 나왔습니다! 내가 논문을 읽지 않았고 당신이 쓴 것이 정확하다는 것을 보증 할 수는 없지만 +1; 그러나 합리적으로 보입니다.
아메바는 고
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.