동일한 텍스트 파일의 다른 줄에서 발생하는 시퀀스 ID와 클러스터 번호를 추출하려고합니다.
입력은 다음과 같습니다
>Cluster 72
0 319aa, >O311_01007... *
>Cluster 73
0 318aa, >1494_00753... *
1 318aa, >1621_00002... at 99.69%
2 318aa, >1622_00575... at 99.37%
3 318aa, >1633_00422... at 99.37%
4 318aa, >O136_00307... at 99.69%
>Cluster 74
0 318aa, >O139_01028... *
1 318aa, >O142_00961... at 99.69%
>Cluster 75
0 318aa, >O300_00856... *
원하는 출력은 한 열의 시퀀스 ID이고 두 번째 열의 해당 클러스터 번호입니다.
>O311_01007 72
>1494_00753 73
>1621_00002 73
>1622_00575 73
>1633_00422 73
>O136_00307 73
>O139_01028 74
>O142_00961 74
>O300_00856 75
누구든지 이것을 도울 수 있습니까?
>
입니까? 또한 자매 사이트 Bioinformatics에 관심이 있으실 수도 있습니다 .