본문 바로가기
논문 정리

[Genome Biology] Accuracy assessment of fusion transcript detection via read-map

by 대학원생EJ 2022. 10. 28.
반응형

Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-based methods - Genom

Background Accurate fusion transcript detection is essential for comprehensive characterization of cancer transcriptomes. Over the last decade, multiple bioinformatic tools have been developed to predict fusions from RNA-seq, based on either read mapping o

genomebiology.biomedcentral.com


연구 배경에 대한 설명은 이 포스팅을 참고해 주세요: https://jinnie-bioinformatics.tistory.com/8

[Genome Biology] Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-base

저널: Genome Biology 논문 제목: Accuracy assessment of fusion transcript detection via read-mapping and de novo fusion transcript assembly-based methods 출판일: 2019년 10월 21일 출처:..

jinnie-bioinformatics.tistory.com

연구 결과

평가한 Fusion transcription detection methods들에 대한 정보

연구진들은 23개의 fusion transcription detection 방법을 평가했다. 그중에 18개 (Arriba, ChimeraScan, ChimPipe, deFuse, EricScript, FusionCatcher, FusionHunter, InFusion, JAFFA-Direct, MapSplice, nFuse, Pizzly, PRADA, SOAPfuse, STARChip, STAR-Fusion, STAR-SEQR, TopHat-Fusion)는 read-alignment 방법이고, 나머지 4개는 transcript assembly 방법 (JAFFA-Assembly, TrinityFusion의 3가지 실행 모드), 그리고 마지막 1개는 read mapping과 de novo assembly approach를 합친 방법 (JAFFA-Hybrid)이다.

Read length이 fusion detection accuaracy/sensitivity에 미치는 영향

각 method들에 대해서 추천하는 alignment와 analysis strategy, parameter를 사용했고, 각 methods들을 simulated data와 실제 cancer cell line의 RNA-seq 데이터를 벤치마크 하였다. 각 methods들의 accaruacy를 평가하기 위해서 10개의 simulated RNA-seq 데이터에서 fusion을 예측하였다. 각 데이터들은 30M paired-end (PE) reads이고 다양한 expression level의 범위에서 500개의 simulated fusion transcript들을 포함하도록 하였다. 연구진들은 read length와 fusion prediction accuracy를 확인하기 위해서 read length가 50인 데이터 세트와 101인 데이터 세트 두 개의 그룹을 비교하였고, 여기에서 나오는 true-positive와 false-posiive를 예측하였다. 그리고 연구진들은 precision, recall, AUC를 구하였다. 그 결과 대부분의 모든 methods에서 read length가 길 수록 accuracy, sensitivity가 향상되는 것을 확인하였다. de novo assembly-based methods는 read length 증가로 인해 더 눈에 띄게 향상되었다.

Fusion expression level이 fusion detection accuracy/sensitivity에 미치는 영향

연구진들은 fusion detection specificity도 fusion expression level에 의해 영향을 받는것을 확인하였다. 대부분의 methods들이 moderately, highly expressied fusion을 detect 할 때 더 sensitive 하였다. 그리고 각 methods가 포함하는 assembler에 따라서 fusion expression에 대한 영향이 차이가 났다.

참고) 모델 평가도

  • 정확도 Accuracy: 전체 개수 (TP + FN + FP + TN) 중에서 양성과 음성을 맞춘 (TP + TN) 수 ==> TP + TN / TP + FN + FP + TN
  • 재현율 Recall = 민감도 Sensitivity: 전체 양성수 (TP + FN)에서 검출 양성 수 (TP) ==> TP / TP + FN
  • 특이도 Specificity: 음성 중 (FP + TN) 맞춘 음성(TN)의 수 ==> TN / FP + TN
  • 정밀도 Precision: 양성이라고 판정 (TP + FP) 한 것 중에 실제 양성 (TP) 수 ==> TP / TP + FP

헷갈린다..

Cancer cell line의 RNA-seq으로 확인한 fusion transcription detection accuracy

연구진들은 60개의 cancer cell line의 RNA-seq 데이터를 이용해서 accuracy를 확인하였다. (chanllenge는 true set을 얻는 것이었다. 53개는 실험적으로 validate 하였는데 4개는 얻지 못한 듯. 그래서 연구진들은 "wisdom of crowds"방법을 벤치마킹 목적으로 사용하였고, 1) 이는 최소 n개의 methods에서 예측된 potential fusion transcript들을 true fusion으로 정하는 것이었다. 2) false prediction은 한 methods에서만 나온 fusion transcript, 3) unsure (unscored) fusion은 n개의 methods에서 조금 발견된 non-unique 한 fusion이다. 특정 fusion transcript이 발견되는 methods 수 (n)를 증가 시킴에 따라서, 실험적으로 validate 된 fusion의 수가 증가하였다. (다양한 methods를 만족할수록 true positive fusion transcript였음). n 수 상관없이 methods들 간의 ranking은 비슷하게 나왔다.

가장 좋은 fusion prediction methods는?

Execution time은 methods들에 따라서 다양하였다. Accuracy와 execution time을 모두 고려했을 때 가장 정확하고 빠른 methods는 STAR-Fusion, Arriba, STAR-SEQR였다.

Foreign origin의 de novo reconstruction transcripts들에 대한 탐구

Fusion transcription identification을 위한 de novo recustruction와 de novo assembly-based methods는 reference genome sequencer로 표현될 수 없는 transcript나 reference에 없는 transcript들에 대해서 알아볼 수 있게 도와준다. 환자들 샘플에서 tumorigenesis나 disease progerssion에 영향을 줄 수도 있는 virus나 microbmes에 대한 insight를 제공할 수 있다.
연구진은 바이러스나 미생물로부터 야기될 수 있는 cancer cell line으로부터 trinityFusion-reconstructed transcripts에 대해서 스터디하였다. 그 결과 trinityFusion-reconstructed transcripts가 mammalian virus, bacteriophage에만 align 되는 것을 확인하였다.

반응형

댓글