Título: A Bayesian approach to peptide identification by accurate mass and time tags in proteomics experiments
Autores: Yanofsky, Corey
Fecha: 2010
Publicador: McGill University - MCGILL
Fuente:
Tipo: Electronic Thesis or Dissertation
Tema: Engineering - Biomedical
Descripción: The Accurate Mass and Time (AMT) tag approach to high-throughput proteomics uses reversed-phase liquid chromatography (RPLC) coupled to high accuracy mass spectrometry to measure both the masses and chromatographic retention-times of tryptic peptides in complex mixtures. These measurements are matched to the mass and predicted retention-times of peptides in a library to identify the associated sequences. This dissertation comprises two journal article manuscripts, a conference paper, and a third manuscript describing a sequence of Bayesian statistical models addressing key aspects of AMT tag matching.
The first manuscript described a statistical model that matched accurate mass measurements to the masses of peptides in a library constructed from partial knowledge of the composition of the sample under analysis. Although no individual match was assigned with high confidence, in aggregate they enabled the detection and correction of calibration errors in the mass spectral data.
In RPLC, a peptide's relative affinities for the solid and liquid phases, termed "hydrophobicity", is the physical property that determines its retention-time. The second manuscript described a statistical model that used a large data set of measured retention-times of identified peptides to estimate their hydrophobicity. The conference paper described a model for predicting a peptide's hydrophobicity from its sequence. The parameters of the model were fit using the results of the second manuscript and tested using an independent data set of measured retention-times of identified peptides. Together, the models of second manuscript and the conference paper provided estimates of peptide hydrophobicity for arbitrary peptide sequences.
The third manuscript described a statistical model integrating a retention-time-matching component (made possible by the availability of estimated peptide hydrophobicities) into the first model, yielding probabilities of correctness for matches between AMT tags and predicted masses and retention-times of peptides in a library. The probabilities were validated by comparison with a set of "gold standard" peptide identifications acquired by MS/MS. The accuracy of the model was verified by demonstrating that its predicted receiver operating characteristic (ROC) curve matched the ROC curve generated by the gold standard data set.
L'approche basée sur le temps de rétention et la masse déterminée de façon précise (ou approche AMT, Accurate Mass and Time tag) de la protéomique à haut débit fait appel à la RPLC (chromatographie liquide en phase inversée) couplée à la spectrométrie de masse de haute précision pour mesurer les masses et les temps de rétention des peptides trypsiques d'un mélange complexe. Ces mesures sont comparées aux masses et aux temps de rétention prévus de peptides d'une banque pour identifier les séquences associées. Cette thèse est constituée de deux articles de journaux, d'un article présenté dans une conférence et d'un troisième manuscrit, et décrit une suite de modèles statistiques bayésiens traitant les aspects essentiels des appariements basés sur la stratégie AMT. fr
Le premier article décrit un modèle statistique qui compare les mesures précises de la masse aux masses des peptides d'une banque construite à partir de la connaissance partielle de la composition de l'échantillon analysé. Bien qu'aucun des appariements n'ait pu être établi avec un degré de confiance élevé, ensemble, ils ont permis de détecter et de corriger des erreurs de calibrage dans les données de spectrométrie de masse. fr
En RPLC, l'affinité relative d'un peptide pour les phases solide et liquide, appelée « hydrophobicité », est la propriété physique responsable du temps de rétention du peptide. Le deuxième article décrit un modèle statistique faisant appel à un vaste ensemble de données de mesure de temps de rétention de peptides identifiés pour estimer leur hydrophobicité. L'article présenté dans le cadre d'une conférence décrit un modèle permettant de prédire l'hydrophobicité d'un peptide à partir de sa séquence. Les paramètres du modèle ont été ajustés à l'aide des résultats présentés dans le deuxième article et vérifiés au moyen d'un ensemble indépendant de données de mesure de temps de rétention de peptides connus. Ensemble, les modèles décrits dans le deuxième article et dans l'article de la conférence ont permis d'obtenir une estimation de l'hydrophobicité de séquences peptidiques arbitraires. fr
Le troisième manuscrit décrit un modèle statistique qui intègre une composante de comparaison des temps de rétention (rendue possible par la disponibilité d'estimations de l'hydrophobicité peptidique) dans le premier modèle, permettant ainsi d'obtenir la probabilité de l'exactitude des appariements entre les marqueurs AMT et les masses et temps de rétention des peptides d'une banque. Les probabilités ont été validées par comparaison avec un ensemble de peptides de référence identifiés par MS/MS (spectrométrie de masse en tandem). La précision du modèle a été vérifiée en démontrant que la courbe de ROC (receiver operating characteristic, caractéristique de fonctionnement du récepteur) correspondait à la courbe de ROC obtenue avec les données de référence. fr
Idioma: en