Programme détaillé des sessions Participants I et II

Session I — "bioinformatic tools” : Jeudi 20 novembre

15h30-15h40 : A Comparative MS/MS Based Workflow for the Detection of Unknown Stable Protein Adducts.
Markus Muller, Adelina Acosta-Martin, Paola Antinori Malaspina, Oliver Horlacher, Alex Scherl, Pierre Lescuyer and Frederique Lisacek

Covalent interactions between reactive drug metabolites and blood proteins may explain some of the side effects of a drug. On the other hand, covalent adducts on long living proteins such as albumin and hemoglobin may reflect drug exposure during the past and be useful for drug monitoring. Often little is known about which proteins a drug binds to and even if the binding partners are known the exact form of the chemical interaction and adduct formation remains elusive. Open modification MS/MS searches (OMS) are very suitable in this context since they do not require prior knowledge of the modifications present in the sample, but extract the modification mass shifts directly from the MS/MS data. Here we present an experimental and computational workflow, which allows for the unbiased identification of covalent or strongly bound small molecule adducts on proteins. We use our OMS tool QuickMod to detect unknown adducts and apply statistical tests to identify adduct mass shifts that are induced by a specific condition. We applied this workflow to three different small molecule protein reactions. Firstly, we investigated the modifications induced by formalin fixation and paraffin embedding of human tissues, where we were able to identify methylation (+14Da) on lysine as the major modification. Secondly, we identified modifications that occur when albumin and hemoglobin are incubated with high concentrations of the toxic drug Busulfan. Using our approach we were able to report several novel adducts induced by Busulfan. Thirdly, butyl methanesulfonate (BMS) showed a clear adduct of +56Da on aspartic and glutamic acid residues.

15h40-15h50 : Management of MS proteomic data with PROTICdb : new user interface to facilitate integration
Olivier Langella, Noé Falque and Michel Zivy

High throughput MS-based proteomic experiments generate large volumes of complex data and necessitate bioinformatics tools to facilitate their handling. Needs include means to archive data, to disseminate them to the scientific communities, and to organize and annotate them to facilitate their interpretation. We present here a new user interface based on modern web technologies. This allows an easy and fast data browsing for proteomic project publication, and brings new tools to easily select GO terms or launch automatic annotation worklflows. This new version can handle huge datasets (thousands of MS samples), including peptide quantifications based on eXtracted Ion Chromatogram (Langella et al., 2013). Customized tools can be integrated quickly. This has been done for instance to compute the phosphorylation site prediction algorithm (Olsen & Mann, 2004) on phosphopeptides and display it automatically. PROTICdb is designed to integrate data from various sources as they are produced (mzXml, X!Tandem , Mascot, MassChroQ, Progenesis…). It makes intensive use of ontology terms to describe experiments based on the Proteomic Standard Initiative work (or any other OBO file). Users can then work on their data in a centralized point, share ,enrich and finally publish their projects in the same tool. It will soon allow to produce seamlessly PRIDE XML files to submit it easily to the ProteomeXchange consortium. PROTICdb comes with a complete RESTful API to share data with other databases, such as the World-2DPAGE Portal. PROTICdb is a free software, distributed under the GNU General Public Licence (GPLv3). Its developpment is open to external contributors at SourceSup (https://sourcesup.renater.fr/). PROTICdb public interface : http://moulon.inra.fr/protic/public

15h50-16h00 : Databases and software bridging glycomics to proteomics
Frédérique Lisacek, Oliver Horlacher, Julien Mariethoz, Davide Alocci, Markus Müller and Frédéric Nikitin

The expansion of systems biology that brings together multiple aspects of a biological phenomenon is slowly but surely integrating glycomics data, as recently shown in a study unveiling the role of glycans in immunity [1]. In collaboration with a few glycomics groups we develop new or improved and integrated resources to access, query and mine existing glyco-related information in various and complementing ways [2]. These tools are designed to connect with other -omics and to enhance the prediction of protein and glycan function and interactions. We focus here on filling the gap between proteomics and glycomics. MS data analysis: Analytically, unlike proteomics, glycomics has limited tools for the automatic annotation of MS data. The lack of a direct template for biosynthesis challenges the construction of a theoretical database. However, LC-MS/MS workflows for glycan analysis shares similarities with those used for proteomics. We show how MS analysis software can be adapted and expanded to support the structural assignment of glycan data [3]. Database development: Information relevant to glycosylation taking place in different tissues and on different proteins, as sourced from literature mining, can be structured to bridge to the proteomics knowledge-bases [4]. We highlight recent progress in developing dedicated and interconnected glycomics databases to elucidate protein-glycan interactions in the context of pathogenicity. 

16h00-16h10 : How UniProt serves the proteomics community and makes use of the proteomics data (full paper).
Benoit Bely, Emanuele Alpi, Alan Wilter Sousa Da Silva, Guoying Qi and Maria Martin

In order to better serve the proteomics community, UniProt provides proteins sets (proteomes) for all complete genomes publicly available. These proteomes can be retrieved via the UniProt FTP and website. In order to complete protein annotation using proteomics data, UniProt has developed a pipeline which maps publicly available lists of experimentally identified peptides to proteins sequences in UniProtKB taking into account peptide unicity. This will be used to set evidence for the existence of a protein at the protein level (PE=1) and will allow users to identify proteins with experimentally proved sequence information.

16h10-16h25 :
ProteoEDEN: an Extensible Database ENgine for Proteomics
Samuel Granjeaud, Luc Camoin, Bernard Chetrit and Ghislain Bidaut

Les avancées technologiques ont accru la sensibilité et la résolution des instruments utilisés en biologie, leur rapidité d’acquisition et aussi leur variété. Les données mesurées sont donc respectivement plus volumineuses, plus nombreuses et plus diversifiées. La sécurisation de ce patrimoine de données, son exploitation et son partage sont donc au cœur des préoccupations des laboratoires et centres de recherche malgré le faible attrait scientifique de cette problématique. Des solutions existent, sous la forme de LIMS (Laboratory Information Management System), mais présentent l'inconvénient majeur d'être trop spécifique d'une technologie, d'un instrument et/ou de la façon de travailler d'une équipe. Les avancées technologiques s’accompagnent également de traitements et d’analyses informatiques de plus en plus complexes. Ces traitements sont souvent composés d'une succession de tâches, exécutées sur des clusters de calcul ou des stations de travail. Ces workflows sont pris en charge par différents systèmes tels que Taverna ou Galaxy. Cependant, les résultats finaux ou intermédiaires générés par ces systèmes doivent également être organisés et stockés. Face à l'afflux de données, les différentes communautés scientifiques ont défini un jeu d'information minimum de façon à faciliter l'échange et la reproductibilité des données générées, et ce pour la plupart des technologies post-génomiques (par exemple MIAME pour les microarrays et MIAPE pour la protéomique). A notre connaissance, aucun système de gestion de données n'est facilement transposable d'un laboratoire à un autre et adaptable facilement à une nouvelle technologie sans une réécriture approfondie du code. Nous avons donc imaginé le système de gestion d'information proteoEDEN, indépendant de toute sémantique, qui permette de tracer les différentes étapes suivies par un échantillon, de la paillasse au compte rendu final. Ce système est basé sur notre expérience dans le développement du RIMS (Research Information Management System) Djeen (Stahl et al, 2013). Le concept est de placer au centre du système l'échantillon, qui est le fil conducteur et initiateur de toute étude, et de décrire les transformations successives dont il fait l'objet, le tout d'une façon générique, paramétrable et réutilisable. Le premier point novateur est le concept de transformation d'un échantillon : c'est la pièce maîtresse de la construction d'un workflow dans proteoEDEN. Une transformation peut s'appliquer à un ou plusieurs échantillons. Elle est composée de paramètres (numériques, textes, choix multiples, fichier attaché…) qui lui sont propres et d'autres qui sont affectés aux échantillons transformés qu'elle crée. Ces paramètres sont définis via une interface graphique, ce qui rend le système générique, et peuvent être obligatoires ou optionnels, ce qui rend proteoEDEN compatible avec les standards Minimum Information. Une succession de transformations constitue ainsi un workflow qui représente l'ensemble des opérations réalisées sur un échantillon assurant ainsi une traçabilité complète. Toute transformation peut être réutilisée, c’est-à-dire devenir un modèle pour d'autres échantillons, et de même pour un workflow ; l'investissement est ainsi capitalisé. Le second point novateur est l'extension du concept d'échantillon. Un échantillon n'est pas seulement biologique mais également numérique. Une acquisition effectuée sur un instrument n'est pas simplement une conversion réel/virtuel, mais constitue une transformation. Les traitements informatiques ultérieurs sont eux-mêmes liées à la donnée source. Ainsi, proteoEDEN permet aussi de tracer et d'organiser les résultats numériques. Le concept proteoEDEN a été validé avec les différentes opérations menées sur une plate-forme protéomique. Nous souhaitons donc réaliser proteoEDEN, une gestion de données scientifiques extensible et flexible. Bien qu’initialement développé en vue de tracer des transformations d’échantillons et de données propres à la protéomique, proteoEDEN sera indépendant de toute sémantique, donc flexible et applicable à tout instrument et technologie. proteoEDEN assurera la traçabilité des transformations de bout en bout, tant au niveau de la paillasse que de l'analyse numérique. Les transformations seront adaptées à chaque besoin et réutilisables d'une étude à une autre grâce à la définition de modèles. 

Software for SILAC analysis: comparison and tweaking to get the best
Damien Plassard, Samuel Granjeaud, Jean-Baptiste Boyer and Luc Camoin

Quantitative proteomics has become a standard analysis to compare proteomes. Among various technics, stable isotope labelling with amino acids in cell culture (SILAC) offers interesting features. SILAC labelling occurs at the very early stage of the experiment during cell culture and allows processing two or three proteomes together in the exact same way. As a result, SILAC allows reducing experimental biases efficiently. While experimental protocol is well-defined, many programs are now available in addition to MaxQuant, the reference software. No benchmark is currently available to compare each software processing. To address this processing step, we used a cancer cell line as sample and a pool of cancer cell lines as control, the latter being labelled with Lys-8 and Arg-10. We evaluated different processing steps through various software: MaxQuant, MascotDistiller, ProteomeDiscoverer and Progenesis across a Java application. We also paid attention to different parameters such as filtering parameters, identification engines (Sequest, SequestHT, Mascot, MSAmanda) and FDR or PEP as false discovery filter. Our aim was to determine the most relevant and consensual processing. We also tried to evaluate advantages of combining different approaches. Analysis of SILAC data is usually a two-steps process (identification and quantification). First, we evaluated the identification step and the ability of each processing to detect proteins. MaxQuant, ProteomeDiscoverer using SequestHT and Mascot perform identically at PEP 1%. Nevertheless, Proteome Discoverer's parameterization needs to be corrected in order to remove unwanted importation filters. Then, we evaluated the quantitation step. Our findings highlight that protein quantitation is in fair agreement (correlation coefficient=0.7) if at least 3 peptides per protein are used and does not improve much when more peptides per protein are used. Our study outlines a workflow that we will apply now in SILAC experiments carried out at Marseille Proteomics facility.

Session II — “biostatistics and biomarker discovery” : Vendredi 21 novembre

10h30-10h40 : Including shared peptides for estimating protein abundances: A significant improvement for quantitative proteomics
Mélisande Blein-Nicolas, Hao Xu, Dominique de Vienne, Christophe Giraud, Sylvie Huet and Michel Zivy

Inferring protein abundances from peptide intensities is the key step in quantitative proteomics. The inference is necessarily more accurate when many peptides are taken into account for a given protein. Yet, the information brought by the peptides shared by different proteins is commonly discarded. We propose a statistical framework based on a hierarchical modeling to include that information. Our methodology, based on a simultaneous analysis of all the quantified peptides, handles the biological and technical errors as well as the peptide effect. In addition, we propose a practical implementation suitable for analyzing large data sets. Compared to a method based on the analysis of one protein at a time (that does not include shared peptides), our methodology proved to be far more reliable for estimating protein abundances and testing abundance changes. The source codes are available at http://pappso.inra.fr/bioinfo/all_p/. 

10h40-10h50 : Evaluation of new kidney injury biomarkers using absolute quantitative proteomics
Benoit Gilquin, Mathilde Louwagie, Guillaume Picard, Leila El Kholy, Mohamed Benama, Myriam Ferro, Caroline Barau, Michel Jaquinod and Virginie Brun

The diagnosis and monitoring of kidney diseases relies on the dosage of functional biomarkers, mainly serum creatinine and blood urea nitrogen. Also widely used, these biological parameters provide little information about etiology and they are poorly sensitive to the loss of kidney reserve. During the last decade, extensive efforts have been directed to the identification and evaluation of novel biomarkers to detect kidney injury at early stages. Hence, NGAL, L-FABP, KIM-1 and IL-18 have emerged as promising biomarkers for the diagnosis of a variety of kidney diseases. However, none of these new biomarkers has gained approval of health agencies (FDA, EMA) for clinical use. In this study, we developed a PSAQ-SRM analysis method to quantify NGAL, L-FABP and 3 new kidney injury biomarkers in urine. We also evaluated the concentration levels of these proteins in urine from patients with acute kidney injury and healthy subjects. 

10h50-11h00 : Une application web et un package R pour l’analyse de données protéomiques quantitatives
Samuel Wieczorek, Florence Combes, Hesse Anne-Marie, Cosmin Lazar, Claire Ramus, Sabine Brugiere, Yohann Coute, Christophe Bruley and Thomas Burger

L’analyse protéomique par spectrométrie de masse est aujourd’hui largement développée, par exemple pour la recherche de bio-marqueurs. Cette approche permet d’identifier les protéines contenues dans des échantillons biologiques mais la quantité de données générées et leur complexité imposent l’utilisation d’une succession de logiciels pour obtenir au final une liste de protéines d’intérêt. Malheureusement, ces outils ne répondent pas toujours aux besoins des utilisateurs et ne permettent pas d’être adaptés facilement (code source non accessible, logiciels commerciaux, formats propriétaires, ...). Quel que soit l’outil utilisé pour identifier/quantifier les données de spectrométrie de masse, une analyse statistique de ces données est aujourd’hui indispensable. La particularité de ces données (grand nombre de variables, peu de réplicats) demande un traitement statistique adapté et fait actuellement l’objet de recherches. Nous avons mis en place une solution d’analyse statistique basée sur le langage R et interfacé avec une application web. Cet outil permet de bénéficier de développements statistiques diffusés à la communauté, mais aussi d’intégrer des développements « internes ». L’interface de l'outil facilitant l’accès aux non programmeurs, celui-ci peut être utilisé par les massistes pour tester les méthodes sur des données réelles. Notre outil se présente donc sous forme d’une application web basée sur Shiny (une interface entre R et JavaScript) et d’un package R développé en interne. Sa conception est modulaire de façon à pouvoir rajouter facilement de nouvelles fonctions au « pipeline ». Il permet i) la réalisation de visualisations de statistique descriptive (boxplots, densityplots, heatmaps, matrices de corrélation) ii) l’imputation de valeurs manquantes, iii) la normalisation des données, iv) l’analyse différentielle entre deux conditions. D’autre part, des fonctionnalités d’importation / exportation des données de quantification, des résultats ainsi que des filtres sur ces données sont implémentées. Enfin, un rapport des différentes analyses statistiques réalisées dans l’interface peut être généré automatiquement, ce qui facilite les échanges d’informations et l’export des graphiques.

11h00-11h10 : Faut-il prendre en compte les semi-tryptiques dans la protéomique de la graine ?
Virginie Lollier, Hélène Rogniaux, Colette Larré, Valentin Estréguil and Dominique Tessier

L'analyse protéomique par spectrométrie de masse de type shotgun conduit parfois à l'identification de peptides partiellement tryptiques lorsque l'enzyme protéolytique utilisée est la trypsine. Ces peptides dits semi-tryptiques peuvent avoir plusieurs origines. Ils peuvent notamment résulter d'une fragmentation in-source liée à l'énergie de désolvation/activation à l'interface de la source d'ionisation. Dans ce cas, le temps d'élution des peptides semi-tryptiques est le même que celui du peptide parent et est significativement différent du temps de rétention prédit. Un autre cas pouvant expliquer l'origine des peptides semi-tryptiques serait la présence de protéases endogènes dans les échantillons. Par ailleurs, la présence de chymotrypsine contaminante ou l'autolyse partielle de la trypsine en pseudo-trypsine pourraient également générer des peptides semi-tryptiques. Cependant, cette possibilité peut largement être réduite par l'utilisation de trypsine dé-méthylée. En comparant des échantillons de plusieurs origines biologiques analysés par spectrométrie de masse dans les mêmes conditions (protéolytiques et instrumentales), un taux important de peptides semi-tryptiques a été observé dans un échantillon de graine de Brachypodium distachyon, plante utilisée dans la recherche comme modèle du blé. Ces semi-tryptiques pourraient résulter d'une activité protéasique endogène. La graine étant un organe de réserve, les protéases qu'elle renferme lui permettent de mobiliser ses réserves au moment de la germination. L'identification des peptides semi-tryptiques à partir des spectres de masse est possible avec le programme X!Tandem, notamment par son mode « refine ». Dans l'utilisation courante de ce programme, l'identification d'une protéine est validée en imposant la présence d'au moins deux peptides qui lui sont spécifiques et dont la p-value est inférieure à un certain seuil de confiance. Nous explorons dans quelle mesure ces paramètres usuels et l'abondance de peptides semi-tryptiques influencent la composition obtenue du protéome de la graine de Brachypodium.

11h10-11h20 : Analyse statistique d’une méthode d’inversion hiérarchique bayésienne pour la quantification des protéines en mode MRM et la classification des échantillons par QDA
Laurent Gerfault, Amna Klich, Catherine Mercier, Pascal Roy, Jean-François Giovannelli, Audrey Giremus, Pierre Mahe, Jean-Philippe Charrier, Bruno Lacroix and Pierre Grangeat

Quantification and classification are key processes for proteomic studies and development of diagnostic tests using MRM measurements. We have proposed recently a Bayesian hierarchical inversion algorithm for quantification associated with a quadratic discriminant analysis for serum sample classification. In this communication, we present a statistical analysis of experimental data. We focus on robustness, linearity, discrimination and classification performance criteria. We consider as biomarker model the proteins LFABP, BIP and Villin having 3 MRM acquired peptides in the studied fraction. Experimental data are experimental plan of set of samples with known protein dilution factors and a colorectal cancer cohort. Statistical analysis is conducted on protein concentration, sample classification, but also technological parameters estimation such as molecular yield or elution time. Methods : For Bayesian Hierarchical Inversion, a full graphical hierarchical model of MRM acquisition chain is proposed combining biological and technological parameters. The Bayesian estimation delivers automatically protein concentrations and extra parameters, using MRM data on AQUA labelled peptides and control quality samples for yield estimation. Classification is achieved using a Quadratic Discriminant Analysis. Quantification performances on the dilution samples are computed based on linear regression, determination factors, concordance coefficient and variance analysis. On the clinical cohort, the discrimination power for each biomarker is characterized by Wald coefficient and Bayesian selection factor associated with a Gaussian mixture model. Classification performances are measured computing sensitivity, specificity and ROC curves. Technological variability is characterized by coefficient of variation for each parameter. Preliminary data : MRM acquisitions have been achieved using an ABSciex QT5500 mass spectrometer. For the 3 proteins, 3 transitions are measured for each peptide. AQUA labelled peptides are used for internal calibration. External calibration of pre-analytical process is performed for each daily batch using control quality sample. For quantification evaluation, a set of 6 mixtures with pooled plasma have been prepared including a reference concentration of targeted proteins with 2 fold dilutions (1:1 to 1:16). 1:4-dilution sample is used also as control quality. Measurement has been achieved along 16 daily sample batches following a specific experiment plan for variance analysis purpose. The part of the variance explained by the linear model is 0.5 for BIP, 0.6 for Villin, and 0.7 for LFABP, suggesting existence of non-linear effects. The clinical cohort includes 105 controls and 101 colorectal cancer cases from grade 1 to 4. Measurement has been achieved along 27 daily sample batches. Coefficient of variation of digestion yield varies from 2% for Villin to 13% for LFABP, with a daily maximum of 33% for LFABP. Wald coefficients have been estimated at 21.7 for LFABP, 13.4 for Villin and 0.01 for BIP. Then, on this data set, LFABP and Villin can be considered as discriminant, but not BIP. Evaluation of classification performances has been achieved by cross-validation, using ten 10-fold processes. Classification is applied using either each protein independently, or a combination of them. Protein concentration increases in controls for LFABP, decreases for Villin and BIP, with large overlap between controls and cases. Combining these 3 biomarkers and choosing a 95 % specificity as minimal requirement for colorectal cancer screening tests, sensitivity was 40 % on the ROC curve for the clinical cohort. More extensive statistical results will be presented at the conference, including technological parameters and comparison with an operator-supervised quantification method.

11h20-11h30 : Analysis of Proteomics SELDI-MS Data
Sarra Hamzaoui, Smail Bouzergane, Tiratha Raj Singh, Ahmed Moussa and Brigitte Vannier

Mass Spectrometry (MS) has arguably become the core technology in proteomics. MALDI and SELDI-TOF techniques enable the study biological fluids, e.g. human blood. Analysis of these samples can lead to discover new biomarkers which can ease the diagnostic and prognostic of several diseases, e.g. various cancers. In this work, we focus on MS data from SELDI-TOF experiments. We begin with a preprocessing step in order to remove noises due to the acquisition process of the data. Then, we apply the differential analysis to a SELDI-MS data, using the Significance Analysis of Microarray (SAM) method implemented in Matlab. Results using the SAM method are compared with those obtained by the conventional t-test and Analysis Of Variance (ANOVA) in order to evaluate its efficacy and its performance. As a result, we demonstrate that the SAM method can be adapted for effective significance analysis of SELDI-MS data. It is deemed powerful and provides better results that totes. An easy-to-use application is developed with Matlab for mass spectrometry data analysis from raw spectra to differential analysis, including the SAM method.


© Projet PROSPECTOM 2014