Informations

Transformer les données génomiques accessibles au public en protéines

Transformer les données génomiques accessibles au public en protéines


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Je suis un informaticien qui commence à toucher à la biologie. Mon objectif final est de modéliser différents types de cellules avec un programme informatique. Pour le moment, j'essaie juste de faire quelques petits pas.

Tout d'abord, j'ai téléchargé un génome humain complet à partir de http://hgdownload.cse.ucsc.edu/downloads.html#human Il existe un fichier FASTA pour chaque chromosome.

Ensuite, j'ai écrit un programme Java qui peut convertir les séquences d'ADN FASTA en la chaîne d'acides aminés appropriée.

Ensuite, j'ai fait rechercher dans mon programme le code "start" (ATG) et les codes "stop" (TAA, TAG, TGA).

Donc, maintenant j'ai des séquences d'acides aminés qui pourraient théoriquement finir par se replier en protéines. Mais, avant de commencer à plonger dans le repliement des protéines, je voulais essayer de vérifier que les étapes que j'ai suivies jusqu'à présent ont été effectuées correctement. J'ai recherché des gènes humains importants dans une base de données en ligne et trouvé leurs séquences d'acides aminés. J'ai ensuite recherché ces séquences dans les données de mon programme et j'ai confirmé qu'elles étaient là. Cependant, le gène était dans un emplacement de paire de bases différent de celui indiqué dans la base de données.

Cela m'a amené à quelques questions auxquelles, jusqu'à présent, je n'ai pas été en mesure de répondre et j'espère que les gens ici pourront aider à faire la lumière.

  1. Je sais qu'il existe de nombreux génomes différents accessibles au public. Peut-être que celui de l'UCSC que j'ai téléchargé est différent de celui utilisé par la base de données génétique. Dans quelle mesure chaque génome varie-t-il les uns des autres et de quelles manières varient-ils ?

  2. En essayant de répondre à cette première question, j'allais télécharger un tas de génomes sur le site Web 1000genomes et faire quelques comparaisons, mais je n'étais pas sûr des fichiers à télécharger. Chacun des fichiers commence par ERR ou SRR et je ne sais pas ce que cela signifie. C'est le dossier que je recherche actuellement dans ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/data/HG00239/sequence_read/

  3. Disons que j'essaie de modéliser un globule blanc. Comment savoir quelles parties du génome sont transformées en protéines pour ce type de cellule ?

Désolé si ce que j'ai dit n'a pas de sens. Comme je l'ai dit, mon expertise réside dans la programmation, pas dans la biologie/génétique.


Non, votre approche ne fonctionnera pas, vous adoptez une vision très simpliste d'un système extrêmement complexe. Certains des problèmes que vous ignorez sont :

  • Les gènes (des gènes eucaryotes de toute façon) sont épissés pour produire de l'ARNm, un processus qui supprime les introns et ne laisse que les exons. Si vous traduisez simplement l'intégralité du fichier de chromosomes, vous obtiendrez du bruit.

  • L'épissage modifie également le cadre dans lequel un gène est lu, vous ne mentionnez pas du tout les cadres dans votre question, mais vous ne pouvez pas travailler avec des séquences à moins que vous ne les traitiez.

  • De nombreux gènes (la plupart même, chez certaines espèces) sont épissés alternativement. Un gène peut donner naissance à plusieurs séquences protéiques. Celui qui est produit à un moment donné peut dépendre d'une multitude de facteurs allant du pur hasard aux conditions environnementales en passant par le type de cellule où le gène est exprimé.

  • Des gènes peuvent être présents sur les deux brins d'ADN et un gène sur le brin + peut chevaucher un gène sur le brin -. Dans certains cas, ils peuvent même se chevaucher sur le même brin (gènes imbriqués). Vous devez vérifier les deux brins pour les séquences codantes.

  • Vous supposez que toutes les séquences codantes commencent par ATG (la plupart le font, pas toutes) et vous semblez supposer qu'un ATG commence toujours une séquence codante. Un gène donné peut avoir des dizaines ou des centaines de codons ATG, comment savoir lequel est utilisé comme codon START ?

Le processus d'identification des parties du génome qui sont traduites en protéines n'est pas anodin. Elle fait l'objet d'innombrables thèses de doctorat, la mienne par exemple. Il existe de nombreux programmes (prédicteurs de gènes) conçus spécifiquement pour détecter des gènes dans des séquences génomiques. Ayant passé de nombreuses années à travailler avec eux, je peux vous assurer qu'ils ne sont pas quelque chose que vous pouvez simplement préparer un après-midi. Ils ont tendance à impliquer des modèles très complexes de séquences codantes et non codantes et sont bien plus sophistiqués que la simple recherche de codons START et STOP. Essayer d'en écrire un sans connaître un parcelle plus sur la biologie que vous n'en avez l'air n'est qu'une perte de temps.

Vos questions spécifiques ne sont fondamentalement pas pertinentes en raison des points mentionnés ci-dessus. Néanmoins, les réponses sont :

  1. Ils varient mais pas beaucoup. Pour les génomes bien annotés comme celui de l'homme, les différences seront négligeables. Ce n'est pas pour cela que vous avez des résultats étranges, comme je l'ai expliqué ci-dessus.

  2. Tous les sites FTP publics ont tendance à avoir un fichier README qui explique quels sont les fichiers fournis. Vous devriez lire le README pertinent de ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/

  3. En répondant à cette question, vous obtiendrez un prix Nobel. Il n'y a tout simplement aucun moyen de prédire quels gènes seront activés dans une cellule particulière. Nous ne sommes même pas proche à ce niveau de compréhension du fonctionnement d'une cellule, mais je peux vous dire que cela ne dépendra pas de la séquence, vous ne pourrez jamais prédire si un gène est actif dans une cellule particulière en fonction de sa séquence d'ADN. Cela dépendra de diverses choses, y compris l'état de méthylation du gène et est en grande partie une qualité émergente de la complexité de la cellule (pensez à diverses protéines interagissant les unes avec les autres, conduisant à l'activation d'un gène). Le mieux que vous puissiez faire est d'obtenir une liste de gènes connus pour être actifs dans la littérature.

En résumé, si vous voulez faire quelque chose d'aussi complexe que modéliser une cellule, je vous suggère de prendre d'abord le temps d'étudier quelques bases de biologie afin de mieux comprendre le système que vous essayez de modéliser. La cellule n'est pas seulement un système extrêmement complexe que nous ne comprenons pas encore complètement, elle n'est pas non plus entièrement déterministe et contient beaucoup de stochasticité que vous semblez ignorer complètement.


Pourquoi s'embêter à mal prédire les protéines à partir de la séquence d'ADN alors que vous auriez tout aussi bien pu télécharger le protéome humain organisé manuellement ?

Quant à vos questions :

  1. Vous posez des questions sur les génomes humains ou les génomes en général ? La grande majorité de la variance dans les génomes humains est dans la séquence non codante. Quant aux génomes en général, ils varient à peu près de toutes les manières imaginables.

  2. Je pense que ces fichiers sont des lectures Illumina filtrées par la qualité. SRA = Séquence Lire Atteindre. SRR = adhésion SRA RUN. ERA = EMBL SRA. ERR = adhésion à ERA RUN.

  3. Vous devriez examiner les données de transcriptomique. Prédire de telles choses in silico est actuellement pratiquement impossible à faire.


Le recrutement médié par des microprotéines de CONSTANS dans un complexe trimère TOPLESS réprime la floraison chez Arabidopsis

Affiliations Centre for Plant Molecular Biology, University of Tübingen, Tübingen, Allemagne, Copenhagen Plant Science Centre, University of Copenhagen, Copenhague, Danemark, Department for Plant and Environmental Sciences, University of Copenhagen, Copenhague, Danemark

Affiliations Centre for Plant Molecular Biology, University of Tübingen, Tübingen, Allemagne, Copenhagen Plant Science Centre, University of Copenhagen, Copenhague, Danemark, Department for Plant and Environmental Sciences, University of Copenhagen, Copenhague, Danemark

Affiliations Centre for Plant Molecular Biology, University of Tübingen, Tübingen, Allemagne, Copenhagen Plant Science Centre, University of Copenhagen, Copenhague, Danemark, Department for Plant and Environmental Sciences, University of Copenhagen, Copenhague, Danemark

Affiliations Centre for Plant Molecular Biology, University of Tübingen, Tübingen, Allemagne, Copenhagen Plant Science Centre, University of Copenhagen, Copenhague, Danemark, Department for Plant and Environmental Sciences, University of Copenhagen, Copenhague, Danemark

Affiliations Centre for Plant Molecular Biology, University of Tübingen, Tübingen, Allemagne, Copenhagen Plant Science Centre, University of Copenhagen, Copenhague, Danemark, Department for Plant and Environmental Sciences, University of Copenhagen, Copenhague, Danemark

Affiliation Leibniz Institute of Plant Genetics and Crop Plant Research, Gatersleben, Allemagne

Affiliations Centre for Plant Molecular Biology, University of Tübingen, Tübingen, Allemagne, Copenhagen Plant Science Centre, University of Copenhagen, Copenhague, Danemark, Department for Plant and Environmental Sciences, University of Copenhagen, Copenhague, Danemark


Résumé

Les lignées cellulaires d'ovaire de hamster chinois (CHO) représentent le système d'expression mammifère le plus couramment utilisé pour la production de protéines thérapeutiques. Dans ce contexte, une connaissance détaillée du transcriptome des cellules CHO pourrait aider à améliorer les processus biotechnologiques conduits par des lignées cellulaires spécifiques. Néanmoins, très peu de séquences d'ADNc assemblées de cellules CHO ont été rendues publiques jusqu'à récemment, ce qui limite considérablement la recherche biotechnologique. Deux systèmes d'annotation étendus et outils Web, l'un pour parcourir les génomes eucaryotes (GenDBE) et l'autre pour visualiser les transcriptomes eucaryotes (SAMS), ont été établis comme première étape vers une plate-forme d'analyse du génome/transcriptome des cellules CHO utilisable par le public. Ceci est complété par le développement d'une nouvelle stratégie pour assembler le ca. 100 millions de lectures, séquencées à partir d'un large éventail de transcrits divers, jusqu'à un ensemble de transcrits de cellules CHO de haute qualité. Les bibliothèques d'ADNc ont été construites à partir de différentes lignées cellulaires CHO cultivées dans diverses conditions de culture et séquencées à l'aide des technologies de séquençage Roche/454 et Illumina en plus des lectures de séquençage d'une étude précédente. Deux pipelines pour étendre et améliorer les transcrits de la lignée cellulaire CHO ont été établis. D'abord, de novo les assemblages ont été réalisés avec les assembleurs Trinity et Oases, en utilisant différentes tailles de k-mer. Les contigs résultants ont été criblés pour des CDS potentiels en utilisant ESTScan. Les contigs redondants ont été filtrés à l'aide de cd-hit-est. Les contigs CDS restants ont été réassemblés avec CAP3. Deuxièmement, un assemblage basé sur des références avec le pipeline TopHat/Cufflinks a été réalisé, en utilisant comme référence le projet de séquence du génome de CHO-K1 récemment publié. De plus, le de novo les contigs ont été mappés sur le génome de référence à l'aide de GMAP et fusionnés avec l'assemblage Cufflinks à l'aide du logiciel cuffmerge. Avec cette approche, 28 874 transcrits situés sur 16 492 loci de gènes ont pu être assemblés. En combinant les résultats des deux approches, 65 561 transcrits ont été identifiés pour les lignées cellulaires CHO, qui pourraient être regroupés par identité de séquence en 17 598 groupes de gènes.

Citation: Rupp O, Becker J, Brinkrolf K, Timmermann C, Borth N, Pühler A, et al. (2014) Construction d'une base de données publique de transcription de lignées cellulaires CHO à l'aide de pipelines d'analyse bioinformatique polyvalents. PLoS ONE 9(1) : e85568. https://doi.org/10.1371/journal.pone.0085568

Éditeur: Christophe Antoniewski, CNRS UMR7622 & Université Paris 6 Pierre-et-Marie-Curie, France

A reçu: 1er octobre 2013 Accepté: 3 décembre 2013 Publié : 10 janvier 2014

Droits d'auteur: © 2014 Rupp et al. Il s'agit d'un article en libre accès distribué selon les termes de la licence d'attribution Creative Commons, qui permet une utilisation, une distribution et une reproduction sans restriction sur n'importe quel support, à condition que l'auteur et la source d'origine soient crédités.

Le financement: Le projet est cofinancé par l'Union européenne (Fonds européen de développement régional - Investir dans votre avenir) et l'État fédéral allemand de Rhénanie du Nord-Westphalie (NRW). JB accuse réception d'une bourse du CLIB Graduate Cluster Industrial Biotechnology (http://www.graduatecluster.net/). CT est financé par Ziel2.NRW (http://www.ziel2.nrw.de/), le Fonds européen de développement régional et Ministerium für Innovation, Wissenschaft und Forschung des Landes Nordrhein-Westfalen (MIWF). NB reconnaît le financement par ACIB (http://lamp3.tugraz.at/

acib/index.php/wbindex/start), un centre COMET K2 de la FFG autrichienne. Les bailleurs de fonds n'ont joué aucun rôle dans la conception de l'étude, la collecte et l'analyse des données, la décision de publier ou la préparation du manuscrit.

Intérêts concurrents : Les auteurs ont déclaré qu'ils n'existaient pas de conflit d'intérêts.


MSACL 2017 US Résumé

Tao Huan (présentateur)
L'institut de recherche Scripps

Biographie : Je suis chercheur associé au laboratoire de Gary Siuzdak au Centre de métabolomique et de spectrométrie de masse du Scripps Research Institute (La Jolla, CA). Mes intérêts de recherche portent sur le développement et l'application de technologies basées sur la spectrométrie de masse pour la métabolomique. Un aspect important de ma recherche est d'inventer de nouveaux outils bioinformatiques pour fournir un traitement de données métabolomique et une intégration multi-omiques pratiques. Avant de rejoindre le laboratoire Siuzdak, j'ai obtenu mon doctorat. diplôme en chimie analytique de l'Université de l'Alberta sous la supervision du Dr Liang Li et mon sujet de thèse était la métabolomique basée sur la LC-MS de marquage isotopique chimique.

Paternité: Tao Huan, Duane Rinehart, H Paul Benton, Erica Forsberg, Jose Rafael Montenegro Burke, Mingliang Fang, Aries Aisporna et Gary Siuzdak
Institut de recherche Scripps, La Jolla, Californie

Au cours des 15 dernières années, la métabolomique est devenue une technologie puissante pour interroger la biochimie cellulaire, effectuer des tests de diagnostic et caractériser les mécanismes biochimiques de la maladie. Grâce aux développements innovants en informatique, aux technologies analytiques et à l'intégration d'approches biologiques orthogonales, il est désormais possible d'étendre les analyses métabolomiques à la compréhension des effets des métabolites au niveau des systèmes. Dans ce travail, nous avons incorporé des technologies au niveau des systèmes dans XCMS, une plate-forme métabolomique largement utilisée, pour mieux comprendre les mécanismes de progression de la maladie dans les applications cliniques. Notre plate-forme permet aux utilisateurs de cartographier directement les données métabolomiques sur les voies métaboliques en « un clic » et d'effectuer une intégration multi-omique avec des données d'épigénome, de variations génétiques, de génome, de transcriptome et de protéome auto-téléchargées et/ou archivées dans une base de données. approcher.

Alors que le succès de la métabolomique a été motivé par les progrès de la spectrométrie de masse et de l'analyse RMN, les développements des ressources bioinformatiques pour le traitement des données ont été tout aussi importants. Par exemple, le logiciel métabolomique largement utilisé XCMS Online(1), développé par notre laboratoire, a été la pierre angulaire du domaine et est utilisé par des milliers de chercheurs dans le monde. Actuellement, XCMS Online compte plus de 13 000 utilisateurs enregistrés dans plus de 180 pays et sa base d'utilisateurs augmente quotidiennement. Ces statistiques reflètent la croissance rapide du domaine métabolomique et notre engagement à développer des outils analytiques intuitifs faciles à utiliser pour analyser des données métabolomiques complètes.

Dans ce travail, nous étendons davantage la capacité de la plate-forme XCMS Online et la portons à un nouveau niveau pour exécuter une analyse intégrative multi-omique. Pour atteindre cet objectif, nous avons d'abord mis en œuvre un algorithme de prédiction des voies métaboliques pour permettre la cartographie directe des données métabolomiques sur les voies métaboliques avant l'identification métabolique fastidieuse. Nous incorporons ensuite des bases de données transcriptomiques et protéomiques pour permettre l'analyse intégrative automatique des voies métaboliques dérégulées confirmées à partir des résultats métabolomiques. En outre, nous avons construit des bibliothèques pour inclure l'épigénome (méthylation de l'ADN) et les variations génétiques (polymorphismes nucléotidiques simples (SNP) et SNP associés aux traits) dans XCMS Online, ce qui permet aux utilisateurs de trouver l'association de ces éléments de régulation génique avec chaque gène spécifique, par voie dans un format interactif et lié aux résultats d'analyse dans XCMS Online. Pour démontrer ses performances, nous avons appliqué cette plate-forme de biologie des systèmes à une étude sur le cancer du côlon pour comprendre comment les régulations génétiques influencent la progression du cancer du côlon et le métabolisme du cancer.

Les informations sur les voies spécifiques aux espèces ont été archivées avec les voies et les gènes de Biocyc, les protéines d'Uniprot et les métabolites de KEGG et METLIN. Plus de 7600 espèces métaboliques sont fournies dans la plate-forme, y compris l'homme, la souris, la levure, etc.

En ce qui concerne les données épigénomiques, nous avons archivé les données de méthylation de l'ADN de 26 types de cancer de l'Atlas du génome du cancer (TCGA) et du vieillissement humain à partir d'ensembles de données accessibles au public via Gene Expression Omnibus (GEO) dans le NCBI. Il convient de noter que nous incluons également activement des données sur la méthylation de l'ADN pour d'autres maladies courantes (diabète, Alzheimer, etc.) et phénotypes (tels que la résistance aux médicaments ou la toxicomanie) via une recherche active et une demande basée sur l'utilisateur.

Les données SNP ont été acquises pour inclure tous les SNP connus dans les modèles humains et murins téléchargés via UCSC Genome. La version actuelle de la base de données SNP contient plus de 120 millions d'entrées et plus de 81 millions d'entrées pour HUMAN et MOUSE respectivement. En outre, les données sur les SNP associés aux traits ont également été incluses dans une catégorie distincte des études d'association à l'échelle du génome (GWAS) obtenues auprès du NCBI. Semblable à l'approche consistant à acquérir des données sur la méthylation de l'ADN, nous incluons activement ces SNP du référentiel de données NCBI.

Pour effectuer l'analyse des voies, un algorithme d'analyse d'enrichissement des voies métaboliques, mummichog(2), a été modifié et implémenté dans XCMS Online. Cet outil fonctionne directement sur la table de caractéristiques XCMS résultante pour révéler la pertinence biologique traitée des métabolites dérégulés sous la forme de réseaux et de voies métaboliques. De plus, pour effectuer une intégration multi-omique, les utilisateurs peuvent télécharger une liste de gènes et de protéines exprimés de manière différentielle. L'outil d'analyse multi-omique effectue ensuite l'appariement des gènes et/ou des protéines pour identifier les gènes et/ou les protéines qui se chevauchent à partir des données téléchargées par l'utilisateur sur les voies précédemment prédites révélées à partir des résultats de l'analyse des voies métaboliques.

L'épigénome et les variations génétiques jouent un rôle important dans la régulation des gènes et influencent de manière significative les voies métaboliques en aval. Par conséquent, nous avons mis en œuvre nos bases de données sur les variations épigénétiques et génétiques dans notre plate-forme d'analyse multi-omique pour permettre l'association de ces éléments de régulation génique avec chaque gène dérégulé spécifique à partir des données téléchargées par l'utilisateur. Nous augmentons davantage nos outils de visualisation de données pour afficher graphiquement la quantité et l'identification de ces résultats par voie dans un format interactif et liés aux résultats d'analyse dans XCMS Online. Cette intégration au niveau du système permet également les hyperliens vers des informations détaillées supplémentaires sur chaque méthylation de l'ADN et SNP, fournissant une analyse multi-omique complète.

Des échantillons de tissus du côlon appariés (tumeur vs normale) de 60 patients atteints de cancer du côlon ont été reçus et conservés dans un congélateur à -80 ºC. Des informations cliniques détaillées sont également disponibles pour les patients et les tumeurs (taille, métastases, localisation). Une fois les métabolites extraits d'échantillons de tissus avec des solvants organiques, des données métabolomiques complètes ont été acquises en utilisant HPLC-MS en mode positif ESI et HILIC-MS en mode négatif ESI. Les données métaboliques ont été traitées dans XCMS Online. Des données transcriptomiques et protéomiques complètes ont été téléchargées à partir du Cancer Genome Atlas (TCGA) et du Cancer Genome Atlas (TCGA), respectivement. L'analyse intégrative multi-omique a été réalisée dans XCMS Online.

Traditionnellement, dans les études métabolomiques, les métabolites importants sont réduits de l'ensemble de données métabolomiques en utilisant un changement de pli défini subjectivement, la valeur p et les intensités de signal, suivis d'une confirmation manuelle de l'identité.Les voies associées dans lesquelles les métabolites dérégulés sont impliqués sont déterminées puis comparées à des gènes et des protéines exprimés de manière différentielle à l'aide d'outils bioinformatiques ou par examen manuel, un processus globalement fastidieux et long. Dans notre stratégie, nous avons développé une approche en une étape au sein de XCMS Online pour établir facilement un lien direct entre les données métabolomiques et leur contenu biologique sous la forme de voies métaboliques. En outre, l'analyse intégrative de ces voies métaboliques est réalisée en corrélant les détails des voies métaboliques avec les variations épigénétiques, génétiques, transcriptomiques et protéomiques pour déchiffrer le réseau métabolique au niveau des systèmes.

Nous avons démontré cette plate-forme en utilisant une étude sur le cancer du côlon pour examiner les différences métaboliques entre des échantillons de cancer du côlon dérivés de patients et des tissus normaux (analyses appariées avec n = 30). Plus de 7 000 caractéristiques métaboliques ont été détectées (ID de travail public XCMS Online n° 1100254) et parmi elles, 10 % avaient une signification statistique avec des valeurs p inférieures à 0,01. Ces caractéristiques ont ensuite été utilisées pour prédire les voies métaboliques associées avec l'algorithme du choquemort. Des données complètes de transcriptomique et de protéomique RNAseq ont été acquises auprès du Cancer Genome Atlas (TCGA) et du Clinical Proteomic Tumor Analysis Consortium (CPTAC) sur des échantillons distincts (n = 44). Au total, plus de 10 000 ARNm significativement différenciés (changement de facteur ≥ 1,2, valeur p ≤ 0,01) et plus de 2 500 protéines statistiquement significatives (changement de facteur ≥ 1,2, valeur p ≤ 0,01) ont été utilisés pour corréler gènes et protéines avec des métabolites. Au total, dix voies métaboliques ont été identifiées avec une signification statistique (valeur p ≤ 0,01). Parmi eux, cinq des voies ont déjà été impliquées dans la progression du cancer. Plus précisément, nous avons remarqué que la voie de dégradation de la spermine et de la spermidine était dérégulée non seulement dans les concentrations de métabolites, mais aussi dans l'expression des gènes et les niveaux de synthèse des protéines. Cela démontre la puissance d'effectuer une analyse intégrative avec de vrais échantillons cliniques, ce qui nous permet d'avoir une vue au niveau du système du métabolisme du cancer. Plus important encore, l'analyse intégrative des données sur les variations épigénétiques et génétiques spécifiques au cancer du côlon archivées dans XCMS Online révèle plusieurs sites importants de SNP associés à la méthylation de l'ADN et au cancer du côlon qui n'ont pas été signalés auparavant. L'étude détaillée de leur importance biologique et clinique est toujours en cours.

Dans cette étude, nous avons développé une plate-forme de biologie des systèmes guidée par la métabolomique et l'avons implémentée dans les interfaces interactives XCMS pour répondre au besoin de nouveaux développements bioinformatiques dans la cartographie des voies et l'analyse multi-omique intégrative pour les applications cliniques. Cette interface rationalise l'interprétation des données métabolomiques pour fournir des résultats immédiatement repérables dans le contexte biologique. Cette plate-forme est conçue comme une ressource gratuite basée sur le cloud et est facilement utilisée par la communauté en ligne qui héberge désormais plus de 13 000 chercheurs enregistrés. En attendant, cette plate-forme de biologie du système est testée à l'aide d'un projet de recherche en cours sur le cancer du côlon, qui tente d'aborder la fonction biologique des régulations génétiques sur la progression du cancer du côlon. Cette application nous permet de comprendre systématiquement comment la progression du cancer et le métabolisme du cancer sont considérablement affectés par les facteurs de régulation génétique, tels que la méthylation de l'ADN et les SNP, se produisent dans les régions promotrices des gènes.

Références et remerciements :

1. R. Tautenhahn, G. J. Patti, D. Rinehart, G. Siuzdak, XCMS Online : une plate-forme Web pour traiter des données métabolomiques non ciblées. Chimie analytique 84, 5035-5039 (2012).

2. S. Li et al., Prédire l'activité du réseau à partir de la métabolomique à haut débit. Calcul PLoS. Biol 9, e1003123 (2013).


Discussion

L'étude du processus du cancer du poumon se développant d'un sous-type mortel, tel que l'AIS, au stade invasif a fourni des informations pour comprendre les mécanismes responsables de la détérioration de la maladie. Nous avons combiné les deux ensembles de données indépendants pour déduire des sous-réseaux spécifiques invasifs. Les modèles d'altération de l'expression génique ont tendance à être plus robustes que les mutations somatiques dans différents groupes de patients. Près de 98 % des DEG étaient les mêmes chez les patients GSE52248 et TCGA LUAD. Cependant, les gènes moteurs somatiques putatifs n'ont qu'un taux de chevauchement d'environ 13,4%, reflétant la forte hétérogénéité génétique de la maladie. Deux gènes, TRIM9 et CYP4F3, ont des modèles d'expression opposés entre les deux ensembles de données qui peuvent être expliqués par les divers modèles d'expression d'isoformes tels que HNF4A. Karthikeyani Chellappa et al. ont constaté que les diverses isoformes de HNF4A, surtout P2-HNF4α, ont montré différents modèles d'expression dans divers échantillons de tissus [19]. En tant que suppresseur de tumeur, HNF4A est généralement régulée à la baisse dans les échantillons de tumeur. Fait intéressant, ce gène était surexprimé dans les échantillons de tumeurs pulmonaires invasives par rapport à la normale des données GSE52248 et TCGA.

La taille du chromosome de GA affecte la solution optimale que l'algorithme est capable de trouver. Ici, la taille du chromosome est égale au nombre de gènes candidats qui interagissent directement ou indirectement avec les gènes semences. La distance de recherche maximale du gène de la graine était de trois pour notre construction de sous-réseaux. À la couche la plus externe des sous-réseaux, le nombre total de gènes candidats atteignait souvent 18 000, qui couvraient la majorité des gènes codant pour les protéines humaines (

23 000). Par rapport à l'algorithme glouton, GA peut identifier les sous-réseaux globaux optimaux associés à la maladie. La fonction fitness est un facteur important pour la recherche GA. Ici, nous avons utilisé des informations mutuelles pour calculer le score de fitness, qui a été estimé à l'aide de groupes d'expressions discrètes dérivés de valeurs d'expression continues. Lorsque la taille de l'échantillon est petite, le nombre de sous-réseaux finaux peut augmenter rapidement avec moins de stabilité. Ainsi, pour une petite taille d'échantillon, la construction de réseau basée sur GA peut nécessiter une fonction de fitness différente guidant le processus de recherche. En général, nous avons constaté qu'une plus grande taille d'échantillon pourrait conduire à des groupes de gènes optimaux plus stables.


La corrélation entre la taille du génome et le taux de méthylation de l'ADN chez les métazoaires

Les taux de méthylation totale de l'ADN sont bien connus pour varier considérablement entre les différents métazoaires. La distribution phylogénétique de cette variation, cependant, n'a pas été étudiée systématiquement. Nous combinons ici des données accessibles au public sur la teneur en méthylcytosine avec l'analyse des compositions nucléotidiques des génomes et des transcriptomes de 78 espèces de métazoaires pour retracer l'évolution de l'abondance et de la distribution de la méthylation de l'ADN. L'épuisement de CpG et l'enrichissement associé en dinucléotides TpG et CpA sont utilisés pour déduire l'intensité et la localisation de la méthylation germinale de CpG et pour estimer sa dynamique évolutive. Nous observons une corrélation positive de la méthylation relative des motifs CpG avec la taille du génome. Nous avons testé cette tendance avec succès en mesurant la méthylation totale de l'ADN par LC/MS chez des insectes orthoptères avec des tailles de génome très différentes : grillons domestiques, criquets migrateurs et sauterelles des prés. Nous émettons l'hypothèse que la corrélation observée entre le taux de méthylation et la taille du génome est due à une dépendance des deux variables de la taille effective de la population à long terme et est entraînée par l'accumulation de séquences répétitives qui sont généralement méthylées pendant les périodes de petite taille des populations. Ce processus peut aboutir à de grands génomes généralement méthylés tels que ceux des vertébrés à mâchoires. Dans ce cas, l'émergence d'une nouvelle voie de déméthylation et de nouvelles protéines de lecture pour la méthylcytosine peut avoir permis l'utilisation de la méthylation de la cytosine pour la régulation génique basée sur le promoteur. D'autre part, des populations importantes et persistantes peuvent conduire à une compression du génome et à la perte de la machinerie de méthylation de l'ADN, comme cela est observé, par exemple, chez les nématodes.

Ceci est un aperçu du contenu de l'abonnement, accessible via votre institution.


L'analyse du génome de 426 Africains trouve plus de 3 millions de nouvelles variantes

Un groupe international de chercheurs a effectué des analyses de séquençage d'ADN de 426 individus à . [+] explorer la diversité génomique à travers l'Afrique.

Dans un nouveau La nature étude, un groupe international de chercheurs a séquencé et analysé l'ADN de 426 individus à travers l'Afrique, trouvant plus de trois millions de variantes non décrites auparavant (c'est-à-dire des changements dans le génome).

L'ADN est composé de quatre paires de bases : adénine (A), cytosine (C), guanine (G) et thymine (T). Ces quatre bases constituent les gènes de notre ADN, de la même manière que les lettres de l'alphabet forment des mots et construisent collectivement des phrases.

Lorsqu'il s'agit d'explorer l'ADN, les scientifiques disposent de nombreux outils différents à portée de main. Par exemple, ils peuvent séquencer des gènes spécifiques via des panels de gènes, examiner des gènes qui codent pour des protéines via le séquençage de l'exome entier ou analyser toutes les régions de notre ADN à l'aide du séquençage du génome entier. Dans chaque cas, les scientifiques cartographieront l'ADN séquencé sur un génome de référence afin d'identifier toute différence dans les paires de bases, appelées variantes. Ces variantes peuvent jouer un rôle dans l'apparition de maladies ou peuvent n'avoir aucun effet connu.

Cependant, le génome de référence n'est pas représentatif de la diversité observée à travers le monde. De plus, dans le passé, il y a eu peu d'études génomiques à grande échelle en Afrique, en partie à cause de l'infrastructure de recherche limitée. Pour résoudre certains de ces problèmes, l'initiative H3Africa (Human, Heredity and Health in Africa) a été lancée pour faciliter la recherche et renforcer les capacités dans le but d'améliorer la santé des populations africaines.

Dans cette étude, les chercheurs ont analysé les données de séquençage du génome de 426 individus à travers l'Afrique, qui ont été recrutés dans le consortium H3Africa, le Southern African Human Genome Program et le Trypanosomiase Genomics Network du H3Africa Consortium (TryopanoGEN). J'ai parlé à deux co-auteurs, Zané Lombard et Adebowale A. Adeyemo, pour en savoir plus sur cette étude.

La fausse "Mona Lisa" se vend 3,4 millions de dollars

Une étude documente les changements dans le cerveau après l'infection au Covid-19

Le CDC enquête plus avant sur les cas d'inflammation cardiaque après la vaccination par Pfizer et Moderna Covid-19

"Cette [étude] est vraiment née d'un besoin d'avoir plus de données de référence sur le génome africain", explique Lombard, qui est scientifique médical principal à la division de génétique humaine du National Health Laboratory Service et professeur agrégé à la Faculté de la santé. École des sciences de pathologie de l'Université du Witwatersrand. « Nous faisons tous les deux partie du consortium H3Africa qui est financé par le NIH et le Wellcome Trust. La plupart des études, sinon toutes, ont besoin d'une sorte de données génomiques de référence parce que nous travaillons tous dans des populations africaines en examinant des maladies et des traits qui sont pertinents pour les populations africaines. C'était donc vraiment de ce point de vue qu'il serait bon d'ajouter des données supplémentaires de séquençage du génome entier uniquement au domaine public. »

« Lorsque nous parlons de certaines régions du monde, comme l'Afrique, qui sont sous-représentées dans les études de génomique, nous ne comprenons vraiment pas à quel point c'est vraiment grave », déclare Adeyemo, qui est médecin-scientifique et qui est également l'adjoint Directeur du Centre de recherche sur la génomique et la santé mondiale du NIH National Human Genome Research Institute (NHGRI). « Si vous regardez les études d'association à l'échelle du génome, qui sont considérées comme l'une des études génétiques de qualité supérieure les plus courantes que vous puissiez faire, seule une infime fraction est en fait réalisée chez des non-européens, et la plupart d'entre elles sont réalisées chez les Asiatiques de l'Est. Quand vous parlez même d'ascendance africaine, la plupart sont des Afro-Américains, pas des Africains en Afrique. [. ] donc vraiment, nous essayons de combler ces lacunes afin d'avoir de meilleures données, et aussi de meilleurs outils.

Adeyemo ajoute également que « l'Afrique est grande, c'est la patrie de l'humanité. Il compte plus de 2 000 groupes ethnolinguistiques. Seuls quelques-uns ont intégré des projets de séquençage à grande échelle. »

Dans cette étude, les chercheurs ont choisi de se concentrer uniquement sur les variantes d'un seul nucléotide (c'est-à-dire les modifications de l'ADN qui diffèrent par une seule paire de bases du génome de référence). Ils ont mené un certain nombre d'analyses, y compris l'identification de variantes ayant une pertinence clinique pour les populations africaines.

"Même en ajoutant seulement quelques centaines de génomes supplémentaires provenant de populations qui n'avaient pas été étudiées auparavant, nous avons découvert plus de trois millions de nouvelles variantes génomiques qui n'avaient pas été décrites auparavant", explique Lombard. « Nous avons pu utiliser certaines de ces variantes pour ensuite examiner des choses comme la migration à travers le continent africain [. ] L'une des choses que nous avons pu voir, c'est qu'il y a très probablement eu une route migratoire à travers l'Angola, à travers la Zambie, puis vers le reste de l'Afrique orientale et australe.

En outre, les chercheurs ont découvert que les variantes dommageables (c'est-à-dire « pathogènes ») affectant des gènes considérés comme médicalement pertinents étaient rares chez les 426 individus séquencés, mais qu'au lieu de cela, des variantes classées comme « probablement pathogènes » étaient couramment observées dans des gènes non considérés comme médicalement pertinents. .

"Un point critique ici est que si une variante est vraiment délétère et vraiment mauvaise en termes de survie, alors vous vous attendez à ce qu'elle ne soit pas courante. En d'autres termes, ce serait rare et pas courant du tout, car la plupart des personnes porteuses de cette variante mourront avant d'avoir des enfants », explique Adeyemo. «Ce que nos données ont montré, c'est que certaines variantes qui sont censées être très mauvaises étaient vraiment assez courantes dans les populations africaines, ce qui suggère qu'elles ne peuvent vraiment pas être si mauvaises et ne peuvent pas être délétères pour la survie si elles sont si courantes. En termes de génétique, vous dites que vous améliorez votre rendement parce que vous avez pu montrer que très probablement, certaines de ces variantes ont été mal classées et devraient être classées différemment.

Les résultats de cette étude ont été initialement partagés par le co-auteur Neil Hanchard, professeur adjoint au Baylor College of Medicine, lors de la séance plénière d'ouverture de la réunion annuelle 2019 de l'American Society of Human Genetics (ASHG). La publication de ces résultats dans La nature cette semaine était accompagnée d'un éditorial appelant à davantage de financement de la part de sources nationales et régionales à travers l'Afrique pour soutenir une telle recherche.

Pour l'avenir, Lombard et Adeyemo disent que cette étude est la première de ces analyses et que des efforts sont en cours pour analyser différents types de variation génétique dans les populations africaines, y compris les variantes structurelles et les séquences répétées.

« Nous sommes très fiers que cette étude ait été menée et réalisée sur le continent africain et avec nos partenaires aux États-Unis et au Royaume-Uni. Nous avons des chercheurs africains de plus de 24 institutions différentes à travers l'Afrique qui ont participé à cette étude », explique Lombard. "Je pense que c'est vraiment un grand exploit de voir ce genre d'étude à grande échelle conduite [par] le continent africain."


Portail de métagénomique marine (MMP) accessible au public

Le 26 juin, le Conseil norvégien de la recherche a annoncé la poursuite du financement d'ELIXIR Norvège - et 18 autres propositions de financement d'infrastructures soumises en octobre 2016. ELIXIR Norvège est dirigée par le professeur Inge Jonassen, chef de l'unité de biologie computationnelle à l'Université de Bergen, et comprend l'Université d'Oslo, NTNU, NMBU et l'Université de Tromsø en tant que partenaires.

Le financement porte sur la période 2017-2022 et nous permettra de poursuivre et de renforcer nos solutions d'infrastructure - y compris NeLS, notre service d'assistance national et nos activités de formation, et non des moindres notre rôle en tant que nœud dans l'infrastructure européenne ELIXIR, a déclaré Jonassen.

En savoir plus sur les 19 projets d'infrastructure financés ici et les projets UiB ici (NB norvégien).

Les bases de données marines MarRef, MarDb et MarCat ont été présentées lors de la réunion ELIXIR All-Hands à Rome le 21/3 2017, et sont désormais accessibles au public. Ce projet est un livrable international du projet ELIXIR-EXCELERATE.

Les ressources marines, qui ont été mises en œuvre dans le portail de métagénomique marine (MMP), sont une collection de bases de données contextuelles (métadonnées) et de séquences richement annotées et gérées manuellement, représentant trois niveaux de précision.

Alors que MarRef est une base de données pour les génomes procaryotes marins complètement séquencés, qui représentent une base de données de génomes procaryotes marins de référence, MarDb inclut tous les génomes procaryotes marins séquencés quel que soit le niveau d'exhaustivité. MarCat représente un catalogue de gènes (protéines) de gènes et de protéines marins non cultivables (et cultivables) dérivés d'échantillons métagénomiques.

Les premières versions de MarRef et MarDb contiennent respectivement 484 et 2557 entrées. Chaque enregistrement est constitué de 104 champs de métadonnées comprenant des attributs pour l'échantillonnage, le séquençage, l'assemblage et l'annotation en plus des informations sur l'organisme et la taxonomie.

Les bases de données contextuelles et séquentielles de Mar et sont disponibles sur https://mmp.sfb.uit.no/

ELIXIR Finlande et ELIXIR Estonie ont organisé avec succès un Forum ELIXIR Innovation et PME de deux jours à Helsinki les 27 et 28 mars 2017.

L'événement de deux jours a présenté certaines des ressources bioinformatiques en génomique et en santé disponibles via ELIXIR et a présenté plusieurs entreprises qui utilisent déjà des ressources de données publiques dans leur entreprise.

Cinquante participants d'entreprises, d'institutions académiques et de partenaires ELIXIR ont eu la chance d'entendre des présentations des activités ELIXIR en Europe, en particulier en Finlande et en Estonie. Des exposés ont été donnés par deux PME, Blueprint Genetics (Finlande) et Protobios (Estonie), toutes deux utilisatrices actives de données publiques. Des représentants d'ELIXIR Nodes et d'entreprises ont également présenté leurs technologies, services et produits lors d'une série de conférences éclair. Lire la suite

Les scientifiques du monde entier peuvent désormais découvrir et interroger les données de projets de génomique dans six pays différents d'Europe. Cela a été un succès de la collaboration ELIXIR avec l'Alliance mondiale pour la génomique et la santé (GA4GH) sur le projet Beacon qui a été récemment étendu et prolongé jusqu'en 2017.

Le projet Beacon développe une plate-forme de partage ouverte qui aide les centres de données génomiques à rendre leurs données détectables. Les balises permettent aux chercheurs d'interroger des ensembles de données individuels pour déterminer s'ils contiennent une variante génétique spécifique d'intérêt. Par exemple, les chercheurs peuvent poser des questions simples aux Beacons comme : « Vos ressources de données ont-elles des génomes avec cet allèle à cette position ? »

La première étape du projet (2015-2016) a abouti à l'éclairage de Beacons dans cinq nœuds ELIXIR - Suède, Finlande, France, Suisse et Belgique, et dans l'archive européenne du génome-phénome (EGA, un projet conjoint de l'EMBL-EBI et du Centre de Régulation Génomique de Barcelone, ELIXIR Espagne). Une autre balise sera bientôt lancée dans ELIXIR Pays-Bas. Chaque balise ELIXIR rend un ou plusieurs ensembles de données génomiques découvrables à la communauté internationale de la recherche. Lire la suite

Les directives récemment publiées par Google pour la découverte d'ensembles de données scientifiques aident les fournisseurs de données à décrire leurs ensembles de données de manière structurée à l'aide de schema.org, permettant aux moteurs de recherche Internet de trouver et d'indexer des métadonnées riches pour mieux présenter les ensembles de données scientifiques Les directives publiées s'appuient sur les spécifications des métadonnées pour les ensembles de données des sciences de la vie développés par BioSchemas. L'un des premiers à avoir adopté les spécifications est l'indice de découverte Omics (OmicsDI), qui a été présenté comme un exemple de bonne pratique dans un récent article du blog Google Research.OmicsDI a été développé par EMBL-EBI et soutenu par BD2K, et est un membre actif de la communauté BioSchemas. Il fournit un service de découverte d'ensembles de données sur un groupe hétérogène et distribué de données -omiques provenant de huit référentiels à travers le monde.

BioSchemas est une initiative communautaire ouverte pilotée par ELIXIR pour améliorer l'interopérabilité des données des sciences de la vie. En s'appuyant sur le balisage schema.org et en l'étendant, Bioschemas développe une collection de spécifications qui fournissent des directives pour décrire les métadonnées sur les informations des sciences de la vie. Outre les ensembles de données des sciences de la vie, BioSchemas travaille sur des spécifications pour des échantillons, des phénotypes, des référentiels de données ou des séquences de protéines.

Pour soutenir le travail de Bioschemas, ELIXIR a récemment lancé l'étude de mise en œuvre des BioSchemas. Les principaux partenaires de l'étude sont BBMRI, BD2K et FORCE11, mais elle bénéficie du soutien de plus de 40 parties prenantes. Le groupe BioSchemas pour les ensembles de données des sciences de la vie comprend des représentants de PDBe, UniProt, Pfam, DataMed et DATS, Repositive, OmicsDI, Intermine et Google. Lire la suite

La Hongrie est devenue le 21e membre à rejoindre ELIXIR, suite à la signature de l'accord de consortium ELIXIR par le Dr József Pálinkás, président du Bureau national de la recherche, du développement et de l'innovation en Hongrie.

Le nœud ELIXIR en Hongrie est actuellement en cours de développement. Le nœud ELIXIR sera dirigé par le Centre de recherche MTA pour les sciences naturelles et coordonné par le professeur Laszlo Patthy de l'Institut d'enzymologie au sein du Centre de recherche pour les sciences naturelles de l'Académie hongroise des sciences. Le nœud hongrois se concentrera sur de nouveaux outils, services et bases de données dans le domaine de l'investigation de la séquence et de la structure des protéines, de l'analyse des séquences d'ADN et de la médecine translationnelle.

« Notre adhésion à ELIXIR nous aidera à maintenir et à protéger nos investissements nationaux dans les sciences de la vie en reliant notre communauté de recherche et nos ressources à l'infrastructure ELIXIR », a déclaré le professeur Laszlo Patthy. À leur tour, l'Europe et les nœuds ELIXIR existants bénéficieront de l'expertise et des ressources hongroises. en biologie des systèmes et computationnelle.

Le Dr Niklas Blomberg, directeur d'ELIXIR, a déclaré : « En seulement trois ans depuis son lancement en décembre 2013, le nombre de membres d'ELIXIR est passé de six membres fondateurs à 21 actuellement. Je suis ravi d'accueillir nos collègues hongrois à ELIXIR et j'attends avec impatience notre L'adhésion hongroise à ELIXIR ouvrira des opportunités pour de nouvelles collaborations et profitera à la fois à la communauté hongroise et européenne des sciences de la vie et de la bioinformatique.

En réponse à la consultation publique de l'Union européenne sur l'évaluation intermédiaire d'Horizon 2020, ELIXIR a publié son Position Paper sur Horizon 2020, le programme de financement de l'Union européenne pour la recherche et le développement.

Le document comprend des recommandations qui pourraient être adoptées pour le rappel d'Horizon 2020, ainsi que plusieurs suggestions à plus long terme à considérer pour un programme successeur. Lire la suite

Les actualités publiées sur cette page sont des reportages sur les activités bioinformatiques en général, et sur la plateforme bioinformatique norvégienne en particulier. Si vous avez des suggestions d'actualités que vous jugez pertinentes pour les utilisateurs de ce portail, veuillez nous en informer.

Envoyez le titre et le texte de l'actualité à :

Merci d'avoir contribué au portail de la plateforme norvégienne de bioinformatique.


Conclusion

Notre objectif principal est d'identifier les SNP et les INDEL génétiques putatifs liés au circRNA au niveau du génome. Dans la version actuelle, nous n'avons pas exploré les variantes structurelles qui pourraient comprendre plusieurs circRNAs. Par conséquent, il n'est pas facile d'évaluer les effets fonctionnels d'un seul circRNA à partir de ces centaines de circRNA affectés. En somme, ces variantes génétiques pré-calculées des circRNAs fournissent une ressource complète pour découvrir la similitude ou l'unicité des changements génétiques pour tous les circRNAs rapportés. En somme, ces variantes génétiques pré-calculées des circARN fournissent une ressource complète pour la découverte de la similitude ou de l'unicité des changements génétiques pour tous les circARN signalés. Par exemple, des études antérieures ont indiqué que les gènes codant pour les protéines sont inégalement répartis sur 24 chromosomes, parmi lesquels les densités de gènes sur les chromosomes 1, 11 et 19 sont particulièrement élevées [17]. Notre distribution de circRNA a confirmé la densité élevée de circRNA sur le chromosome 19. Fait intéressant, nous avons également trouvé plus de circRNAs groupés sur le chromosome 17, ce qui est différent de la densité des gènes codant pour les protéines.

La version actuelle de circVAR contient : i) 93 708 variants génétiques annotés avec des informations sur le phénotype provenant d'études associées à l'ensemble du génome (données GWAS de GWASCatalog) ii) 1 858 343 variants génétiques bien classés avec des applications cliniques de la base de données ClinVAR iii) 2 597 987 variants somatiques dans le cancer tissus de la base de données COSMIC et iv) 26 361 367 variantes communes des données du projet 1000 génomes. Notre interface Web permet également aux utilisateurs d'effectuer des requêtes de texte et de parcourir les circRNAs en fonction de leurs gènes cartographiés et de leurs sources de données. Pour une analyse bioinformatique avancée, nous avons fourni les fichiers téléchargeables en masse pour tous les circRNAs avec les deux coordonnées génomiques les plus populaires (GRCH 37 et GRCH 38). De plus, plus de 30 Go de fichiers d'annotation de variants génétiques ont été fournis pour la majorité des circRNAs.

Bien que l'intégration et la cartographie poussées des variantes circRNA fournissent un modèle pour les caractéristiques génétiques générales, il existe davantage de données circRNA générées à partir de divers tissus. Notre objectif est d'incorporer plus de circRNAs humains en organisant les circRNAs à partir des données RNAseq à l'avenir. Avec les applications cliniques et thérapeutiques potentielles des circRNAs, la diversité génétique dans diverses populations humaines deviendra l'une des clés pour évaluer son risque. En outre, nous pouvons également mener la méta-analyse plus approfondie sur les variantes liées au circRNA avec des phénotypes cliniques, car la majorité des hits GWAS sont cartographiés dans des régions non codantes telles que les lncRNAs ou les circRNAs.


Bienvenue sur JIB.tools !

La liste officielle des outils bioinformatiques pour le Journal of Integrative Bioinformatics (JIB).

Tous les outils bioinformatiques publiés dans JIB sont automatiquement ajoutés à JIB.tools, les premiers auteurs ayant la possibilité de modifier leurs entrées et d'importer directement les informations sur les outils dans bio.tools.

Pour mieux comprendre le comportement dynamique des réseaux métaboliques dans une grande variété de conditions, le domaine de la biologie des systèmes a accru son intérêt pour l'utilisation de modèles cinétiques. Les différentes bases de données, disponibles de nos jours, ne contiennent pas assez de données sur ce sujet. Étant donné qu'une partie importante des informations pertinentes pour le développement de tels modèles est encore largement répandue dans la littérature, il devient essentiel de développer des outils de text mining spécifiques et puissants pour collecter ces données. Dans ce contexte, ce travail a pour objectif principal le développement d'un outil de text mining pour extraire, à partir de la littérature scientifique, des paramètres cinétiques, leurs valeurs respectives et leurs relations avec les enzymes et les métabolites. L'approche proposée intègre le développement d'un nouveau plug-in sur le framework d'exploration de texte @Note2. Au final, le pipeline développé a été validé avec une étude de cas sur Kluyveromyces lactis, couvrant l'analyse et les résultats de 20 documents en texte intégral.

  • Alão Freitas A, Costa H, Rocha I. Extraction d'informations cinétiques de la littérature avec KineticRE. J Intégrer Bioinform. 201512(4). doi 10.2390/biecoll-jib-2015-282 PubMed 26673933
  • Castellanos-garzón JA, Díaz F. Un cadre évolutif et visuel pour le regroupement de données de puces à ADN. J Intégrer Bioinform. 201310(3) :232. doi 10.2390/biecoll-jib-2013-232 PubMed 24231146

Application de bureau
Analyse de séquence
Les méthodes du maximum de vraisemblance basées sur des modèles de substitution de codon ont été largement utilisées pour déduire des sites d'acides aminés positivement sélectionnés qui sont responsables des changements adaptatifs. Néanmoins, pour utiliser une telle approche, des applications logicielles sont nécessaires pour aligner les séquences de protéines et d'ADN, déduire un arbre phylogénétique et exécuter les modèles de probabilité maximale. Par conséquent, un effort important est fait afin de préparer les fichiers d'entrée pour les différentes applications logicielles et dans l'analyse de la sortie de chaque analyse. Dans cet article, nous présentons le logiciel ADOPS (Automatic Detection Of Positively Selected Sites). Il a été développé dans le but de fournir un outil automatique et flexible pour détecter des sites sélectionnés positivement à partir d'un ensemble de données de séquences nucléotidiques non alignées. Un exemple de l'utilité d'un tel pipeline est donné en montrant, dans différentes conditions, des sites d'acides aminés positivement sélectionnés dans un ensemble de 54 séquences S-RNase putatives de Coffea. Le logiciel ADOPS est disponible gratuitement et peut être téléchargé sur http://sing.ei.uvigo.es/ADOPS.

  • Reboiro-jato D, Reboiro-jato M, Fdez-riverola F, Vieira CP, Fonseca NA, Vieira J. ADOPS--Détection automatique de sites sélectionnés positivement. J Intégrer Bioinform. 20129(3) : 200. doi 10.2390/biecoll-jib-2012-200 PubMed 22829571

Dans cet article de démonstration, nous esquissons B-Fabric, une solution tout-en-un pour la gestion des données des sciences de la vie. B-Fabric a deux objectifs principaux. Tout d'abord, c'est un système de gestion intégrée des données expérimentales et des annotations scientifiques. Deuxièmement, il s'agit d'une infrastructure système prenant en charge le couplage à la volée d'applications utilisateur et servant ainsi de plate-forme extensible pour une recherche collaborative de pointe au rythme rapide.

  • Türker C, Akal F, Schlapbach R. Intégration des données et des applications des sciences de la vie avec B-Fabric. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-159 PubMed 21772064

BacillOndex est une extension du système d'intégration de données Ondex, fournissant une base de connaissances intégrée et annotée sémantiquement pour le modèle de bactérie Gram-positive Bacillus subtilis. Cette application permet à un utilisateur d'exploiter une variété de sources de données de B. subtilis et d'analyser l'ensemble de données intégré résultant, qui contient des données sur les gènes, les produits géniques et leurs interactions. Les données peuvent être analysées soit manuellement, en naviguant à l'aide d'Ondex, soit de manière informatique via une interface de services Web. Nous décrivons le processus de création d'une instance BacillOndex et décrivons l'utilisation du système pour l'analyse des polymorphismes nucléotidiques simples chez B. subtilis Marburg. La souche Marburg est l'ancêtre de la souche de laboratoire largement utilisée B. subtilis 168. Nous avons identifié 27 SNP avec des effets phénotypiques prévisibles, y compris des traits génétiques pour des phénotypes connus. Nous concluons que BacillOndex est un outil précieux pour l'enquête au niveau des systèmes et la génération d'hypothèses sur cet important cheval de bataille de la biotechnologie. Une telle compréhension contribue à notre capacité à construire des circuits génétiques synthétiques dans cet organisme.

  • Misirli G, Wipat A, Mullen J, et al. BacillOndex : une ressource de données intégrée pour les systèmes et la biologie synthétique. J Intégrer Bioinform. 201310(2) :224. doi 10.2390/biecoll-jib-2013-224 PubMed 23571273

À mesure que les technologies à haut débit deviennent moins chères et plus faciles à utiliser, les données de séquence brutes et les annotations correspondantes pour de nombreux organismes deviennent disponibles. Cependant, les données de séquence à elles seules ne sont pas suffisantes pour expliquer le comportement biologique des organismes, qui résulte en grande partie d'interactions moléculaires complexes. Il est nécessaire de développer de nouvelles technologies de plate-forme pouvant être appliquées à l'étude d'ensembles de données du génome entier de manière efficace et rentable. L'une de ces approches est le transfert des connaissances existantes d'organismes bien étudiés à des organismes étroitement apparentés. Dans cet article, nous décrivons un système, BacillusRegNet, pour l'utilisation d'un organisme modèle, Bacillus subtilis, pour déduire des réseaux de régulation à l'échelle du génome chez des parents proches moins bien étudiés. Les facteurs de transcription putatifs, leurs séquences de liaison et les séquences de promoteur prédites ainsi que les annotations sont disponibles sur le site Web associé de BacillusRegNet (http://bacillus.ncl.ac.uk).

  • Misirli G, Hallinan J, Röttger R, Baumbach J, Wipat A. BacillusRegNet : Une base de données de régulation transcriptionnelle et une plate-forme d'analyse pour les espèces de Bacillus. J Intégrer Bioinform. 201411(2). doi 10.2390/biecoll-jib-2014-244 PubMed 25001169
  • Carreiro AV, Anunciação O, Carriço JA, Madère SC. Prédiction pronostique grâce à la classification basée sur le biclustering des séries chronologiques d'expression génique clinique. J Intégrer Bioinform. 20118(3). doi 10.2390/biecoll-jib-2011-175 PubMed 21926438

Cet article présente un nouveau kit logiciel d'entrepôt de données bioinformatiques qui intègre des informations biologiques provenant de plusieurs sources de données publiques des sciences de la vie dans un système de gestion de base de données local. Il se distingue des autres approches en fournissant des connaissances intégrées à jour, une indépendance de la plate-forme et de la base de données ainsi qu'une grande facilité d'utilisation et de personnalisation. Ce logiciel open source peut être utilisé comme infrastructure générale pour la recherche et le développement en bioinformatique intégrative. Les avantages de l'approche sont réalisés en utilisant une architecture système basée sur Java et une technologie de mappage objet-relationnel (ORM). Enfin, une application pratique du système est présentée dans le domaine émergent de la bioinformatique médicale pour montrer l'utilité de l'approche. Le logiciel d'entrepôt de données BioDWH est disponible pour la communauté scientifique à l'adresse http://sourceforge.net/projects/biodwh/.

  • Töpel T, Kormeier B, Klassen A, Hofestädt R. BioDWH : un kit d'entrepôt de données pour l'intégration des données des sciences de la vie. J Intégrer Bioinform. 20085(2). doi 10.2390/biecoll-jib-2008-93 PubMed 20134070

Outil de ligne de commande
Intégration et stockage des données
Comme les projets de recherche nécessitent plusieurs sources de données, la cartographie entre ces sources devient nécessaire. Les systèmes de workflow et les outils d'intégration utilisés doivent donc traiter de grandes quantités de formats de données hétérogènes, vérifier les mises à jour des sources de données et trouver des méthodes de mappage appropriées pour croiser les entités de différentes bases de données. BioDWH2 est un entrepôt de données et un outil de cartographie open source, basé sur des graphiques, capable d'aider les chercheurs à résoudre ces problèmes. Une approche centrée sur l'espace de travail permet des sélections de sources de données spécifiques au projet et les outils serveur Neo4j ou GraphQL permettent un accès rapide à la base de données pour l'analyse. Les outils BioDWH2 sont disponibles pour la communauté scientifique sur https://github.com/BioDWH2.

  • Friedrichs M. BioDWH2 : un entrepôt de données et un outil de cartographie automatisés basés sur des graphiques. J Integr Bioinform. 2021. doi 10.1155/jib-2020-0033 PubMed 33618440

L'étude des consortiums de microorganismes, également appelés biofilms, est associée à de nombreuses applications dans les domaines de la biotechnologie, de l'écotechnologie et de la clinique. De nos jours, les études sur les biofilms sont hétérogènes et gourmandes en données, englobant différents niveaux d'analyse. La modélisation informatique des études de biofilm est donc devenue une exigence pour donner un sens à ces volumes de données de biofilm vastes et en constante expansion. La justification du présent travail est un format lisible par machine pour représenter les études de biofilm et soutenir l'échange de données de biofilm et l'intégration de données. Ce format est pris en charge par la Biofilm Science Ontology (BSO), la première ontologie sur les informations sur les biofilms. L'ontologie est décomposée en un certain nombre de domaines d'intérêt, à savoir: l'ontologie de procédure expérimentale (EPO) qui décrit les procédures expérimentales de biofilm l'ontologie de morphologie des colonies (CMO) qui caractérise morphologiquement les colonies de micro-organismes et d'autres modules concernant le phénotype du biofilm, la sensibilité aux antimicrobiens et les traits de virulence . L'objectif global de BSO est de développer des ressources sémantiques pour capturer, représenter et partager des données sur les biofilms et les expériences associées de manière régularisée. En outre, le présent travail présente également un cadre d'aide à l'échange et à l'analyse de données sur les biofilms - BiofOmics (http://biofomics.org) - et un référentiel public sur les signatures morphologiques des colonies - MorphoCol (http://stardust.deb.uminho. pt/morphocol).

  • Sousa AM, Ferreira A, Azevedo NF, Pereira MO, Lourenço A. Approches computationnelles des données de biofilm conformes aux normes pour une analyse et une intégration fiables. J Intégrer Bioinform. 20129(3). doi 10.2390/biecoll-jib-2012-203 PubMed 22829574
  • Loyek C, Bunkowski A, Vautz W, Nattkemper TW. Web2.0 ouvre de nouvelles voies pour l'analyse collaborative et exploratoire des composés chimiques dans les données de spectrométrie. J Intégrer Bioinform. 20118(2) :158. doi 10.2390/biecoll-jib-2011-158 PubMed 21768655

La vitesse et la précision des nouvelles découvertes scientifiques - qu'elles soient humaines ou artificielles - dépendent de la qualité des données sous-jacentes et de la technologie permettant de connecter, rechercher et partager efficacement les données. Ces dernières années, nous avons assisté à l'essor des bases de données de graphes et des modèles de données semi-formels tels que les graphes de connaissances pour faciliter les approches logicielles de la découverte scientifique. Ces approches prolongent les travaux basés sur des modèles formalisés, comme le Web sémantique. Dans cet article, nous présentons nos développements pour connecter, rechercher et partager des données sur les réseaux de connaissances à l'échelle du génome (GSKN). Nous avons développé une ontologie d'application simple basée sur OWL/RDF avec des correspondances avec des schémas standard. Nous utilisons l'ontologie pour alimenter les services d'accès aux données tels que les URI résolvables, les points de terminaison SPARQL, les API Web JSON-LD et les graphes de connaissances basés sur Neo4j. Nous démontrons comment l'ontologie proposée et les bases de données de graphes améliorent considérablement la recherche et l'accès aux connaissances biologiques interopérables et réutilisables (c'est-à-dire les principes de données FAIRness).

  • Brandizi M, Singh A, Rawlings C, Hassani-Pak K. Vers des réseaux de connaissances biologiques FAIRer à l'aide d'une approche hybride de données et de bases de données graphiques. J Integr Bioinform. 201815(3). doi 10.1155/jib-2018-0023 PubMed 30085931

Compte tenu du grand impact potentiel du nombre croissant de reconstructions complètes de réseaux métaboliques à l'échelle du génome de micro-organismes, des outils bioinformatiques sont nécessaires pour simplifier et accélérer le cours des connaissances dans ce domaine. L'un des composants essentiels d'un modèle métabolique à l'échelle du génome est son équation de biomasse, dont la maximisation est l'une des fonctions objectives les plus couramment utilisées dans les formulations d'analyse d'équilibre de flux. Certains composants de la biomasse, tels que les acides aminés et les nucléotides, peuvent être estimés à partir des informations du génome, fournissant des données fiables sans avoir besoin d'effectuer des expériences de laboratoire. Dans ce travail, un outil Java est proposé pour estimer la composition de la biomasse microbienne en acides aminés et en nucléotides, à partir d'informations génomiques et transcriptomiques, en utilisant comme fichiers d'entrée des séquences au format FASTA et des fichiers avec des données transcriptomiques au format csv. Cette application permet d'obtenir les résultats rapidement et est également un outil convivial pour les utilisateurs peu ou pas familiarisés avec l'informatique (http://darwin.di.uminho.pt/biomass/). Les résultats obtenus à l'aide de cet outil sont assez proches des données expérimentales, montrant que l'estimation des compositions en acides aminés et en nucléotides à partir d'informations génomiques et de données transcriptomiques est une bonne alternative lorsqu'aucune donnée expérimentale n'est disponible.

  • Santos S, Rocha I. Estimation de la composition de la biomasse à partir d'informations génomiques et transcriptomiques. J Intégrer Bioinform. 201613(2):285. doi 10.2390/biecoll-jib-2016-285 PubMed 28187415

Alors que la technologie à haut débit, les techniques avancées de biochimie et de biologie moléculaire sont devenues de plus en plus puissantes, l'interprétation cohérente des résultats expérimentaux dans un contexte intégratif reste un défi.BioModelKit (BMK) aborde ce défi en offrant un cadre intégratif et polyvalent pour l'ingénierie des biomodèles basé sur un concept de modélisation modulaire dans le but : (i) de représenter les connaissances sur les mécanismes moléculaires par des sous-modèles exécutables cohérents (modules) donnés sous forme de réseaux de Petri équipés d'interfaces définies facilitant leur réutilisation et leur recombinaison (ii) pour composer des modèles complexes et intégratifs à partir d'un ensemble de modules choisis ad hoc comprenant différents niveaux omiques et d'abstraction avec la possibilité d'intégrer les aspects spatiaux (iii) pour favoriser la construction de modèles alternatifs en soit l'échange de versions de modules concurrents, soit la mutation algorithmique du modèle composé et (iv) proposer des concepts d'intégration de données (omiques) et d'intégration de ressources existantes, et ainsi faciliter leur réutilisation. BMK est accessible via une interface Web publique (www.biomodelkit.org), où les utilisateurs peuvent interagir avec les modules stockés dans une base de données et utiliser les fonctionnalités de composition du modèle. BMK facilite et encourage les prédictions et les hypothèses basées sur des modèles à plusieurs échelles soutenant la recherche expérimentale dans un échange multilatéral.

  • Blätke MA. BioModelKit - Un cadre intégratif pour l'ingénierie de biomodèles à plusieurs échelles. J Integr Bioinform. 201815(3). doi 10.1155/jib-2018-0021 PubMed 30205646

La visualisation des données biologiques a pris une importance croissante ces dernières années. Il existe un grand nombre de méthodes et d'outils logiciels disponibles qui visualisent les données biologiques, y compris la combinaison de données expérimentales mesurées et de réseaux biologiques. Avec la taille croissante des réseaux, leur gestion et leur exploration deviennent une tâche difficile pour l'utilisateur. En outre, les scientifiques ont également intérêt à étudier non seulement un seul type de réseau, mais également la combinaison de différents types de réseaux, tels que les réseaux métaboliques, de régulation des gènes et d'interaction protéique. Par conséquent, un accès rapide, des vues abstraites et dynamiques et des méthodes exploratoires intuitives devraient être fournis pour rechercher et extraire des informations des réseaux. Cet article présentera un cadre conceptuel pour la gestion et la combinaison de plusieurs sources de réseau qui permet la visualisation abstraite et l'exploration de grands ensembles de données, y compris des données expérimentales supplémentaires. Il présentera une structure à trois niveaux qui relie les données du réseau à plusieurs vues de réseau, discutera d'une mise en œuvre de la preuve de concept et montrera une méthode de visualisation spécifique pour combiner les réseaux métaboliques et de régulation génétique dans un exemple.

  • Klapperstück M, Schreiber F. BioNetLink - Une architecture pour travailler avec des données de réseau. J Intégrer Bioinform. 201411(2). doi 10.2390/biecoll-jib-2014-241 PubMed 24980619

La base de données BIOchemical PathwaY est développée en tant que ressource dynamique, facilement actualisable et organisée manuellement, d'informations sur les voies spécifiques aux cellules humaines, ainsi qu'une plate-forme informatique intégrée pour effectuer diverses analyses de voies. Actuellement, il comprend 46 voies, 3189 molécules, 5742 réactions et 6897 types différents de maladies liées aux protéines de voie, qui sont référencées par 520 littératures et 17 autres bases de données de voies. Avec son répertoire de données sur les voies biochimiques et ses outils informatiques pour effectuer des analyses topologiques, logiques et dynamiques, BIOPYDB propose aux biologistes expérimentaux et informatiques d'acquérir une compréhension globale des cascades de signalisation dans les cellules. La reconstruction automatisée d'images de voie, le référencement croisé de molécules de voie et les interactions avec d'autres bases de données et sources de littérature, des opérations de recherche complexes pour extraire des informations d'autres ressources similaires, une plate-forme intégrée pour le partage et le calcul de données de voie, etc. sont les fonctionnalités nouvelles et utiles incluses dans ce base de données pour la rendre plus acceptable et attrayante pour les utilisateurs des communautés de recherche sur les cheminements. Le service API RESTful est également mis à la disposition des utilisateurs avancés et des développeurs pour accéder plus facilement à cette base de données via leurs propres programmes informatiques.

  • Chowdhury S, Sinha N, Ganguli P, Bhowmick R, Singh V, Nandi S, Sarkar RR. BIOPYDB : Une base de données dynamique sur les voies biochimiques spécifiques aux cellules humaines avec une plate-forme d'analyses informatiques avancées. J Integr Bioinform. 201815(3). doi 10.1155/jib-2017-0072 PubMed 29547394

La métagénomique fournit des mesures quantitatives pour les espèces microbiennes au fil du temps. Pour obtenir une vue globale d'une expérimentation et explorer tout le potentiel d'un jeu de données donné, des outils de visualisation intuitifs et interactifs sont nécessaires. Par conséquent, nous avons créé BioSankey pour visualiser les espèces microbiennes dans les études de microbiome au fil du temps sous la forme d'un diagramme de Sankey. Ces diagrammes sont intégrés dans une page Web spécifique au projet qui ne dépend que de JavaScript et de l'API Google pour permettre des recherches d'espèces intéressantes sans nécessiter de serveur Web ou de connexion à une base de données. BioSankey est un outil précieux pour visualiser différents éléments de données à partir d'ensembles de données RNA-seq simples ou doubles et permet en outre un échange simple de résultats entre les partenaires de collaboration.

  • Platzer A, Polzin J, Rembart K, Han PP, Rauer D, Nussbaumer T. BioSankey: Visualisation des communautés microbiennes au fil du temps. J Integr Bioinform. 201815(4). doi 10.1155/jib-2017-0063 PubMed 29897884
  • Borowski K, Soh J, Sensen CW. Comparaison visuelle de plusieurs ensembles de données d'expression génique dans un contexte génomique. J Intégrer Bioinform. 20085(2). doi 10.2390/biecoll-jib-2008-97 PubMed 20134066

L'un des défis majeurs de la bio-informatique est d'intégrer et de gérer des données provenant de différentes sources ainsi que des données expérimentales de puces à ADN et de les présenter dans un format convivial. Par conséquent, nous présentons CardioVINEdb, une approche d'entrepôt de données développée pour interagir avec et explorer les données des sciences de la vie. L'architecture de l'entrepôt de données fournit une interface Web indépendante de la plate-forme qui peut être utilisée avec n'importe quel navigateur Web courant. Un composant de surveillance contrôle et met à jour les données des différentes sources pour garantir leur actualité. De plus, le système fournit un composant de visualisation « statique » et « dynamique » pour une exploration graphique interactive des données.

  • Kormeier B, Hippe K, Töpel T, Hofestädt R. CardioVINEdb : une approche d'entrepôt de données pour l'intégration des données des sciences de la vie dans les maladies cardiovasculaires. J Intégrer Bioinform. 20107(1):142. doi 10.2390/biecoll-jib-2010-142 PubMed 20585146
  • Guo D, Li X, Zhu P, Feng Y, Yang J, Zheng Z, Yang W, Zhang E, Zhou S, Wang H. Concepteur de mutagenèse à haut débit en ligne utilisant la matrice de notation des endonucléases spécifiques à la séquence. J Integr Bioinform. 201512(1). doi 10.1155/jib-2015-283 PubMed 29220955

Application de bureau
Cartographie ChIP-seq Interactions moléculaires, voies et réseaux Architecture, analyse et conception de données
La cartographie des interactions ADN-protéine est cruciale pour une compréhension complète de la régulation transcriptionnelle. L'immunoprécipitation de la chromatine suivie d'un séquençage massivement parallèle (ChIP-seq) est devenue la technique standard pour analyser ces interactions à l'échelle du génome. Nous avons développé un système logiciel appelé CASSys (Système logiciel d'analyse de données ChIP-seq) couvrant toutes les étapes de l'analyse des données ChIP-seq. Il remplace l'application laborieuse de plusieurs outils de ligne de commande simples. CASSys fournit des fonctionnalités allant de l'évaluation de la qualité et du contrôle des lectures courtes à la cartographie des lectures par rapport à un génome de référence (readmapping) et la détection de régions enrichies (détection de pics) à diverses analyses de suivi. Ces derniers sont accessibles via une interface web à la pointe de la technologie et peuvent être exécutés de manière interactive par l'utilisateur. Les analyses de suivi permettent une association flexible définie par l'utilisateur de sites d'interaction putatifs avec des gènes, la visualisation de leur contexte génomique avec un navigateur génomique intégré, la détection de motifs de liaison putatifs, l'identification des termes d'ontologie génétique surreprésentés, l'analyse des voies et la visualisation des réseaux d'interaction. Le système est basé sur un serveur client, accessible via un navigateur Web et ne nécessite aucune installation de logiciel côté client. Pour démontrer la fonctionnalité de CASSys, nous avons utilisé le système pour l'analyse complète des données d'une étude Chip-seq accessible au public qui a étudié le rôle du facteur de transcription récepteur d'œstrogène-α dans les cellules cancéreuses du sein.

  • Alawi M, Kurtz S, Beckstette M. CASSys : un système logiciel intégré pour l'analyse interactive des données ChIP-seq. J Intégrer Bioinform. 20118(2):155. doi 10.2390/biecoll-jib-2011-155 PubMed 21690655

Outil de ligne de commande Application de bureau
Biologie computationnelle
En utilisant l'opéron lac comme exemple paradigmatique d'un système de régulation génique chez les procaryotes, nous démontrons comment les connaissances qualitatives peuvent être initialement capturées à l'aide de modèles discrets (booléens) simples, puis affinées progressivement en modèles logiques multivalués et enfin en modèles continus (ODE). À toutes les étapes, la transduction du signal et la régulation transcriptionnelle sont intégrées dans la description du modèle. Nous montrons d'abord l'avantage potentiel d'une approche binaire discrète et discutons ensuite des problèmes et des limitations dues à l'indétermination survenant dans les réseaux cycliques. Ces limitations peuvent être partiellement contournées en utilisant la logique multiniveaux comme généralisation du cadre booléen permettant de formuler un modèle plus réaliste de l'opéron lac. En fin de compte, une description dynamique est nécessaire pour apprécier pleinement le comportement dynamique potentiel qui peut être induit par les boucles de rétroaction réglementaires. En tant que méthode très prometteuse, nous montrons comment l'utilisation de l'interpolation polynomiale multivariée permet la transformation du réseau logique en un système d'équations différentielles ordinaires (EDO), qui permet ensuite l'analyse des caractéristiques clés du comportement dynamique.

  • Franke R, Theis FJ, Klamt S. Des modèles binaires aux modèles multivalués en passant par les modèles continus : l'opéron lac comme étude de cas. J Intégrer Bioinform. 20107(1). doi 10.2390/biecoll-jib-2010-151 PubMed 21200084

Avec l'avènement des technologies modernes à haut débit, le goulot d'étranglement de la découverte biologique est passé du coût des expériences à celui de l'analyse des résultats. clubber est notre système automatisé d'équilibrage de charge de cluster développé pour optimiser ces analyses "big data". Son cadre plug-and-play encourage la réutilisation des solutions existantes pour les problèmes de bioinformatique. Les objectifs de clubber sont de réduire les temps de calcul et de faciliter l'utilisation du cluster computing. Le premier objectif est atteint en automatisant l'équilibre des soumissions parallèles entre les ressources de calcul haute performance (HPC) disponibles. Notamment, ces derniers peuvent être ajoutés à la demande, y compris des ressources basées sur le cloud, et/ou présentant des environnements hétérogènes. Le deuxième objectif de rendre les HPC conviviaux est facilité par une interface Web interactive et une API RESTful, permettant le suivi des travaux et la récupération des résultats. Nous avons utilisé clubber pour accélérer notre pipeline d'annotation de la fonctionnalité moléculaire des métagénomes. Ici, nous avons analysé les données de l'étude sur les déversements d'hydrocarbures de Deepwater Horizon pour montrer quantitativement que les sables de la plage ne se sont pas encore entièrement rétablis. De plus, notre analyse des données du défi CAMI a révélé que les changements taxonomiques du microbiome ne sont pas nécessairement en corrélation avec les changements fonctionnels. Ces exemples (21 métagénomes traités en 172 min) illustrent clairement l'importance du clubber dans l'environnement quotidien de la biologie computationnelle.

  • Miller M, Zhu C, Bromberg Y. clubber : éliminer le goulot d'étranglement bioinformatique dans les analyses de mégadonnées. J Intégrer Bioinform. 201714(2). doi 10.1155/jib-2017-0020 PubMed 28609295

Application de bureau
Interactions moléculaires, voies et réseaux Bioinformatique Biologie cellulaire Informatique Biologie structurale
Une étude détaillée des maladies socialement importantes avec des méthodes expérimentales modernes a abouti à la génération d'un grand volume de données précieuses. Cependant, l'analyse et l'interprétation de ces données nécessitent l'application de techniques informatiques efficaces et d'approches de biologie des systèmes. En particulier, les techniques permettant la reconstruction de réseaux associatifs de divers objets et événements biologiques peuvent être utiles. Dans cette publication, la combinaison de différentes techniques pour créer un tel réseau associé à un environnement cellulaire abstrait est discutée afin de mieux comprendre les interrelations fonctionnelles et spatiales. Il est montré que les connaissances acquises expérimentalement enrichies de contenu d'entrepôt de données et de données d'exploration de texte peuvent être utilisées pour la reconstruction et la localisation d'un réseau de développement de maladies cardiovasculaires commençant par MUPP1/MPDZ (protéine de domaine multi-PDZ).

  • Sommer B, Tiys ES, Kormeier B, et al. Visualisation et analyse d'une maladie cardio-vasculaire et d'un réseau biologique lié à MUPP1 combinant des approches d'exploration de texte et d'entrepôt de données. J Intégrer Bioinform. 20107(1). doi 10.2390/biecoll-jib-2010-148 PubMed 21068463
  • Kovanci G, Ghaffar M, Sommer B. Visualisation et exploration de dimensions hybrides basées sur le Web des scénarios de localisation cytologique. J Intégrer Bioinform. 201613(4) : 47-58. doi 10.2390/biecoll-jib-2016-298 PubMed 28187414
  • Sommer B. Les outils CELLmicrocosmos: Une petite histoire du développement de logiciels open source de modélisation cellulaire et membranaire basée sur Java. J Integr Bioinform. 2019. doi 10.1155/jib-2019-0057 PubMed 31560649

Le CELLmicrocosmos 4.2 PathwayIntegration (CmPI) est un outil qui fournit une visualisation et une analyse en dimension hybride des localisations de protéines et de gènes intracellulaires dans le contexte d'un environnement virtuel 3D. Cet outil est développé sur la base de Java/Java3D/JOGL et fournit une application autonome compatible avec tous les systèmes d'exploitation pertinents. Cependant, il nécessite Java et l'installation locale du logiciel. Nous présentons ici le prototype d'une approche alternative de visualisation basée sur le Web, utilisant Three.js et D3.js. De cette façon, il est possible de visualiser et d'explorer des scénarios de localisation générés par CmPI, y compris des réseaux mappés sur des composants de cellule 3D en fournissant simplement une URL à un partenaire de collaboration. Cette publication décrit l'intégration des différentes technologies – Three.js, D3.js et PHP – ainsi qu'un cas d'application : un scénario de localisation du cycle citrate. Le visualiseur Web CmPI est disponible à l'adresse : http://CmPIweb.CELLmicrocosmos.org.

  • Kovanci G, Ghaffar M, Sommer B. Visualisation et exploration de dimensions hybrides basées sur le Web des scénarios de localisation cytologique. J Intégrer Bioinform. 201613(4) : 47-58. doi 10.2390/biecoll-jib-2016-298 PubMed 28187414
  • Sommer B. Les outils CELLmicrocosmos: Une petite histoire du développement de logiciels open source de modélisation cellulaire et membranaire basée sur Java. J Integr Bioinform. 2019. doi 10.1155/jib-2019-0057 PubMed 31560649

L'analyse comparative des réseaux biologiques est un problème majeur en biologie computationnelle des systèmes intégratifs. En calculant le sous-graphe de bord commun maximum entre un ensemble de réseaux, on est capable de détecter les sous-structures conservées entre eux et de quantifier leur similarité topologique. Pour faciliter ces analyses, nous avons développé CytoMCS, une application Cytoscape pour calculer des solutions inexactes au problème de sous-graphe de bord commun maximum pour deux ou plusieurs graphes. Notre algorithme utilise une heuristique de recherche locale itérative pour calculer les sous-graphes conservés, optimisant un score de conservation des arêtes au carré capable de détecter non seulement les arêtes entièrement conservées, mais également les arêtes partiellement conservées. Il peut être appliqué à n'importe quel ensemble de graphiques simples orientés ou non orientés chargés en tant que réseaux dans Cytoscape, par ex. réseaux d'interaction protéine-protéine ou réseaux de régulation génique. CytoMCS est disponible en tant qu'application Cytoscape à l'adresse http://apps.cytoscape.org/apps/cytomcs.

  • Larsen SJ, Baumbach J. CytoMCS: Un outil de détection de sous-graphes communs multiples et maximum pour Cytoscape. J Intégrer Bioinform. 201714(2). doi 10.1155/jib-2017-0014 PubMed 28731857

Cet ouvrage présente DaTo, un atlas mondial généré semi-automatiquement des bases de données et des outils biologiques. Il extrait des informations brutes de tous les articles PubMed qui contiennent des URL exactes dans leur section de résumé, suivies d'une curation manuelle du résumé et de l'accessibilité de l'URL. DaTo dispose d'une interface de requête conviviale, fournissant des annotations extensibles liées à l'URL, telles que le statut, l'emplacement et le pays de l'URL. Un navigateur de réseau d'interaction graphique a également été intégré à l'interface Web DaTo pour faciliter l'exploration de la relation entre les différents outils et bases de données en ce qui concerne leur similitude sémantique basée sur l'ontologie. À l'aide de DaTo, les emplacements géographiques, les états de santé ainsi que les associations de revues ont été évalués par rapport au développement historique des outils et des bases de données bioinformatiques au cours des 20 dernières années. Nous espérons qu'il inspirera la communauté biologique à acquérir un aperçu systématique des ressources bioinformatiques. DaTo est accessible via http://bis.zju.edu.cn/DaTo/.

  • Li Q, Zhou Y, Jiao Y et al. DaTo : un atlas de bases de données et d'outils biologiques. J Intégrer Bioinform. 201613(4):297. doi 10.2390/biecoll-jib-2016-297 PubMed 28187413
  • Mehlhorn H, Schreiber F. DBE2 - gestion des données expérimentales pour le système VANTED. J Intégrer Bioinform. 20118(2) :162. doi 10.2390/biecoll-jib-2011-162 PubMed 21788680

service Web
Analyse de séquence
Au cours des dernières années, plusieurs nouveaux outils applicables à l'analyse des protéines ont été mis à disposition sur le site Web de l'IBIVU. Récemment, un certain nombre d'outils, allant de la construction d'alignements de séquences multiples à la prédiction de domaine, ont été mis à jour et/ou étendus avec des services d'accès programmatique utilisant SOAP. Nous donnons un aperçu de ces outils et de leur application.

  • Brandt BW, Heringa J. Outils et services d'analyse de protéines à l'IBIVU. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-168 PubMed 21900709

Les protéines et leurs interactions sont essentielles au fonctionnement de tous les organismes et à la compréhension des processus biologiques. L'épissage alternatif est un mécanisme moléculaire important pour augmenter la diversité des protéines dans les cellules eucaryotes. Les événements d'épissage qui modifient la structure des protéines et la composition des domaines peuvent être responsables de la régulation des interactions protéiques et de la diversité fonctionnelle de différents tissus. La découverte de l'occurrence d'événements d'épissage et l'étude des isoformes de protéines sont devenues possibles à l'aide d'Affymetrix Exon Arrays. Par conséquent, nous avons développé le plugin polyvalent Cytoscape DomainGraph qui permet l'analyse visuelle des réseaux d'interaction des domaines protéiques et leur intégration avec les données d'expression des exons. Les domaines protéiques affectés par l'épissage alternatif sont mis en évidence et les modèles d'épissage peuvent être comparés.

  • Emig D, Cline MS, Klein K et al. Analyse visuelle intégrative des effets de l'épissage alternatif sur les réseaux d'interaction des domaines protéiques. J Intégrer Bioinform. 20085(2). doi 10.2390/biecoll-jib-2008-101 PubMed 20134061

Dans cet article, nous présentons deux études de cas de développement d'applications protéomiques utilisant le framework AIBench, un framework d'applications de bureau Java principalement axé sur le développement de logiciels scientifiques. Les applications présentées dans ce travail sont Decision Peptide-Driven, pour une quantification rapide et précise des protéines, et Bacterial Identification, pour la recherche et le diagnostic de biomarqueurs de la tuberculose. Les deux outils fonctionnent avec des données de spectrométrie de masse, en particulier avec les spectres MALDI-TOF, minimisant le temps nécessaire pour traiter et analyser les données expérimentales.

  • López-Fernández H, Reboiro-Jato M, Glez-Peña D, et al.Développement rapide d'applications protéomiques avec le framework AIBench. J Intégrer Bioinform. 20118(3) :171. doi 10.2390/biecoll-jib-2011-171 PubMed 21926434

L'efficacité d'expression est l'une des principales caractéristiques décrivant les gènes dans diverses recherches modernes. L'efficacité d'expression des gènes est régulée à différentes étapes : transcription, traduction, modification post-traductionnelle des protéines et autres. Dans cette étude, une application Web spéciale EloE (Elongation Efficiency) est décrite. L'EloE trie les gènes de l'organisme dans l'ordre décroissant de leur taux théorique de l'étape d'allongement de la traduction sur la base de l'analyse de leurs séquences nucléotidiques. Les données théoriques obtenues ont une corrélation significative avec les données expérimentales disponibles sur l'expression des gènes dans divers organismes. De plus, le programme identifie des codons préférentiels dans les gènes de l'organisme et définit la distribution de l'énergie potentielle des structures secondaires dans les régions 5´ et 3´ de l'ARNm. L'EloE peut être utile dans l'estimation préliminaire de l'efficacité d'allongement de la traduction pour les gènes pour lesquels les données expérimentales ne sont pas encore disponibles. Certains résultats peuvent être utilisés, par exemple, dans d'autres programmes modélisant des structures génétiques artificielles dans des expériences de génie génétique.

  • Sokolov V, Zuraev B, Lashin S, Matushkin Y. Application Web pour la prédiction automatique de l'efficacité de l'allongement de la traduction des gènes. J Integr Bioinform. 201512(1). doi 10.2390/biecoll-jib-2015-256 PubMed 26527190

La prévalence des maladies comorbides pose un problème de santé majeur pour des millions de personnes dans le monde et un énorme fardeau socio-économique pour la société. Les mécanismes moléculaires du développement des comorbidités doivent être étudiés. À cette fin, un système de workflow a été développé pour agréger les données sur les entités biomédicales à partir de sources de données hétérogènes. Le processus d'intégration et de fusion de toutes les sources de données du système de flux de travail a été mis en œuvre sous la forme d'un pipeline semi-automatique qui fournit l'importation, la fusion et l'analyse des données biomédicales hautement connectées dans une base de données Neo4j GenCoNet. Comme point de départ, les données sur les maladies comorbides courantes, l'hypertension essentielle et l'asthme bronchique, ont été intégrées. GenCoNet (https://genconet.kalis-amts.de) est une base de données organisée qui permet de mieux comprendre les bases héréditaires des comorbidités.

  • Shoshi A, Hofestädt R, Zolotareva O, Friedrichs M, Maier A, Ivanisenko VA, Dosenko VE, Bragina EY. GenCoNet - Une base de données graphique pour l'analyse des comorbidités par les réseaux de gènes. J Integr Bioinform. 201815(4). doi 10.1155/jib-2018-0049 PubMed 30864352

Bibliothèque de scripts
Bioinformatique ADN Régulation des gènes
L'interconversion des séquences qui constituent le génome et le protéome devient de plus en plus importante en raison de la génération de grandes quantités de données de séquences d'ADN. Après la cartographie des segments d'ADN sur le génome, une tâche fondamentalement importante est de trouver les séquences d'acides aminés qui sont codées dans une liste de sections génomiques. Inversement, étant donné une série de segments protéiques, une tâche importante consiste à trouver les loci génomiques qui codent pour une liste de régions protéiques. Réaliser ces tâches région par région est extrêmement laborieux lorsqu'un grand nombre de régions sont étudiées. Nous avons donc implémenté un package R geno2proteo qui effectue les deux tâches de mappage et la récupération de séquence subséquente par lots. Afin de rendre l'outil plus accessible aux utilisateurs, nous avons créé une interface Web du package R qui permet aux utilisateurs d'effectuer les tâches de cartographie en se rendant sur la page Web http://sharrocksresources.manchester.ac.uk/tofigaps et en utilisant le service Web.

  • Li Y, Aguilar-Martinez E, Sharrocks AD. Geno2proteo, Un Outil Pour La Récupération Par Lot De Séquences D'ADN Et De Protéines De Toutes Les Régions Génomiques Ou Protéines. J Integr Bioinform. 2019. doi 10.1155/jib-2018-0090 PubMed 31301672

La nécessité de traiter de grandes quantités de données générées par le séquençage génomique a entraîné une tâche difficile pour les scientifiques de la vie qui ne sont pas familiarisés avec l'utilisation d'opérations en ligne de commande ou les développements dans le calcul haute performance et la parallélisation. Ce manque de connaissances, ainsi que la méconnaissance des processus nécessaires, peuvent entraver l'exécution des tâches de traitement des données. En outre, bon nombre des outils bioinformatiques couramment utilisés pour la communauté scientifique sont présentés comme des entités isolées et non liées qui ne fournissent pas d'interaction intégrée, guidée et assistée avec les installations de planification des ressources de calcul ou de distribution, de traitement et de cartographie avec analyse d'exécution. Cet article présente la première approximation d'une architecture basée sur une plate-forme de services Web (GITIRBio) qui agit comme un système frontal distribué pour le traitement autonome et assisté de pipelines bioinformatiques parallèles qui a été validé à l'aide de séquences multiples. De plus, cette plate-forme permet l'intégration avec des référentiels sémantiques de gènes pour les annotations de recherche. GITIRBio est disponible sur : http://c-head.ucaldas.edu.co:8080/gitirbio.

  • Castillo LF, López-Gartner G, Isaza GA, et al. GITIRBio : Une architecture orientée services sémantique et distribuée pour le pipeline de bioinformatique. J Intégrer Bioinform. 201512(1):1-15. doi 10.2390/biecoll-jib-2015-255 PubMed 26527189
  • Taha K, Elmasri R. GMB : un processeur de requêtes efficace pour les données biologiques. J Intégrer Bioinform. 20118(2) :165. doi 10.2390/biecoll-jib-2011-165 PubMed 21881166

application Web
Cartographie Ontologie et terminologie Protéines Analyse de séquence Séquençage
L'annotation fonctionnelle des données génomiques est devenue une tâche majeure pour le nombre toujours croissant de projets de séquençage. Afin de relever ce défi, nous avons récemment développé GOblet, un service Web gratuit pour l'annotation de séquences anonymes avec des termes Gene Ontology (GO). Cependant, pour surmonter les limitations de la terminologie GO et pour aider à comprendre non seulement les composants individuels mais aussi les interactions systémiques entre les composants individuels, nous avons maintenant étendu le service Web GOblet pour intégrer également les annotations de chemin. En outre, nous avons étendu et mis à niveau le pipeline d'analyse des données avec des résumés améliorés et des algorithmes d'enrichissement et de regroupement de termes ajoutés. Enfin, nous mettons maintenant GOblet à disposition en tant qu'application autonome pour le traitement à haut débit sur des machines locales. Les avantages de cette fonctionnalité fréquemment demandée sont que a) l'utilisateur peut éviter les restrictions de notre service Web pour le téléchargement et le traitement de grandes quantités de données, et que b) les données confidentielles peuvent être analysées sans transfert non sécurisé vers un serveur Web public. La version autonome du service Web a été implémentée à l'aide de scripts Tcl indépendants de la plate-forme, qui peuvent être exécutés avec un seul fichier d'exécution utilisant la technologie Starkit. Le service Web GOblet et l'application autonome sont disponibles gratuitement sur http://goblet.molgen.mpg.de.

  • Groth D, Hartmann S, Panopoulou G, Poustka AJ, Hennig S. GOblet : annotation de données de séquences anonymes avec ontologie génique et termes de voie. J Intégrer Bioinform. 20085(2). doi 10.2390/biecoll-jib-2008-104 PubMed 20134064

Malgré le grand nombre d'outils logiciels développés pour traiter différents domaines de l'analyse de données de puces à ADN, très peu offrent une solution tout-en-un avec peu de courbe d'apprentissage. Pour les laboratoires centraux de puces à ADN, il existe encore moins de progiciels disponibles pour les aider dans leurs tâches routinières mais critiques, telles que le contrôle de la qualité des données (CQ) et la gestion des stocks. Nous avons développé un portail Web simple à utiliser pour permettre aux biologistes de laboratoire d'analyser et d'interroger des données de microarray complexes et les voies biologiques associées sans formation préalable. Les analyses basées sur les expériences et les gènes peuvent être facilement effectuées, même pour le premier utilisateur, grâce à la conception multicouche intuitive et aux liens graphiques interactifs. Tout en étant conviviaux pour les utilisateurs inexpérimentés, la plupart des paramètres de Goober peuvent être facilement ajustés via des menus déroulants pour permettre aux utilisateurs avancés d'adapter leurs besoins et d'effectuer des analyses plus complexes. De plus, nous avons intégré l'analyse graphique des voies dans le site Web pour aider les utilisateurs à examiner les données des puces à ADN dans le contenu biologique pertinent. Goober contient également des fonctionnalités qui couvrent la plupart des tâches courantes dans les laboratoires centraux de puces à ADN, telles que le contrôle qualité des baies en temps réel, le chargement des données, l'utilisation des baies et le suivi des stocks. Dans l'ensemble, Goober est une solution complète de puces à ADN pour aider les biologistes à découvrir instantanément des informations précieuses à partir d'une expérience de puces à ADN et à améliorer la qualité et la productivité des laboratoires de base de puces à ADN. L'ensemble du package est disponible gratuitement sur http://sourceforge.net/projects/goober. Un serveur Web de démonstration est disponible sur http://www.goober-array.org.

  • Luo W, Gudipati M, Jung K, Chen M, Marschke KB. Goober : une solution de gestion et d'analyse de données de microarrays entièrement intégrée et conviviale pour les laboratoires de base et les biologistes de laboratoire. J Intégrer Bioinform. 20096(1):108. doi 10.2390/biecoll-jib-2009-108 PubMed 20134074

La détection des sources de biais dans les données transcriptomiques est essentielle pour déterminer les signaux d'importance biologique. Nous décrivons une nouvelle méthode pour détecter un biais spécifique à la séquence dans les données de séquençage de nouvelle génération à lecture courte. Ceci est basé sur la détermination des corrélations intra-exons entre des motifs spécifiques. Cela nécessite une légère hypothèse selon laquelle les lectures courtes échantillonnées dans des régions spécifiques du même exon seront corrélées les unes aux autres. Cela a été implémenté sur Apache Spark et utilisé pour analyser deux ensembles de données de disques oculaires-antennes D. melanogaster générés dans le même laboratoire. L'ensemble de données de type sauvage chez la drosophile indique une variation due à la teneur en motif GC qui est plus significative que celle trouvée en raison de la teneur en exon GC. Le logiciel est disponible en ligne et pourrait être appliqué pour l'analyse de données de transcriptome d'expériences croisées chez les eucaryotes.

  • Alnasir J, Shanahan HP. Une nouvelle méthode pour détecter les biais dans les données NGS à lecture courte. J Intégrer Bioinform. 201714(3). doi 10.1155/jib-2017-0025 PubMed 28941355

Ce travail présente un système d'information sophistiqué, la plate-forme d'analyse intégrée (IAP), une approche prenant en charge l'analyse d'images à grande échelle pour différentes espèces et systèmes d'imagerie. Dans sa forme actuelle, l'IAP soutient l'étude des plants de maïs, d'orge et d'Arabidopsis à partir d'images obtenues dans différents spectres. Plusieurs composants du système IAP, qui sont décrits dans ce travail, couvrent le pipeline complet de bout en bout, en commençant par le transfert d'images depuis l'infrastructure d'imagerie, l'analyse d'images (grille distribuée), la gestion des données pour les données brutes et les résultats d'analyse, à la génération automatisée de rapports d'expérimentation.

  • Klukas C, Pape JM, Entzian A. Analyse de données d'images de plantes à haut débit avec le système d'information IAP. J Intégrer Bioinform. 20129(2):191. doi 10.2390/biecoll-jib-2012-191 PubMed 22745177
  • Lamurias A, Ferreira JD, Couto FM. Identifier les interactions entre les entités chimiques dans le texte biomédical. J Intégrer Bioinform. 201411(3):247. doi 10.2390/biecoll-jib-2014-247 PubMed 25339081

Les connaissances présentes dans les bases de données biomédicales, en particulier dans les systèmes d'information Web, constituent une ressource bioinformatique majeure. En général, ces connaissances biologiques sont représentées dans le monde entier dans un réseau de bases de données. Ces données sont réparties sur des milliers de bases de données, dont le contenu se chevauche, mais diffèrent considérablement en ce qui concerne les détails du contenu, l'interface, les formats et la structure des données. Pour prendre en charge une annotation fonctionnelle des données de laboratoire, telles que des séquences de protéines, des métabolites ou des séquences d'ADN, ainsi qu'une exploration de données semi-automatisée dans des environnements de recherche d'informations, une vue intégrée aux bases de données est essentielle. Les moteurs de recherche ont le potentiel d'aider à la récupération de données à partir de ces sources structurées, mais ne parviennent pas à fournir une connaissance complète, à l'exception des bases de données interconnectées. Une condition préalable à la prise en charge du concept d'une vue de données intégrée est d'acquérir des informations sur les références croisées entre les entités de la base de données. Ce problème est entravé par le fait que seule une fraction de toutes les références croisées possibles sont explicitement étiquetées dans les systèmes d'informations biomédicales particuliers. Dans ce travail, nous étudions dans quelle mesure une construction automatisée d'un réseau de données intégré est possible. Nous proposons une méthode qui prédit et extrait les références croisées de plusieurs bases de données des sciences de la vie et des cibles de données référencées possibles. Nous étudions la qualité de récupération de notre méthode et rapportons les premiers résultats prometteurs. La méthode est implémentée en tant qu'outil IDPredictor, qui est publié sous le DOI 10.5447/IPK/2012/4 et est disponible gratuitement à l'aide de l'URL : http://dx.doi.org/10.5447/IPK/2012/4.

  • Mehlhorn H, Lange M, Scholz U, Schreiber F. IDPredictor : prédire les liens de base de données dans la base de données biomédicale. J Intégrer Bioinform. 20129(2):1-15. doi 10.2390/biecoll-jib-2012-190 PubMed 22736059
  • Camacho R, Pereira M, Costa VS, et al. Une approche d'apprentissage relationnel des relations structure-activité dans les études de toxicité de la conception de médicaments. J Intégrer Bioinform. 20118(3) :182. doi 10.2390/biecoll-jib-2011-182 PubMed 21926445

Table de travail
Métabolomique Data mining Gestion des données
Au cours de la dernière décennie, l'évaluation des odeurs et des vapeurs dans l'haleine humaine a attiré de plus en plus d'attention, en particulier dans le diagnostic des maladies pulmonaires. La spectrométrie de mobilité ionique couplée à des colonnes multi-capillaires (MCC/IMS), est une technologie bien connue pour détecter les composés organiques volatils (COV) dans l'air. Il s'agit d'une méthode relativement peu coûteuse, non invasive et à haut débit, capable de gérer l'humidité contenue dans l'air expiré par l'homme et permettant de caractériser les COV à de très faibles concentrations. Pour identifier des composés discriminants en tant que biomarqueurs, il est nécessaire de bien comprendre la composition détaillée de l'haleine humaine. Par conséquent, en plus des études cliniques, il existe un besoin pour un référentiel de données centralisé flexible et complet, capable de rassembler toutes sortes d'informations connexes. De plus, il existe une demande d'intégration de données automatisée et d'analyse de données semi-automatisée, en particulier en ce qui concerne l'accumulation rapide de données, résultant de la nature à haut débit de la technologie MCC/IMS. Ici, nous présentons une application de base de données complète et une plate-forme d'analyse, qui combine des cartes métaboliques avec des données biomédicales hétérogènes d'une manière bien structurée. La conception de la base de données est basée sur un hybride du modèle entité-attribut-valeur (EAV) et de l'EAV-CR, qui intègre les concepts de classes et de relations. De plus, il offre une interface utilisateur intuitive qui offre un accès facile et rapide aux fonctionnalités de la plate-forme : intégration automatisée des données et validation de l'intégrité, stratégie de version et de restauration, récupération de données ainsi que capacités semi-automatiques d'exploration de données et d'apprentissage automatique. La plate-forme prendra en charge l'identification et la validation des biomarqueurs basés sur MCC/IMS. Le logiciel, les schémas, les ensembles de données et d'autres informations sont accessibles au public à l'adresse http://imsdb.mpi-inf.mpg.de.

  • Schneider T, Hauschild A-C, Baumbach JI, Baumbach J. Une base de données clinique intégrative et une plate-forme de diagnostic pour l'identification et l'analyse de biomarqueurs dans les spectres de mobilité ionique de l'air expiré humain. J Intégrer Bioinform. 201310(2). doi 10.2390/biecoll-jib-2013-218 PubMed 23545212

À l'heure actuelle, une séquence codante (CDS) a été découverte et une plus grande CDS est fréquemment révélée. Des approches et des outils associés ont également été développés et améliorés en parallèle, notamment pour l'analyse des arbres phylogénétiques. Cet article propose un flux de travail Taverna automatique intégré pour l'analyse d'inférence d'arbre phylogénétique à l'aide de services Web d'accès public à l'Institut européen de bioinformatique (EMBL-EBI) et à l'Institut suisse de bioinformatique (SIB), ainsi que nos propres services Web locaux déployés. L'entrée du workflow est un ensemble de CDS au format Fasta. Le flux de travail prend en charge 1 000 à 20 000 nombres dans la réplication d'amorçage. Le flux de travail effectue l'inférence arborescente telle que les algorithmes de parcimonie (PARS), de matrice de distance - jointure de voisins (DIST-NJ) et de vraisemblance maximale (ML) du package EMBOSS PHYLIPNEW sur la base de notre score de similarité d'alignement de séquences multiples (MSA) proposé. Les services Web locaux sont implémentés et déployés en deux types à l'aide du déploiement Soaplab2 et Apache Axis2. Il existe SOAP et Java Web Service (JWS) fournissant des points de terminaison WSDL à Taverna Workbench, un gestionnaire de workflow. Le workflow a été validé, les performances ont été mesurées et ses résultats ont été vérifiés. Le temps d'exécution de notre flux de travail est inférieur à dix minutes pour déduire un arbre avec 10 000 répliques des nombres d'amorçage. Cet article propose un nouveau workflow automatique intégré qui sera bénéfique aux bioinformaticiens ayant un niveau intermédiaire de connaissances et d'expériences. Tous les services locaux ont été déployés sur notre portail http://bioservices.sci.psu.ac.th.

  • Damkliang K, Tandayya P, Sangket U, Pasomsub E. Flux de travail automatique intégré pour l'analyse d'arbres phylogénétiques à l'aide d'un accès public et de services Web locaux. J Intégrer Bioinform. 201613(1):287. doi 10.2390/biecoll-jib-2016-287 PubMed 28187423

La plate-forme d'intégration de données in vivo d'oncologie d'AstraZeneca apporte des données multidimensionnelles d'efficacité de modèles animaux, des données pharmacocinétiques et pharmacodynamiques aux données de profilage de modèles animaux et aux études publiques in vivo. À l'aide de cette plate-forme, les scientifiques peuvent regrouper l'efficacité du modèle et les données de profilage du modèle, identifier rapidement les profils des répondeurs et corréler les caractéristiques moléculaires à la réponse pharmacologique. Grâce à une méta-analyse, les scientifiques peuvent comparer la pharmacologie entre des traitements simples et combinés, entre différentes planifications et voies d'administration des médicaments.

  • Wei J, Chen M. Oncologie Intégration de données in vivo pour la génération d'hypothèses. J Intégrer Bioinform. 20129(2). doi 10.2390/biecoll-jib-2012-193 PubMed 22773158

API Web
La variance génétique au sein du génotype de la population et sa correspondance avec la variance phénotypique d'une manière systématique et à haut débit présentent un intérêt pour la recherche sur la biodiversité et la sélection. Outre les technologies de génotype à haut débit établies et efficaces, les capacités de phénotype ont fait l'objet d'une attention accrue au cours de la dernière décennie. Cela se traduit par une quantité croissante de données de phénotype provenant d'une plate-forme de capteurs automatisés à bonne mise à l'échelle. Ainsi, la gestion des données est un élément central pour rendre les données expérimentales de plusieurs domaines interopérables et réutilisables. Pour assurer un partage standard et complet des données scientifiques et expérimentales entre les experts du domaine, les principes de données FAIR sont utilisés pour la lisibilité et l'évolutivité des machines. Dans ce contexte, le consortium BrAPI fournit des directives FAIRed complètes et communément acceptées pour offrir des données scientifiques en couches BrAPI d'une manière RESTful. Ce document présente les concepts, les meilleures pratiques et les mises en œuvre pour relever ces défis. En tant que l'un des principaux instituts mondiaux de recherche sur les plantes, il est d'un intérêt vital pour l'IPK-Gatersleben de transformer les infrastructures de données existantes en un centre de ressources bionumériques pour les ressources phytogénétiques (RPG). Ce document démontre également les avantages des back-ends de bases de données intégrés, des processus de gestion des données établis et de l'exposition des données FAIR dans des interfaces de programmation lisibles par machine et hautement évolutives.

  • Ghaffar M, Schüler D, König P, Arend D, Junker A, Scholz U, Lange M.Accès programmatique aux ressources phytogénétiques numériques FAIRified. J Integr Bioinform. 20202016(4). doi 10.1155/jib-2019-0060 PubMed 31913851

JIB.tools 2.0 est une nouvelle approche pour intégrer plus étroitement le processus de curation dans le processus de publication. Ce site Web héberge les outils, les applications logicielles, les bases de données et les systèmes de flux de travail publiés dans le Journal of Integrative Bioinformatics (JIB). Dès qu'une nouvelle publication liée à l'outil est publiée dans JIB, l'outil est publié sur JIB.tools et peut ensuite être facilement transféré vers bio.tools, un vaste référentiel d'informations sur les outils logiciels, les bases de données et les services pour la bioinformatique et les sciences de la vie. . De cette façon, une liste facilement accessible d'outils qui ont été publiés dans JIB ainsi que des informations d'état concernant le service sous-jacent est fournie. Avec des registres plus récents comme bio.tools fournissant ces informations à plus grande échelle, JIB.tools 2.0 comble l'écart entre les publications de revues et la publication de registres. (Référence : https://jib.tools).

  • Friedrichs M, Shoshi A, Chmura PJ, Ison J, Schwämmle V, Schreiber F, Hofestädt R, Sommer B. JIB.tools 2.0 - Un registre bioinformatique pour les outils publiés dans des revues avec interopérabilité avec bio.tools.. J Integr Bioinform. 20202016(4). doi 10.1155/jib-2019-0059 PubMed 31913853

La mesure de la méthylation différentielle de l'ADN est aujourd'hui l'approche la plus courante pour lier les modifications épigénétiques aux maladies (appelées études d'association à l'échelle de l'épigénome, EWAS). Pour son faible coût, son efficacité et sa facilité d'utilisation, le BeadChip Illumina HumanMethylation450 et son successeur, le Infinium MethylationEPIC BeadChip, sont de loin les techniques de conduction EWAS les plus populaires dans de grandes cohortes de patients. Malgré la popularité de cette technologie de puce, le traitement des données brutes et l'analyse statistique des données de la matrice restent loin d'être triviaux et manquent toujours de bibliothèques logicielles dédiées permettant des analyses en aval de haute qualité et statistiquement solides. Pour l'instant, seules les solutions basées sur R sont disponibles gratuitement pour le traitement de bas niveau des données de la puce Illumina. Cependant, le manque de bibliothèques alternatives constitue un obstacle au développement de nouveaux outils bioinformatiques, en particulier lorsqu'il s'agit de services Web ou d'applications où le temps d'exécution et la consommation de mémoire sont importants, ou l'analyse des données EWAS fait partie intégrante d'un cadre ou de données plus vastes. pipeline d'analyse. Nous avons donc développé et mis en œuvre Jllumina, une bibliothèque Java open source pour la manipulation des données brutes des données Illumina Infinium HumanMethylation450 et Infinium MethylationEPIC BeadChip, prenant en charge le développeur avec des fonctions Java couvrant la lecture et le prétraitement des données brutes, jusqu'à l'évaluation statistique, les tests de permutation, et l'identification de loci différentiellement méthylés. Jllumina est entièrement parallélisable et accessible au public sur http://dimmer.compbio.sdu.dk/download.html.

  • Almeida D, Skov I, Lund J, et al. Jllumina - Une API Java complète pour le traitement des données statistiques Illumina Infinium HumanMethylation450 et MethylationEPIC. J Intégrer Bioinform. 201613(4):294. doi 10.2390/biecoll-jib-2016-294 PubMed 28187410
  • Pürzer A, Grassmann F, Birzer D, Merkl R. Key2Ann : un outil pour traiter les ensembles de séquences en remplaçant les identifiants de la base de données par une annotation lisible par l'homme. J Intégrer Bioinform. 20118(1). doi 10.2390/biecoll-jib-2011-153 PubMed 21372341

application Web
Biologie végétale Génomique
Les moteurs de recherche et les systèmes de récupération sont des outils populaires sur un ordinateur de bureau des sciences de la vie. L'inspection manuelle de centaines d'entrées de bases de données, qui reflètent un concept ou un fait des sciences de la vie, est un travail quotidien qui prend beaucoup de temps. Ainsi, ce n'est pas le nombre de résultats de requête qui compte, mais la pertinence. Dans cet article, nous présentons le moteur de recherche LAILAPS pour les bases de données des sciences de la vie. Le concept consiste à combiner un nouveau modèle de fonctionnalité pour le classement de la pertinence, une approche d'apprentissage automatique pour modéliser les profils de pertinence des utilisateurs, l'amélioration du classement par le suivi des commentaires des utilisateurs et une interface utilisateur Web intuitive et mince, qui estime le classement de la pertinence en suivant les interactions des utilisateurs. Les requêtes sont formulées sous forme de simples listes de mots clés et seront complétées par des synonymes. Prenant en charge un index de texte flexible et un format d'importation de données simple, LAILAPS peut facilement être utilisé à la fois comme moteur de recherche pour des bases de données complètes et intégrées des sciences de la vie et pour de petites bases de données de projets internes. Avec un ensemble de fonctionnalités, extraites de chaque accès à la base de données en combinaison avec les préférences de pertinence de l'utilisateur, un réseau neuronal prédit les scores de pertinence spécifiques à l'utilisateur. En utilisant les connaissances d'experts en tant que données d'entraînement pour un réseau de neurones prédéfini ou en utilisant les propres ensembles d'entraînement de pertinence des utilisateurs, un classement de pertinence fiable des accès à la base de données a été mis en œuvre. Dans cet article, nous présentons le système LAILAPS, les concepts, les benchmarks et les cas d'utilisation. LAILAPS est accessible au public pour les données SWISSPROT sur http://lailaps.ipk-gatersleben.de.

  • Lange M, Spies K, Bargsten J, et al. Le moteur de recherche LAILAPS : classement par pertinence dans les bases de données des sciences de la vie. J Intégrer Bioinform. 20107(2):1-11. doi 10.2390/biecoll-jib-2010-110 PubMed 20134080
  • Lange M, Spies K, Colmsee C, Flemming S, Klapperstück M, Scholz U. Le moteur de recherche LAILAPS : un modèle de caractéristiques pour le classement par pertinence dans les bases de données des sciences de la vie. J Intégrer Bioinform. 20107(3). doi 10.2390/biecoll-jib-2010-118 PubMed 20375444
  • Esch M, Chen J, Weise S, Hassani-Pak K, Scholz U, Lange M. Un workflow de suggestion de requête pour les systèmes IR des sciences de la vie. J Intégrer Bioinform. 201411(2):237. doi 10.2390/biecoll-jib-2014-237 PubMed 24953306

Des bactéries distinctes sont capables de faire face à des modes de vie très divers, par exemple, elles peuvent être libres ou associées à l'hôte. Ainsi, ces organismes doivent posséder un arsenal génomique large et varié pour résister à différentes conditions environnementales. Pour faciliter l'identification des caractéristiques génomiques qui pourraient influencer l'adaptation bactérienne à une niche spécifique, nous introduisons LifeStyle-Specific-Islands (LiSSI). LiSSI combine l'analyse de séquence évolutive avec l'apprentissage statistique (Forêt aléatoire avec sélection de caractéristiques, réglage de modèle et analyse de robustesse). En résumé, notre stratégie vise à identifier les séquences d'homologie consécutives conservées (îlots) dans les génomes et à identifier les îlots les plus discriminants pour chaque mode de vie.

  • Barbosa E, Röttger R, Hauschild A-C, et al. LifeStyle-Specific-Islands (LiSSI) : Plate-forme bioinformatique intégrée pour l'analyse des îles génomiques. J Intégrer Bioinform. 201714(2). doi 10.1155/jib-2017-0010 PubMed 28678736
  • Srinivas V, Gopal S. Base de données LmTDRM : Une base de données complète sur le gène/produits géniques métaboliques du thiol dans Listeria monocytogenes EGDe. J Intégrer Bioinform. 201411(1). doi 10.2390/biecoll-jib-2014-245 PubMed 25228549

les ensembles de données omiques générés par les technologies de microarray, de spectrométrie de masse et de séquençage de nouvelle génération nécessitent une plate-forme intégrée qui peut combiner les résultats de différents

ensembles de données omiques pour fournir de nouvelles perspectives dans la compréhension des systèmes biologiques. MADMAX est conçu pour fournir une solution pour le stockage et l'analyse de complexes

ensembles de données omiques. De plus, les résultats d'analyse (tels que les listes de gènes) seront fusionnés pour révéler les gènes candidats pris en charge par tous les ensembles de données. Le système constitue une partie LIMS conforme à ISA-Tab qui est indépendante des différents pipelines d'analyse. Une étude pilote de différents types de

les données omiques de Brassica rapa démontrent l'utilisation possible de MADMAX. L'interface utilisateur Web offre un accès facile aux données et aux outils d'analyse en plus de la base de données.

    Lin K, Kools H, De groot PJ, et al. MADMAX - Base de données de gestion et d'analyse pour plusieurs

  • Hildebrandt C, Wolf S, Neumann S. La base de données a pris en charge la recherche de candidats pour l'identification des métabolites. J Intégrer Bioinform. 20118(2) :157. doi 10.2390/biecoll-jib-2011-157 PubMed 21734330

Ces dernières années, la quantité de données biologiques a explosé au point que de nombreuses informations utiles ne peuvent être extraites que par des analyses informatiques complexes. De telles analyses sont grandement facilitées par les normes de métadonnées, à la fois en termes de capacité à comparer des données provenant de différentes sources, et en termes d'échange de données sous des formes standard, par ex. lors de l'exécution de processus sur une infrastructure informatique distribuée. Cependant, les normes prospèrent sur la stabilité alors que la science a tendance à évoluer constamment, de nouvelles méthodes étant développées et les anciennes modifiées. Par conséquent, le maintien à la fois des normes de métadonnées et de tout le code requis pour les rendre utiles est un problème non trivial. Memops est un framework qui utilise une définition abstraite des métadonnées (décrites en UML) pour générer des structures de données internes et des bibliothèques de sous-programmes pour l'accès aux données (interfaces de programmation d'applications--API--actuellement en Python, C et Java) et le stockage de données (en fichiers XML ou bases de données). Pour le projet individuel, ces bibliothèques évitent le besoin d'écrire du code pour l'analyse d'entrée, le contrôle de validité ou la sortie. Memops garantit également que le code est toujours cohérent en interne, réduisant considérablement le besoin de réorganisation du code. Dans un domaine scientifique, un modèle de données pris en charge par Memops facilite la prise en charge de normes complexes pouvant capturer toutes les données produites dans un domaine scientifique, les partager entre tous les programmes d'un pipeline logiciel complexe et les transférer jusqu'à leur dépôt dans une archive. Les principes du code de génération Memops seront présentés, ainsi que des exemples d'applications en spectroscopie de résonance magnétique nucléaire (RMN) et en biologie structurale.

  • Fogh RH, Boucher W, Ionides JMC, Vranken WF, Stevens TJ, Laue ED. MEMOPS : Modélisation des données et génération automatique de code. J Intégrer Bioinform. 20107(3). doi 10.2390/biecoll-jib-2010-123 PubMed 20375445

Helicobacter pylori est une bactérie pathogène qui colonise l'épithélium humain, provoquant des ulcères duodénaux et gastriques, et des cancers gastriques. Le génome de H. pylori 26695 a été préalablement séquencé et annoté. De plus, deux modèles métaboliques à l'échelle du génome ont été développés. Afin de maintenir des informations précises et pertinentes sur les séquences codantes (CDS) et de récupérer de nouvelles informations, l'attribution de nouvelles fonctions aux gènes Helicobacter pylori 26695s a été réalisée dans ce travail. L'utilisation d'outils logiciels, de bases de données en ligne et d'un pipeline d'annotations pour inspecter chaque gène a permis d'attribuer des numéros EC et des numéros TC validés aux gènes métaboliques codant pour les enzymes et les protéines de transport, respectivement. 1212 gènes codant pour des protéines ont été identifiés dans cette annotation, soit 712 gènes métaboliques et 500 non métaboliques, tandis que 191 nouvelles fonctions ont été attribuées au CDS de cette bactérie. Ces informations fournissent des informations biologiques pertinentes pour la communauté scientifique traitant de cet organisme et peuvent être utilisées comme base pour une nouvelle reconstruction de modèle métabolique.

  • Resende T, Correia DM, Rocha M, Rocha I. Ré-annotation de la séquence du génome de Helicobacter pylori 26695. J Integr Bioinform. 201310(3) :233. doi 10.2390/biecoll-jib-2013-233 PubMed 24231147

Portail de la base de données
Endocrinologie et métabolisme Biologie végétale Interactions moléculaires, voies et réseaux Enzymes
Les plantes cultivées jouent un rôle majeur dans la nutrition humaine et animale et contribuent de plus en plus à l'industrie chimique ou pharmaceutique et aux ressources renouvelables. Afin d'atteindre des objectifs importants, tels que l'amélioration de la croissance ou du rendement, il est indispensable de comprendre les processus biologiques à un niveau détaillé. Par conséquent, la gestion bien structurée d'informations fines sur les voies métaboliques est d'un grand intérêt. Ainsi, nous avons développé le système d'information MetaCrop, un référentiel organisé manuellement d'informations de haute qualité concernant le métabolisme des plantes cultivées. Cependant, l'accès aux données et l'exportation flexible des informations de MetaCrop dans des formats d'échange standard devaient être améliorés. Pour automatiser et accélérer l'accès aux données, nous avons conçu un ensemble de services Web à intégrer dans des logiciels externes. Ces services Web ont déjà été utilisés par un add-on pour la boîte à outils de visualisation VANTED. De plus, nous avons développé une fonction d'exportation pour l'interface Web MetaCrop, permettant ainsi à l'utilisateur de composer des modèles métaboliques individuels à l'aide de SBML.

  • Hippe K, Colmsee C, Czauderna T, et al. Nouveaux développements du système d'information MetaCrop pour faciliter les approches biologiques des systèmes. J Intégrer Bioinform. 20107(3). doi 10.2390/biecoll-jib-2010-125 PubMed 20375443
  • Üstünkar G, Fils YA. METU-SNP : un système logiciel intégré pour l'analyse des associations de maladies SNPComplex. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-187 PubMed 22156365
  • Flanagan K, Nakjang S, Hallinan J, et al. Microbase2.0 : un cadre générique pour les flux de travail de bioinformatique à calcul intensif dans le cloud. J Intégrer Bioinform. 20129(2). doi 10.2390/biecoll-jib-2012-212 PubMed 23001322

Les technologies protéomiques et transcriptomiques ont abouti à des ensembles de données biologiques massifs, leur interprétation nécessitant des stratégies informatiques sophistiquées. Une analyse en temps réel efficace et intuitive reste un défi. Nous utilisons des données protéomiques sur 1417 protéines de la microalgue verte Chlamydomonas reinhardtii pour étudier les paramètres physico-chimiques régissant la sélectivité de trois modifications post-traductionnelles redox (PTM) à base de cystéine : glutathionylation (SSG), nitrosylation (SNO) et liaisons disulfure (SS) réduites par les thiorédoxines . Nous visons à comprendre les mécanismes moléculaires sous-jacents et les déterminants structurels grâce à l'intégration des données du protéome redox du niveau génétique au niveau structurel. Notre approche d'analyse visuelle interactive sur un mur d'affichage de 8,3 m2 d'une résolution de 25 MPixel présente une représentation stéréoscopique en trois dimensions (3D) réalisée par UnityMol WebGL. Les casques de réalité virtuelle complètent la gamme de configurations d'utilisation pour des tâches totalement immersives. Nos expériences confirment qu'un accès rapide à une riche base de données réticulée est nécessaire pour une analyse immersive des données structurelles. Nous soulignons la possibilité d'afficher des structures de données complexes et des relations en 3D, intrinsèques à la visualisation de structures moléculaires, mais moins courantes pour l'analyse de réseaux omiques. Notre configuration est optimisée par MinOmics, un pipeline d'analyse intégré et un cadre de visualisation dédié à l'analyse multi-omique. MinOmics intègre des données provenant de diverses sources dans un référentiel physique matérialisé. Nous évaluons ses performances, un critère de conception du cadre.

  • Maes A, Martinez X, Druart K, Laurent B, Guégan S, Marchand CH, Lemaire SD, Baaden M. MinOmics, an Integrative and Immersive Tool for Multi-Omics Analysis.. J Integr Bioinform. 201815(2). doi 10.1155/jib-2018-0006 PubMed 29927748
  • Busato M, Distefano R, Bates F, Karim K, Bossi AM, López Vilariño JM, Piletsky S, Bombieri N, Giorgetti A. MIRATE: MIps RATional dEsign Science Gateway.. J Integr Bioinform. 201815(4). doi 10.1155/jib-2017-0075 PubMed 29897885

Les microARN (miARN/miR) sont des composants cellulaires importants qui régulent l'expression des gènes au niveau post-transcriptionnel. Divers composants en amont régulent l'expression de miR et toute dérégulation provoque des maladies. Par conséquent, la compréhension du réseau de réglementation miR à la fois en amont et en aval est cruciale et une ressource sur cet aspect sera utile. Les bases de données miR actuellement disponibles sont principalement liées à des cibles, des séquences ou des maladies en aval. Mais pour l'instant, aucune base de données n'est disponible qui fournit une image complète de la régulation miR dans une condition spécifique. Notre ressource Web de régulation miR (miReg) est une ressource organisée manuellement qui représente les régulateurs en amont validés (facteur de transcription, médicament, physique et chimique) ainsi que les cibles en aval, le processus biologique associé, la condition expérimentale ou l'état pathologique, la régulation à la hausse ou à la baisse de la miR dans cet état, et les références PubMed correspondantes de manière graphique et conviviale, consultables à travers 5 options de navigation. Nous avons présenté des faits exacts qui ont été décrits dans la littérature correspondante par rapport à un miR donné, qu'il s'agisse d'une boucle feed-back/feed-forward ou d'une inhibition/activation. De plus, nous avons donné divers liens pour intégrer les données et obtenir une image complète de n'importe quel miR répertorié. La version actuelle (Version 1.0) de miReg contient 47 miR humains importants avec 295 relations utilisant 190 références absolues. Nous avons également fourni un exemple sur l'utilité de miReg pour établir des voies de signalisation impliquées dans la cardiomyopathie. Nous pensons que miReg sera une base de connaissances essentielle sur les miARN pour la communauté de la recherche, avec sa mise à jour continue et l'enrichissement des données. Ce miReg basé sur HTML est accessible à partir de : www.iioab-mireg.webs.com ou www.iioab.webs.com/mireg.htm.

  • Barh D, Bhat D, Viero C. miReg : une ressource pour la régulation des microARN. J Intégrer Bioinform. 20107(1). doi 10.2390/biecoll-jib-2010-144 PubMed 20693604

L'identification des précurseurs de microARN (miARN) a fait l'objet d'efforts accrus ces dernières années. La difficulté de détection expérimentale des pré-miARN a augmenté l'utilisation d'approches informatiques. La plupart de ces approches reposent sur l'apprentissage automatique, en particulier la classification. Afin d'obtenir une classification réussie, de nombreux paramètres doivent être pris en compte, tels que la qualité des données, le choix des paramètres du classificateur et la sélection des caractéristiques. Pour ce dernier, nous avons développé un algorithme génétique distribué sur HTCondor pour effectuer la sélection de caractéristiques. De plus, nous avons utilisé deux algorithmes de classification largement utilisés libSVM et random forest avec des paramètres différents pour analyser l'influence sur les performances globales de classification. Dans cette étude, nous avons analysé 5 génomes de rétrovirus humains Rétrovirus endogène humain K113, virus de l'hépatite B (souche ayw), virus lymphotrope T humain 1, virus lymphotrope T humain 2, virus de l'immunodéficience humaine 2 et virus de l'immunodéficience humaine 1. Nous avons ensuite prédit -miARN en utilisant les informations de virus connus et de pré-miARN humains. Nos résultats indiquent que ces virus produisent de nouveaux précurseurs de miARN inconnus qui justifient une validation expérimentale supplémentaire.

  • Saçar demirci MD, Toprak M, Allmer J. Une approche d'apprentissage automatique pour la prédiction de précurseurs de microARN dans la rétro-transcription des génomes de virus. J Intégrer Bioinform. 201613(5):303. doi 10.2390/biecoll-jib-2016-303 PubMed 28187417

Les petits ARN non codants, en particulier les microARN, sont essentiels à la physiologie normale et sont des biomarqueurs, des régulateurs et des cibles thérapeutiques candidats pour une grande variété de maladies. Il existe un intérêt croissant pour l'annotation complète et précise des microARN dans divers types de cellules, conditions, espèces et états pathologiques. La technologie de séquençage à haut débit est devenue la méthode de choix pour le profilage des microARN. Des stratégies bioinformatiques spécialisées sont nécessaires pour extraire autant d'informations significatives que possible à partir des données de séquençage afin de fournir une vue complète du paysage des microARN. Nous présentons ici miRquant 2.0, un outil bioinformatique étendu pour une annotation et une quantification précises des microARN et de leurs isoformes (appelés isomiRs) à partir de petites données de séquençage d'ARN. Nous prévoyons que miRquant 2.0 sera utile aux chercheurs intéressés non seulement à quantifier les microARN connus, mais aussi à exploiter le riche puits d'informations supplémentaires intégrées dans les petites données de séquençage d'ARN.

  • Kanke M, Baran-Gale J, Villanueva J, Sethupathy P. miRquant 2.0 : un outil étendu pour une annotation et une quantification précises des microARN et de leurs isomiR à partir de petites données de séquençage d'ARN. J Intégrer Bioinform. 201613(5).doi 10.2390/biecoll-jib-2016-307 PubMed 28187421
  • Baumbach J, Wittkop T, Weile J, Kohl T, Rahmann S. MoRAine - un serveur Web pour la ré-annotation rapide du motif de liaison du facteur de transcription. J Intégrer Bioinform. 20085(2). doi 10.2390/biecoll-jib-2008-91 PubMed 20134062
  • Wittkop T, Rahmann S, Baumbach J. Ajustement efficace du site de liaison du facteur de transcription en ligne en intégrant la projection de graphes transitifs avec MoRAine 2.0. J Intégrer Bioinform. 20107(3). doi 10.2390/biecoll-jib-2010-117 PubMed 20375458

application Web
Analyse de séquences Protéines Interactions moléculaires, voies et réseaux Séquençage Interactions protéiques
Au cours des dernières années, plusieurs nouveaux outils applicables à l'analyse des protéines ont été mis à disposition sur le site Web de l'IBIVU. Récemment, un certain nombre d'outils, allant de la construction d'alignements de séquences multiples à la prédiction de domaine, ont été mis à jour et/ou étendus avec des services d'accès programmatique utilisant SOAP. Nous donnons un aperçu de ces outils et de leur application.

  • Brandt BW, Heringa J. Outils et services d'analyse de protéines à l'IBIVU. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-168 PubMed 21900709

Outil de ligne de commande
ADN Éléments génétiques mobiles Analyse de séquences
Contexte L'élément transposable à répétition inversée miniature (MITE) est un élément transposable court, ne portant aucune région codant pour une protéine. Cependant, son taux de prolifération élevé et sa préférence d'insertion spécifique à la séquence en font un bon outil génétique à la fois pour l'évolution naturelle et la mutagenèse expérimentale par insertion. Les copies MITE récemment actives sont celles avec des signaux clairs de répétitions inversées terminales (TIR) ​​et de répétitions directes (DR), et ont récemment été transférées dans leurs sites actuels. Leur capacité de prolifération en fait de bons candidats pour l'étude de l'évolution génomique. Résultats Cette étude optimise le code C++ et le pipeline d'exécution du MITE Uncovering SysTem (MUST) en supposant qu'aucune connaissance préalable des MITE n'est requise de la part des utilisateurs, et la version actuelle, MUSTv2, montre une précision de détection considérablement accrue pour les MITE récemment actifs, par rapport à des MITE similaires. programmes. La vitesse de course est également considérablement augmentée par rapport à MUSTv1. Nous avons préparé un ensemble de données de référence, le génome simulé avec 150 copies MITE pour les chercheurs susceptibles de présenter un intérêt. Conclusions MUSTv2 représente un programme de détection précis des copies MITE récemment actives, qui est complémentaire aux programmes de cartographie MITE existants basés sur des modèles. Nous pensons que la sortie de MUSTv2 facilitera grandement l'annotation du génome et l'analyse structurelle des chercheurs en big data bioOMIC.

  • Ge R, Mai G, Zhang R, Wu X, Wu Q, Zhou F. MUSTv2 : un programme de détection de novo amélioré pour les éléments transposables répétés inversés miniatures récemment actifs (MITE). J Intégrer Bioinform. 201714(3). doi 10.1155/jib-2017-0029 PubMed 28796642

Application Web du portail de la base de données
Intégration et stockage des données sur la biodiversité
Les champignons jouent un rôle crucial dans les écosystèmes et sont des associés importants pour de nombreux organismes. Ils sont adaptés à une grande variété d'habitats, mais leur répartition mondiale et leur diversité restent mal documentées. La croissance exponentielle des informations de code-barres ADN extraites de l'environnement aide considérablement les méthodes traditionnelles de décryptage de la diversité et de la détection des champignons. Les données ADN brutes associées aux descripteurs environnementaux des études de méta-codage à barres sont mises à disposition dans des archives publiques de lecture de séquences. Bien qu'il s'agisse d'une source d'informations potentiellement précieuse pour l'étude des champignons dans diverses conditions environnementales, l'annotation utilisée pour décrire l'environnement est hétérogène. De plus, un pipeline de traitement uniforme doit encore être appliqué aux données ADN brutes disponibles. Par conséquent, un cadre complet pour analyser ces données dans un large contexte fait toujours défaut. Nous présentons la MycoDiversity DataBase, une base de données qui comprend des données publiques de métabarcodage fongique d'échantillons environnementaux pour l'étude des modèles de biodiversité des champignons. Le cadre que nous proposons contribuera à notre compréhension de la biodiversité fongique et vise à devenir une source précieuse pour les analyses à grande échelle des modèles dans l'espace et le temps, en plus d'aider la recherche évolutive et écologique sur les champignons.

  • Martorelli I, Helwerda LS, Kerkvliet J, Gomes SIF, Nuytinck J, van der Werff CRA, Ramackers GJ, Gultyaev AP, Merckx VSFT, Verbeek FJ. Cadre d'intégration de données de metabarcoding fongique pour la base de données MycoDiversity (MDDB). J Integr Bioinform. 2020. doi 10.1155/jib-2019-0046 PubMed 32463383

Les réseaux biologiques peuvent être vastes et complexes, souvent constitués de différents sous-réseaux ou parties. La séparation des réseaux en parties, le partitionnement du réseau et les dispositions de la vue d'ensemble et des sous-graphiques sont importants pour des visualisations compréhensibles de ces réseaux. Cet article présente NetPartVis pour visualiser des clusters ou des partitions de graphes qui ne se chevauchent pas dans le framework Vanted, basé sur une méthode de présentation du graphe d'ensemble et de plusieurs sous-graphes (partitions) de manière coordonnée et préservant la carte mentale.

  • Garkov D, Klein K, Klukas C, Schreiber F. Visualisation préservant la carte mentale des réseaux partitionnés dans Vanted .. J Integr Bioinform. 2019. doi 10.1155/jib-2019-0026 PubMed 31199771

Les organismes essaient de maintenir l'homéostasie par une absorption équilibrée des nutriments de leur environnement. D'un point de vue atomique, cela signifie que, par exemple, les rapports carbone:azote:soufre sont maintenus dans des limites données. Lors de la limitation, par exemple du soufre, son acquisition est déclenchée. Pour la levure, il a été montré que les transporteurs et les enzymes impliqués dans l'absorption du soufre sont codés en tant que gènes paralogues qui expriment différentes isoformes. La privation de soufre entraîne une régulation à la hausse des isoformes pauvres en acides aminés soufrés, c'est-à-dire la méthinone et la cystéine. En conséquence, les isoformes riches en soufre sont régulées à la baisse. Nous avons développé un logiciel Web, dopé Nutrilyzer, qui extrait des séquences codantes de protéines paralogues à partir d'une séquence génomique annotée et évalue leur composition atomique. Lorsqu'il est alimenté avec des données d'expression génique pour des conditions nutritionnelles limitées et normales, Nutrilyzer fournit une liste de gènes qui sont exprimés de manière significativement différente et contiennent simultanément des quantités significativement différentes du nutriment limité dans leur composition atomique. Son utilisation prévue se situe dans le domaine de la stoechiométrie écologique. Nutrilyzer est disponible sur http://nutrilyzer.hs-mittweida.de. Nous décrivons ici le flux de travail et les résultats avec un exemple d'une analyse de l'expression des gènes d'Arabidopsis thaliana du génome entier lors de la privation d'oxygène. 43 paralogues répartis sur 37 groupes d'homologie se sont avérés être exprimés de manière significativement différente tout en contenant des quantités d'oxygène significativement différentes.

  • Lotz K, Schreiber F, Wünschiers R. Nutrilyzer: Un outil pour déchiffrer la stoechiométrie atomique des protéines paralogues différentiellement exprimées. J Intégrer Bioinform. 20129(2). doi 10.2390/biecoll-jib-2012-196 PubMed 22796635

Nous présentons Omics Fusion, une nouvelle plate-forme Web pour l'analyse intégrative des données omics. Omics Fusion fournit une collection d'outils et de méthodes de visualisation nouveaux et établis pour aider les chercheurs à explorer les données omiques, à valider les résultats ou à comprendre comment ajuster les expériences afin de faire de nouvelles découvertes. Il est facilement extensible et de nouvelles méthodes de visualisation sont ajoutées en continu. Il est disponible gratuitement sous : https://fusion.cebitec.uni-bielefeld.de/.

  • Brink BG, Seidel A, Kleinbölting N, Nattkemper TW, Albaum SP. Omics Fusion - Une plate-forme pour l'analyse intégrative des données Omics. J Intégrer Bioinform. 201613(4):296. doi 10.2390/biecoll-jib-2016-296 PubMed 28187412

Les études génomiques à haut débit peuvent identifier un grand nombre de gènes candidats potentiels, qui doivent être interprétés et filtrés par les chercheurs pour sélectionner les meilleurs pour une analyse plus approfondie. La hiérarchisation est généralement basée sur des preuves qui soutiennent le rôle d'un produit génique dans le processus biologique à l'étude. Les deux principaux corpus d'informations fournissant de telles preuves sont les bases de données bioinformatiques et la littérature scientifique. Dans cet article, nous présentons une extension du cadre d'intégration de données Ondex qui utilise des techniques d'exploration de texte sur les résumés Medline comme méthode pour accéder à ces deux ensembles de preuves de manière cohérente. Dans un exemple de cas d'utilisation, nous appliquons notre méthode pour créer une base de connaissances sur les protéines d'Arabidopsis impliquées dans la réponse au stress des plantes et utilisons diverses métriques de notation pour identifier les principales associations protéine-stress. En conclusion, nous montrons que les fonctionnalités supplémentaires d'exploration de texte sont capables de mettre en évidence des protéines à l'aide de la littérature scientifique qui n'auraient pas été vues en utilisant uniquement l'intégration de données. Ondex est un projet de logiciel open source et peut être téléchargé, avec les fonctionnalités d'exploration de texte décrites ici, à partir de www.ondex.org.

  • Hassani-Pak K, Legaie R, Canevet C, van den Berg HA, Moore JD, Rawlings CJ. Améliorer l'intégration des données avec l'analyse de texte pour trouver les protéines impliquées dans la réponse au stress des plantes. J Intégrer Bioinform. 20107(3). doi 10.2390/biecoll-jib-2010-121 PubMed 20375451

L'annotation automatisée des données issues du séquençage à haut débit et des expériences de génomique est un défi important pour la bioinformatique. La plupart des approches actuelles reposent sur des pipelines séquentiels de méthodes de recherche de gènes et de prédiction de la fonction des gènes qui annotent un gène avec des informations provenant de différentes sources de données de référence. Chaque méthode de prédiction de fonction apporte des preuves à l'appui d'une affectation fonctionnelle. De telles approches ignorent généralement les liens entre les informations contenues dans les ensembles de données de référence. Ces liens, cependant, sont précieux pour évaluer la plausibilité d'une affectation de fonction et peuvent être utilisés pour évaluer la confiance dans une prédiction. Nous travaillons à un nouveau système d'annotation qui utilise le réseau d'informations prenant en charge l'attribution de fonction pour enrichir le processus d'annotation à l'usage des conservateurs experts et prédire la fonction de gènes précédemment non annotés. Dans cet article, nous décrivons notre succès dans les premières étapes de ce développement. Nous présentons les étapes d'intégration des données nécessaires à la création de la base de données de base des bases de données de référence intégrées (UniProt, PFAM, PDB, GO et la base de données de parcours Ara-Cyc) qui a été établie dans le système d'intégration de données ONDEX. Nous présentons également une comparaison entre différentes méthodes d'intégration des termes GO dans le cadre du pipeline d'attribution de fonction et discutons des conséquences de cette analyse pour améliorer la précision de l'annotation de la fonction génique. Les méthodes et algorithmes présentés dans cette publication font partie intégrante du système ONDEX qui est disponible gratuitement sur http://ondex.sf.net/.

  • Pesch R, Lyssenko A, Hindle M, et al. Annotation de séquences basée sur des graphes utilisant une approche d'intégration de données. J Intégrer Bioinform. 20085(2). doi 10.2390/biecoll-jib-2008-94 PubMed 20134069

Les cahiers de laboratoire électroniques (ELN) sont plus accessibles et fiables que leurs alternatives papier et sont donc largement adoptés. Alors qu'un grand nombre de produits commerciaux est disponible, les laboratoires de petite et moyenne taille ne peuvent souvent pas se permettre les coûts ou sont préoccupés par la longévité des fournisseurs. Se tourner vers des alternatives gratuites soulève cependant des questions sur la protection des données, qui ne sont pas suffisamment abordées par les solutions disponibles. Pour servir de documents juridiques, les ELN doivent empêcher la fraude scientifique par des moyens techniques tels que les signatures numériques. Il serait également avantageux qu'un ELN soit intégré à un système de gestion de l'information de laboratoire pour permettre une documentation complète du travail expérimental, y compris l'emplacement des échantillons qui ont été utilisés dans une expérience particulière. Ici, nous présentons OpenLabNotes, qui ajoute des capacités ELN de pointe à OpenLabFramework, un système de gestion des informations de laboratoire puissant et flexible. Contrairement à des solutions comparables, il permet de protéger la propriété intellectuelle de ses utilisateurs en offrant une protection des données avec des signatures numériques. OpenLabNotes comble efficacement le fossé entre la documentation de recherche et la gestion des échantillons, rendant ainsi Open-LabFramework plus attrayant pour les laboratoires qui cherchent à augmenter leur productivité grâce à la gestion électronique des données.

  • Liste M, Franz M, Tan Q, Mollenhauer J, Baumbach J. OpenLabNotes--An Electronic Laboratory Notebook Extension for OpenLabFramework. J Intégrer Bioinform. 201512(3):274. doi 10.2390/biecoll-jib-2015-274 PubMed 26673790

Bibliothèque d'outils de ligne de commande
Expérience sur puces à ADN Expression génique
L'analyse de corrélation supposant la coexpression des gènes est une méthode largement utilisée pour l'analyse de l'expression génique en biologie moléculaire. Pourtant, l'étendue, la qualité et la dimensionnalité croissantes des données de biologie moléculaire permettent l'émergence d'approches plus sophistiquées telles que les implications booléennes. Nous présentons une approche qui est une combinaison de la méthode d'apprentissage automatique SOM (cartes auto-organisatrices) et de l'analyse d'implication booléenne pour identifier les relations entre les gènes, les métagènes et les groupes de métagènes au comportement similaire (spots). Notre méthode fournit un moyen d'attribuer des états booléens aux gènes/métagènes/spots et offre une vue fonctionnelle sur des éléments significativement variants des données d'expression génique à ces trois niveaux différents. Tout en pouvant couvrir les relations entre entités faiblement corrélées, la méthode d'implication booléenne décompose également ces relations en six classes d'implication. Notre méthode permet de valider ou d'identifier les relations potentielles entre les gènes et les modules fonctionnels d'intérêt et d'évaluer leur comportement de commutation. De plus, le résultat de la méthode permet de construire et d'étudier le réseau de gènes. En fournissant des implications logiques en tant que règles de mise à jour pour le réseau, il peut également servir à faciliter les approches de modélisation.

  • Çakır MV, Binder H, Wirth H. Profilage des commutateurs génétiques à l'aide d'implications booléennes dans les données d'expression. J Intégrer Bioinform. 201411(1). doi 10.2390/biecoll-jib-2014-246 PubMed 25318120
  • Silva FJM da, Pérez JMS, Pulido JAG, Rodríguez MAV. Parallel Niche Pareto AlineaGA - une approche évolutive multiobjectif sur l'alignement de séquences multiples. J Intégrer Bioinform. 20118(3). doi 10.2390/biecoll-jib-2011-174 PubMed 21926437

API Web
Interactions moléculaires, voies et réseaux Gestion des données
Les voies biologiques sont cruciales pour une grande partie de la recherche scientifique d'aujourd'hui, y compris l'étude de processus biologiques spécifiques liés aux maladies humaines. PathJam est une nouvelle application de serveur Web complète et librement accessible intégrant des annotations de voies humaines dispersées à partir de plusieurs sources publiques. L'outil a été conçu à la fois pour (i) être intuitif pour les utilisateurs de laboratoires humides fournissant une analyse d'enrichissement statistique des annotations de voies et (ii) pour soutenir le développement de nouvelles applications de voies intégratives. Les caractéristiques et avantages uniques de PathJam incluent des graphiques interactifs reliant les voies et les gènes d'intérêt, des résultats téléchargeables dans des formats entièrement compatibles, des fichiers de sortie compatibles GSEA et une API RESTful standardisée.

  • Glez-Peña D, Reboiro-Jato M, Domínguez R, Gómez-López G, Pisano DG, Fdez-Riverola F. PathJam : un nouveau service d'intégration d'informations sur les voies biologiques. J Intégrer Bioinform. 20107(1). doi 10.2390/biecoll-jib-2010-147 PubMed 20980714

Application de bureau
Biologie des systèmes Interactions, voies et réseaux moléculaires
Notre compréhension des processus biologiques complexes peut être améliorée en combinant différents types de données expérimentales à haut débit, mais l'utilisation d'identifiants incompatibles rend l'intégration des données un défi. Notre objectif était d'améliorer les méthodes d'intégration et de visualisation de différents types de données omiques. Pour valider ces méthodes, nous les avons appliquées à deux études précédentes sur la famine chez la souris, l'une utilisant la protéomique et l'autre utilisant la technologie de la transcriptomique. Nous avons étendu le logiciel PathVisio avec de nouveaux plugins pour lier les protéines, les transcrits et les voies. Une faible corrélation globale entre les données du protéome et du transcriptome a été détectée (corrélation de rang de Spearman : 0,21). Au niveau des gènes individuels, la corrélation était très variable. De nombreuses paires ARNm/protéine, telles que la fructose biphosphate aldolase B et l'ATP Synthase, présentent une bonne corrélation. Pour d'autres paires, telles que la ferritine et le facteur d'élongation 2, un effet intéressant est observé, où les niveaux d'ARNm et de protéines changent dans des directions opposées, suggérant qu'ils ne sont pas principalement régulés au niveau transcriptionnel. Nous avons utilisé des diagrammes de cheminement pour visualiser les ensembles de données intégrés et avons trouvé encourageant que les données de transcriptomique et de protéomique se soutiennent mutuellement au niveau du cheminement. La visualisation de l'ensemble de données intégré sur les voies a conduit à de nouvelles observations sur la régulation des gènes dans la réponse de l'intestin à la famine. Nos méthodes sont génériques et peuvent être appliquées à toute étude multi-omique. Le logiciel PathVisio peut être obtenu sur http://www.pathvisio.org. Des données supplémentaires sont disponibles sur http://www.bigcat.unimaas.nl/data/jib-supplemental/ , y compris des instructions sur la reproduction des visualisations des voies de ce manuscrit.

  • Van iersel MP, Sokolović M, Lenaerts K, et al. Visualisation intégrée d'une étude multi-omique de la famine dans l'intestin de la souris. J Intégrer Bioinform. 201411(1):235. doi 10.2390/biecoll-jib-2014-235 PubMed 24675236

Les microARN (miR) sont connus pour interférer avec l'expression de l'ARNm, et de nombreux travaux ont été consacrés à la prédiction et à la déduction des interactions miR-ARNm. Les prédictions d'interaction basées sur les séquences ainsi que l'inférence d'interaction basée sur les données d'expression se sont avérées quelque peu fructueuses en outre, les modèles qui combinent les deux méthodes ont eu encore plus de succès. Dans cet article, j'affine et enrichis davantage les méthodes de découverte de l'interaction miRmRNA en intégrant un algorithme de clustering bayésien dans un modèle d'inférence cible miR-mRNA améliorée par prédiction, créant un algorithme appelé PEACOAT, qui est écrit en langage R. Je montre que PEACOAT améliore l'inférence des interactions cibles miR-ARNm en utilisant à la fois des données simulées et un ensemble de données de puces à ADN provenant d'échantillons de patients atteints de myélome multiple. Dans des réseaux simulés de 25 miR et d'ARNm, nos méthodes utilisant le clustering peuvent améliorer l'inférence dans environ les deux tiers des cas, et dans l'ensemble de données sur le myélome multiple, l'enrichissement de la voie KEGG s'est avéré plus important avec le clustering que sans. Nos résultats sont cohérents avec les travaux antérieurs sur le regroupement de réseaux génétiques non miR et indiquent qu'il pourrait y avoir un avantage significatif au regroupement des données d'expression de miR et d'ARNm dans le cadre de l'inférence d'interaction.

  • Godsey B. Découverte des interactions miR-ARNm via l'inférence bayésienne simultanée de réseaux et de clusters de gènes à l'aide de prédictions basées sur des séquences et de données d'expression. J Intégrer Bioinform. 201310(1). doi 10.2390/biecoll-jib-2013-227 PubMed 23846182

La biologie des systèmes joue un rôle central pour l'analyse des réseaux biologiques à l'ère post-génomique. Cytoscape est l'outil bioinformatique standard offrant à la communauté une plate-forme extensible pour l'analyse informatique du réseau cellulaire émergent ainsi que des ensembles de données expérimentales omiques. Cependant, seules quelques applications/plugins/outils sont disponibles pour simuler la dynamique du réseau dans Cytoscape 3. De nombreuses approches de complexité variable existent mais aucune d'entre elles n'a encore été intégrée dans Cytoscape en tant qu'application/plugin.Ici, nous présentons PetriScape, le premier simulateur de réseau Petri pour Cytoscape. Bien que les réseaux de Petri discrets soient des modèles assez simplistes, ils sont capables de modéliser les propriétés d'un réseau global et de simuler leur comportement. De plus, ils sont faciles à comprendre et bien visualisables. PetriScape est livré avec les fonctionnalités principales suivantes : (1) importation de réseaux biologiques au format SBML, (2) conversion en réseau de Petri, (3) visualisation en réseau de Petri, et (4) simulation et visualisation du flux de jetons dans Cytoscape. PetriScape est le premier plugin Cytoscape pour les réseaux de Petri. Il permet une création, une simulation et une visualisation directes du modèle de réseau de Petri avec Cytoscape, fournissant des indices sur l'activité des composants clés des réseaux biologiques.

  • Almeida D, Azevedo V, Silva A, Baumbach J. PetriScape - Un plugin pour les simulations discrètes de réseaux de Petri dans Cytoscape. J Intégrer Bioinform. 201613(1):284. doi 10.2390/biecoll-jib-2016-284 PubMed 27402693

Les améliorations apportées à la technologie de séquençage du génome ont augmenté la disponibilité des génomes complets et des transcriptomes de nombreux organismes. Cependant, l'intérêt majeur du séquençage parallèle massif est de mieux comprendre l'organisation et la fonction des gènes, ce qui conduit ensuite à la compréhension des phénotypes. Afin d'interpréter les données génomiques avec des études automatisées d'annotation de gènes, plusieurs outils sont actuellement disponibles. Même si la précision de l'annotation informatique des gènes augmente, une combinaison de plusieurs lignes de preuves expérimentales doit être rassemblée. La spectrométrie de masse permet l'identification et le séquençage des protéines en tant que produits géniques majeurs et ce sont seulement ces protéines qui montrent de manière concluante si une partie d'un génome est une région codante ou non pour aboutir à des phénotypes. Par conséquent, dans le domaine de la protéogénomique, la validation des méthodes de calcul se fait en exploitant les données de spectrométrie de masse. En conséquence, l'identification de nouvelles régions codant pour les protéines, la validation des modèles de gènes actuels et la détermination des régions en amont et en aval des gènes peuvent être réalisées. Dans cet article, nous présentons une nouvelle fonctionnalité pour notre outil protéogénomique, PGMiner, qui effectue toutes les étapes protéogénomiques telles que l'acquisition de données de spectrométrie de masse, l'identification de peptides par rapport à des bases de données de séquences prétraitées, l'attribution d'une confiance statistique aux peptides identifiés, la cartographie de peptides sûrs à des modèles de gènes et le résultat visualisation. Les extensions couvrent la détermination des peptides protéotypiques et donc l'identification sans ambiguïté des protéines. De plus, les peptides en conflit avec les modèles de gènes peuvent désormais être évalués automatiquement dans le contexte de cadres de lecture ouverts alternatifs prévus.

  • A C, Lashin SA, Kochetov A, Allmer J. PGMiner rechargé, outil d'annotation protéogénomique entièrement automatisé reliant les génomes aux protéomes. J Intégrer Bioinform. 201613(4) : 16-23. doi 10.2390/biecoll-jib-2016-293 PubMed 28187409
  • Thiele H, Glandorf J, Hufnagel P. Stratégies bioinformatiques en sciences de la vie : du traitement et de l'entreposage des données à l'extraction des connaissances biologiques. J Intégrer Bioinform. 20107(1):141. doi 10.2390/biecoll-jib-2010-141 PubMed 20508300
  • Mallika V, Sivakumar KC, Jaichand S, Soniya EV. Algorithme d'apprentissage automatique basé sur le noyau pour la prédiction efficace de la famille de protéines polykétide synthase de type III. J Intégrer Bioinform. 20107(1). doi 10.2390/biecoll-jib-2010-143 PubMed 20625199

application Web
Prédiction de structure Structure secondaire de protéines Analyse de séquences Replis de protéines et domaines structuraux Analyse de structure d'acide nucléique
Au cours des dernières années, plusieurs nouveaux outils applicables à l'analyse des protéines ont été mis à disposition sur le site Web de l'IBIVU. Récemment, un certain nombre d'outils, allant de la construction d'alignements de séquences multiples à la prédiction de domaine, ont été mis à jour et/ou étendus avec des services d'accès programmatique utilisant SOAP. Nous donnons un aperçu de ces outils et de leur application.

  • Brandt BW, Heringa J. Outils et services d'analyse de protéines à l'IBIVU. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-168 PubMed 21900709

Les microARN sont de courts transcrits d'ARN non codants qui agissent comme des régulateurs cellulaires maîtres avec des rôles dans l'orchestration de pratiquement toutes les fonctions biologiques. L'accessibilité récente et l'utilisation généralisée des technologies de profilage de microARN à haut débit se sont développées parallèlement à l'avancement des outils bioinformatiques disponibles pour l'analyse du flux de données de montage. Bien qu'il existe de nombreuses ressources informatiques disponibles pour la gestion des données provenant d'animaux séquencés du génome, les chercheurs sont souvent confrontés au défi d'identifier les implications biologiques de la quantité impressionnante de données générées par ces technologies à haut débit. Dans cet article, nous passons en revue l'état actuel des plates-formes de profilage d'expression de microARN à haut débit, des processus d'analyse de données et des outils de calcul dans le contexte de la physiologie moléculaire comparative. Nous présentons également RBioMIR et RBioFS, nos implémentations de packages R pour l'analyse de l'expression différentielle et la sélection aléatoire de gènes basée sur les forêts. Des guides d'installation détaillés sont disponibles sur kenstoreylab.com.

  • Zhang J, Hadj-Moussa H, étage KB. Progrès actuels de l'analyse de l'expression différentielle des microARN à haut débit et de la sélection aléatoire des gènes forestiers pour les systèmes modèles et non modèles : une implémentation R. J Intégrer Bioinform. 201613(5). doi 10.2390/biecoll-jib-2016-306 PubMed 28187420

Les microARN sont de courts transcrits d'ARN non codants qui agissent comme des régulateurs cellulaires maîtres avec des rôles dans l'orchestration de pratiquement toutes les fonctions biologiques. L'accessibilité récente et l'utilisation généralisée des technologies de profilage de microARN à haut débit se sont développées parallèlement à l'avancement des outils bioinformatiques disponibles pour l'analyse du flux de données de montage. Bien qu'il existe de nombreuses ressources informatiques disponibles pour la gestion des données provenant d'animaux séquencés du génome, les chercheurs sont souvent confrontés au défi d'identifier les implications biologiques de la quantité impressionnante de données générées par ces technologies à haut débit. Dans cet article, nous passons en revue l'état actuel des plates-formes de profilage d'expression de microARN à haut débit, des processus d'analyse de données et des outils de calcul dans le contexte de la physiologie moléculaire comparative. Nous présentons également RBioMIR et RBioFS, nos implémentations de packages R pour l'analyse de l'expression différentielle et la sélection aléatoire de gènes basée sur les forêts. Des guides d'installation détaillés sont disponibles sur kenstoreylab.com.

  • Zhang J, Hadj-Moussa H, étage KB. Progrès actuels de l'analyse de l'expression différentielle des microARN à haut débit et de la sélection aléatoire des gènes forestiers pour les systèmes modèles et non modèles : une implémentation R. J Intégrer Bioinform. 201613(5). doi 10.2390/biecoll-jib-2016-306 PubMed 28187420

Application de bureau
Biologie des systèmes Biochimie Biologie chimique Expérience de simulation
Les systèmes de réaction-diffusion sont des modèles mathématiques qui décrivent comment les concentrations de substances distribuées dans l'espace changent sous l'influence de réactions chimiques locales et de la diffusion qui provoque la dispersion des substances dans l'espace. La représentation classique d'un système de réaction-diffusion est donnée par des équations aux dérivées partielles paraboliques semi-linéaires, dont la solution prédit comment la diffusion fait changer le champ de concentration avec le temps. Cette variation est proportionnelle au coefficient de diffusion. Si le soluté se déplace dans un système homogène en équilibre thermique, les coefficients de diffusion sont des constantes qui ne dépendent pas de la concentration locale de solvant et de soluté. Cependant, dans les milieux non homogènes et structurés, l'hypothèse d'un coefficient de diffusion intracellulaire constant n'est pas nécessairement valable et, par conséquent, le coefficient de diffusion est fonction de la concentration locale de solvant et de solutés. Dans cet article, nous proposons un modèle stochastique de systèmes de réaction-diffusion, dans lequel les coefficients de diffusion sont fonction de la concentration locale, de la viscosité et des forces de frottement. Nous décrivons ensuite l'outil logiciel Redi (simulateur REaction-Diffusion) que nous avons développé afin d'implémenter ce modèle dans un algorithme de simulation stochastique de type Gillespie. Enfin, nous montrons la capacité de notre modèle implémenté dans l'outil Redi à reproduire le gradient observé de la protéine bicoïde dans l'embryon de Drosophila Melanogaster. Avec Redi, nous avons pu simuler avec une précision de 1% la dynamique spatio-temporelle expérimentale de la protéine bicoïde, telle qu'enregistrée dans des expériences time-lapse obtenues par des mesures directes de la protéine fluorescente verte transgénique bicoïdienne.

  • Lecca P, Ihekwaba AEC, Dematté L, Priami C. Simulation stochastique de la dynamique spatio-temporelle des systèmes de réaction-diffusion : le cas du gradient bicoïde. J Intégrer Bioinform. 20107(1). doi 10.2390/biecoll-jib-2010-150 PubMed 21098882
  • Pitkänen E, Åkerlund A, Rantanen A, Jouhten P, Ukkonen E. ReMatch : un outil Web pour construire, stocker et partager des modèles métaboliques stoechiométriques avec des cartes de carbone pour l'analyse des flux métaboliques. J Intégrer Bioinform. 20085(2). doi 10.2390/biecoll-jib-2008-102 PubMed 20134058
  • Ameline de cadeville B, Loréal O, Moussouni-marzolf F. RetroMine, ou comment fournir des études rétrospectives approfondies de Medline en un clin d'œil : le cas d'usage de l'hepcidine. J Intégrer Bioinform. 201512(3):275. doi 10.2390/biecoll-jib-2015-275 PubMed 26673791

Comprendre comment les réactions métaboliques traduisent le génome d'un organisme en son phénotype est un grand défi en biologie. Les études d'association à l'échelle du génome (GWAS) relient statistiquement les génotypes aux phénotypes, sans aucun recours aux interactions moléculaires connues, tandis qu'une description mécaniste moléculaire lie la fonction des gènes au phénotype par le biais de réseaux de régulation génétique (GRN), d'interactions protéine-protéine (PPI) et de voies moléculaires. . L'intégration de différents niveaux d'informations réglementaires d'un organisme devrait fournir un bon moyen de cartographier les génotypes en phénotypes. Cependant, l'absence de modèle métabolique de riz organisé bloque l'exploration de la reconstruction de réseaux à plusieurs niveaux à l'échelle du génome. Ici, nous avons fusionné les approches des GRN, des PPI et des réseaux métaboliques à l'échelle du génome (GSMN) dans un cadre unique pour le riz via la reconstruction et l'intégration des informations réglementaires des omiques. Tout d'abord, nous avons reconstruit un modèle métabolique à l'échelle du génome, contenant 4 462 gènes fonctionnels, 2 986 métabolites impliqués dans 3 316 réactions, et compartimenté en dix emplacements subcellulaires. De plus, 90 358 paires d'interactions protéine-protéine, 662 936 paires de régulations géniques et 1 763 interactions microARN-cible ont été intégrées dans le modèle métabolique. Finalement, une base de données a été développée pour stocker et récupérer systématiquement le réseau multi-niveaux à l'échelle du génome du riz. Cela fournit une référence pour comprendre la relation génotype-phénotype du riz, et pour l'analyse de son réseau de régulation moléculaire.

  • Liu L, Mei Q, Yu Z, Sun T, Zhang Z, Chen M. Un cadre bioinformatique intégratif pour la reconstruction de réseaux à plusieurs niveaux à l'échelle du génome du riz. J Intégrer Bioinform. 201310(2) :223. doi 10.2390/biecoll-jib-2013-223 PubMed 23563093
  • Lee HM, Dietz KJ, Hofestädt R. Prédiction des protéines cibles de la thiorédoxine et de la glutarédoxine en identifiant les résidus cystéinyle oxydés de manière réversible. J Intégrer Bioinform. 20107(3). doi 10.2390/biecoll-jib-2010-130 PubMed 20375441

SAD_BaSe est un logiciel d'analyse des données des banques de sang, créé pour aider à la gestion des dons de sang et de la chaîne de production de sang dans les établissements de transfusion sanguine. En particulier, le système assure le suivi de plusieurs indicateurs de collecte et de production, permet la définition des stratégies de collecte et de production, et la mesure des indicateurs de qualité requis par le Système de Management de la Qualité réglementant le fonctionnement général des établissements du sang. Cet article décrit le scénario général des établissements de transfusion sanguine et ses principales exigences en termes de gestion et d'analyse des données. Il présente l'architecture de SAD_BaSe et identifie ses principales contributions. Plus précisément, il propose la génération de rapports personnalisés guidés par les besoins de prise de décision et l'utilisation de techniques d'exploration de données dans l'analyse des suspensions de donneurs et des rejets de dons.

  • Ramoa A, Maia S, Lourenço A. Un cadre rationnel pour la prise de décision de production dans les établissements de transfusion sanguine. J Intégrer Bioinform. 20129(3):204. doi 10.2390/biecoll-jib-2012-204 PubMed 22829575

Les progrès de la bioinformatique ont contribué à une augmentation significative des informations disponibles. L'analyse de l'information nécessite l'utilisation de systèmes informatiques distribués pour engager au mieux le processus d'analyse des données. Cette étude propose un système multi-agents qui intègre la technologie des grilles pour faciliter l'analyse des données distribuées en incorporant dynamiquement les rôles associés à chaque étude de cas spécifique. Le système a été appliqué aux données de séquençage génétique pour extraire des informations pertinentes sur les insertions, les suppressions ou les polymorphismes.

  • González R, Zato C, Benito R, et al. Extraction automatique de connaissances en analyse de séquençage avec système multi-agents et calcul en grille. J Intégrer Bioinform. 20129(3):206. doi 10.2390/biecoll-jib-2012-206 PubMed 22829577

Au cours des dernières années, plusieurs nouveaux outils applicables à l'analyse des protéines ont été mis à disposition sur le site Web de l'IBIVU. Récemment, un certain nombre d'outils, allant de la construction d'alignements de séquences multiples à la prédiction de domaine, ont été mis à jour et/ou étendus avec des services d'accès programmatique utilisant SOAP. Nous donnons un aperçu de ces outils et de leur application.

  • Brandt BW, Heringa J. Outils et services d'analyse de protéines à l'IBIVU. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-168 PubMed 21900709

L'identification des gènes et des SNP impliqués dans les maladies humaines reste un défi. De nombreuses ressources publiques, bases de données et applications, collectent des données biologiques et effectuent des annotations, augmentant ainsi les connaissances biologiques mondiales. Le besoin de priorisation des SNP apparaît avec le développement de nouvelles technologies de génotypage à haut débit, qui permettent de développer des puces personnalisées orientées vers la maladie. Par conséquent, étant donné une liste de gènes liés à un processus biologique ou à une maladie spécifique, une question cruciale est de trouver les SNP les plus pertinents à analyser. La sélection de ces SNP peut s'appuyer sur la connaissance a priori pertinente des caractéristiques biomoléculaires caractérisant tous les SNP et gènes annotés de la liste fournie. L'approche bioinformatique décrite ici permet de récupérer une liste classée de SNP significatifs à partir d'un ensemble de gènes d'entrée, tels que des gènes candidats associés à une maladie spécifique. Le système enrichit l'ensemble de gènes en incluant d'autres gènes, associés à ceux d'origine par évaluation de similarité ontologique. La méthode proposée repose sur l'intégration de données issues de ressources publiques dans une perspective verticale (de la génomique aux données de biologie des systèmes), l'évaluation de caractéristiques issues des connaissances biomoléculaires, le calcul de scores partiels pour les SNP et enfin leur classement, en s'appuyant sur leur score global. . Notre approche a été mise en œuvre dans un outil Web appelé SNPRanker, accessible via l'URL http://www.itb.cnr.it/snpranker . Une application intéressante du système présenté est la hiérarchisation des SNP liés aux gènes impliqués dans des pathologies spécifiques, afin de produire des puces personnalisées.

  • Calabria A, Mosca E, Viti F, Merelli I, Milanesi L. SNPRanker : un outil pour l'identification et la notation des SNP associés aux gènes cibles. J Intégrer Bioinform. 20107(3). doi 10.2390/biecoll-jib-2010-138 PubMed 20375450

Outil de ligne de commande
Biologie des systèmes Interactions moléculaires, voies et réseaux Génomique
La génération et l'utilisation de reconstructions de réseaux métaboliques ont augmenté ces dernières années. Le développement de telles reconstructions a généralement impliqué un processus manuel fastidieux. Des travaux récents ont montré que les étapes entreprises pour reconstruire de tels réseaux métaboliques peuvent être automatisées. La boîte à outils SuBliMinaL (http://www.mcisb.org/subliminal/) facilite le processus de reconstruction en fournissant un certain nombre de modules indépendants pour effectuer des tâches courantes, telles que la génération de reconstructions d'ébauche, la détermination de l'état de protonation des métabolites, les réactions d'équilibrage de masse et de charge, suggérant une compartimentation intracellulaire, ajoutant des réactions de transport et une fonction de biomasse, et formatant la reconstruction à utiliser dans des packages d'analyse tiers. Les modules individuels manipulent les reconstructions codées dans le langage de balisage de biologie des systèmes (SBML) et peuvent être enchaînés pour générer un pipeline de reconstruction, ou utilisés individuellement au cours d'un processus de curation manuel. Ce travail décrit les modules individuels eux-mêmes et une étude dans laquelle les modules ont été utilisés pour développer une reconstruction métabolique de Saccharomyces cerevisiae à partir des ressources de données existantes KEGG et MetaCyc. La reconstruction générée automatiquement est analysée pour les réactions bloquées, et des suggestions d'améliorations futures de la boîte à outils sont discutées.

  • Swainston N, Smallbone K, Mendes P, Kell DB, Paton NW. La SuBliMinaL Toolbox : automatiser les étapes de reconstruction des réseaux métaboliques. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-186 PubMed 22095399

La visualisation est essentielle pour mieux comprendre les données de biologie des systèmes. À mesure que la taille et la complexité des ensembles de données et des informations supplémentaires augmentent, un cadre efficace et intégré pour les vues générales et spécialisées est nécessaire. MAYDAY est une application d'analyse et de visualisation de données générales « omiques ». Il suit une approche à trois volets pour la visualisation des données, consistant en un prétraitement flexible des données, des tracés de perspective de données hautement personnalisables pour une visualisation à usage général et des tracés basés sur les systèmes. Ici, nous présentons deux nouveaux outils de visualisation de la biologie des systèmes pour MAYDAY. Des visualiseurs génomiques efficacement mis en œuvre permettent l'affichage des variables associées aux emplacements génomiques. Plusieurs variables peuvent être visualisées à l'aide de notre nouvel outil ChromeTracks basé sur les pistes. Une perspective fonctionnelle est fournie en visualisant les voies métaboliques au format KEGG ou BioPax. Plusieurs options d'affichage des composants de la voie sont disponibles, y compris les glyphes de la notation graphique de la biologie des systèmes (SBGN). De plus, les voies peuvent être visualisées avec les données d'expression génique sous forme de cartes thermiques ou de profils. Nous appliquons nos outils à deux ensembles de données « omiques » de Pseudomonas aeruginosa. Les outils généraux d'analyse et de visualisation de MAYDAY ainsi que notre visionneuse ChromeTracks sont appliqués à un jeu de données de transcriptome. Nous intégrons en outre cet ensemble de données à un ensemble de données sur le métabolome et comparons l'activité des voies de dégradation des acides aminés entre ces deux ensembles de données, en améliorant visuellement les diagrammes de voies produits par MAYDAY.

  • Symonsy S, Zipplies C, Battke F, Nieselt K. Visualisation de la biologie des systèmes intégratifs avec MAYDAY. J Intégrer Bioinform. 20107(3):1-14. doi 10.2390/biecoll-jib-2010-115 PubMed 20375461
  • Bartocci E, Cacciagrano D, Di berardini MR, Merelli E, Vito L. UBioLab: a web-laboratory for ubiquitous in-silico experiments. J Intégrer Bioinform. 20129(1) : 192. doi 10.2390/biecoll-jib-2012-192 PubMed 22773116

Flux de travail
Phylogénétique Génomique Analyse des séquences Analyse de la structure des protéines
Unipro UGENE est une boîte à outils bioinformatique open source qui intègre des outils populaires ainsi que des instruments originaux pour les biologistes moléculaires au sein d'une interface utilisateur unifiée. De nos jours, la plupart des applications bureautiques de bioinformatique, dont UGENE, utilisent un modèle de données local tout en traitant différents types de données. Une telle approche entraîne un inconvénient pour les scientifiques travaillant en coopération et s'appuyant sur les mêmes données. Cela fait référence à la nécessité de faire plusieurs copies de certains fichiers pour chaque lieu de travail et de maintenir la synchronisation entre eux en cas de modifications. Par conséquent, nous nous sommes concentrés sur la fourniture d'un travail collaboratif dans l'expérience utilisateur de l'UGENE. Actuellement, plusieurs installations UGENE peuvent être connectées à une base de données partagée désignée et les utilisateurs peuvent interagir avec elle simultanément. De telles bases de données peuvent être créées par les utilisateurs de l'UGENE et être utilisées à leur discrétion. Les objets de chaque type de données, pris en charge par UGENE tels que les séquences, les annotations, les alignements multiples, etc., peuvent désormais être facilement importés ou exportés vers un stockage distant. L'un des principaux avantages de ce système, par rapport aux systèmes existants, est l'accès quasi simultané des applications clientes aux données partagées quel que soit leur volume. De plus, le système est capable de stocker des millions d'objets. Le stockage lui-même est un serveur de base de données standard, donc même un utilisateur inexpérimenté peut le déployer. Ainsi, l'UGENE peut donner accès à des données partagées à des utilisateurs situés, par exemple, dans un même laboratoire ou établissement. UGENE est disponible sur : http://ugene.net/download.html.

  • Protsyuk IV, Grekhov GA, Tiunov AV, Fursov MY. Bases de données bioinformatiques partagées au sein de la plateforme Unipro UGENE. J Intégrer Bioinform. 201512(1):257. doi 10.2390/biecoll-jib-2015-257 PubMed 26527191

Application de bureau
Biologie des systèmes Interactions, voies et réseaux moléculaires Visualisation des données Sciences biomédicales
VANESA est un logiciel de modélisation pour la reconstruction et l'analyse automatiques de réseaux biologiques basés sur les informations des bases de données des sciences de la vie. À l'aide de VANESA, les scientifiques sont capables de modéliser tout type de processus et de systèmes biologiques en tant que réseaux biologiques. Il est désormais possible pour les scientifiques de reconstruire automatiquement des systèmes moléculaires importants avec des informations provenant des bases de données KEGG, MINT, IntAct, HPRD et BRENDA. De plus, les résultats expérimentaux peuvent être complétés par des informations de base de données pour mieux analyser les éléments et les processus étudiés dans un contexte global. Les utilisateurs ont également la possibilité d'utiliser des approches théoriques de graphes dans VANESA pour identifier les structures réglementaires et les acteurs importants au sein des systèmes modélisés. Ces structures peuvent ensuite être étudiées plus avant dans l'environnement de réseau de Petri de VANESA. Il est indépendant de la plate-forme, gratuit et disponible sur http://vanesa.sf.net.

  • Brinkrolf C, Janowski SJ, Kormeier B, et al. VANESA - une application logicielle pour la visualisation et l'analyse des réseaux dans les applications de biologie des systèmes. J Intégrer Bioinform. 201411(2):239. doi 10.2390/biecoll-jib-2014-239 PubMed 24953454
  • Brinkrolf C, Henke NA, Ochel L, Pucker B, Kruse O, Lutter P. Modélisation et simulation du métabolisme aérobie du carbone d'une microalgue verte à l'aide de réseaux de Petri et de nouveaux concepts de VANESA. J Integr Bioinform. 201815(3). doi 10.1155/jib-2018-0018 PubMed 30218605
  • Kormeier B, Hippe K, Arrigo P, Töpel T, Janowski S, Hofestädt R. Reconstruction de réseaux biologiques basée sur l'intégration de données des sciences de la vie. J Intégrer Bioinform. 20107(2). doi 10.2390/biecoll-jib-2010-146 PubMed 20978286
  • Hamzeiy H, Suluyayla R, Brinkrolf C, Janowski SJ, Hofestaedt R, Allmer J. Visualisation et analyse des microARN dans les voies KEGG à l'aide de VANESA. J Integr Bioinform. 201714(1). doi 10.1155/jib-2016-0004 PubMed 28609293
  • Soh J, Xiao M, Do T, Meruvia-Pastor O, Sensen CW. Visualisation intégrative de modèles d'images médicales variant dans le temps. J Intégrer Bioinform. 20118(2) :161. doi 10.2390/biecoll-jib-2011-161 PubMed 21778531

application Web
Sites, caractéristiques et motifs de séquences Analyse de séquences Gestion de bases de données Familles de gènes et de protéines Modélisation moléculaire
Au cours des dernières années, plusieurs nouveaux outils applicables à l'analyse des protéines ont été mis à disposition sur le site Web de l'IBIVU. Récemment, un certain nombre d'outils, allant de la construction d'alignements de séquences multiples à la prédiction de domaine, ont été mis à jour et/ou étendus avec des services d'accès programmatique utilisant SOAP. Nous donnons un aperçu de ces outils et de leur application.

  • Brandt BW, Heringa J. Outils et services d'analyse de protéines à l'IBIVU. J Intégrer Bioinform. 20118(2). doi 10.2390/biecoll-jib-2011-168 PubMed 21900709

Structure, est un outil logiciel largement utilisé pour étudier la structure génétique des populations avec des données de génotypage multi-locus. Le logiciel utilise un algorithme itératif pour regrouper les individus en groupes « K », représentant éventuellement K sous-populations génétiquement distinctes. L'implémentation en série de ce programme est gourmande en processeur, même avec de petits ensembles de données. Nous décrivons une mise en œuvre du programme dans un cadre parallèle. L'accélération a été obtenue en exécutant différentes répliques et valeurs de K sur chaque nœud du cluster. Une interface graphique Web orientée utilisateur a été implémentée en PHP, à travers laquelle l'utilisateur peut spécifier des paramètres d'entrée pour le programme. Le nombre de processeurs à utiliser peut être spécifié dans la commande d'arrière-plan. Un outil de visualisation Web "Visualstruct", écrit en PHP (HTML et Java script intégré), permet l'affichage graphique des groupes de population sortis de Structure, où chaque individu peut être visualisé comme un segment de ligne avec K couleurs définissant son génomique possible. composition par rapport aux K sous-populations génétiques. L'avantage par rapport aux programmes disponibles réside dans le nombre accru d'individus pouvant être visualisés. Les analyses d'ensembles de données réels indiquent une accélération jusqu'à quatre, lorsque l'on compare la vitesse d'exécution sur des clusters de huit processeurs avec la vitesse d'exécution sur un bureau. Le progiciel est disponible gratuitement sur demande pour les utilisateurs intéressés.


Voir la vidéo: Torstaitipsit: Maastaveto (Mai 2022).