Informations

Quel outil utiliser pour cartographier les lectures (samtools, sequencher,… ) ?


Je suis débutant en bioinformatique. J'ai 4 fichiers :

2 fichiers fastq (aln1.fastq et aln2.fastq)

2 fichiers bam (aln.bam et aln.bam.bai)

Je sais que:

  • le fichier brut est aligné sur le génome humain hg19.
  • Le fichier séquencé est terminé par paire à partir de la plate-forme de séquençage Miseq.
  • Ce fichier est le résultat d'une conception de séquençage d'amplicon.

J'ai également des informations de séquence sur les amorces (4 avant et 4 arrière) et 2 adaptateurs.

Et je dois répondre à ces deux questions :

  1. Quelle est la constitution de chaque read, par exemple (adaptateur + amorce + région amplifiée) ?
  2. À quelle région du gène ces lectures ont-elles été mappées ?

Ma question est quel type d'outil dois-je utiliser pour répondre à ces questions ? samtools ? séquenceur ? QC rapide ? Quelqu'un peut-il m'aider juste pour commencer car je suis totalement perdu.

Merci


Lesaln.bamfichier est probablement une version binaire et compressée d'un fichier au format SAM, indiquant où les lectures se sont alignées. Je suppose qu'il a été généré par un programme d'alignement utilisant les deux fichiers fastq.

Pour commencer, vous pouvez utiliser un programme pour visualiser où les lectures ont été mappées.

Par exemple, vous pouvez utiliser IGV et charger votrealn.bamfichier pour voir où dans hg19 ils se sont alignés. IGV utilisera également lealn.bam.baipour l'aider à trouver les lectures alignées dans lealn.bamdéposer.

Pour autant que je sache, le séquenceur est utilisé pour nettoyer et assembler les données de séquençage de Sanger, mais mon expérience avec ce programme remonte à près de 10 ans.

Samtools est un programme en ligne de commande qui peut vous aider à extraire des informations du fichier aln.bam. Vous pouvez l'utiliser pour compter le nombre d'alignements présents dans une région génomique donnée, par exemple, en utilisant l'option-cdevue samtools. Voir le manuel pour plus de détails : http://www.htslib.org/doc/samtools.html


Samtools n'est pas un aligneur ; il est utilisé pour analyser les alignements. FastQC sert à analyser les qualités de lecture et la composition moyenne. Vous pouvez apprendre à connaître la séquence de l'adaptateur en exécutant FastQC.

L'étape suivante est le rognage de l'adaptateur. Il existe de nombreux outils qui font cela. Trimmomatic est actuellement populaire. Vous pouvez trouver la composition de l'adaptateur de chaque lecture en soustrayant la longueur de lecture après rognage de la longueur de lecture avant rognage (ce serait la même chose pour toutes les lectures).

Ensuite, vous devez aligner vos lectures coupées sur une référence, à l'aide d'un aligneur. Encore une fois, il existe de nombreux aligneurs disponibles ; Bowtie, STAR et maintenant un nouveau appelé HISAT. STAR et HISAT sont plus rapides que Bowtie.

Puisque vous avez déjà les alignements (aln.bam) à hg19, vous n'avez pas besoin d'effectuer l'alignement. Vous voulez savoir à quels gènes ces lectures correspondent. Cette information n'est disponible que si vous avez les annotations du génome. Les annotations sont disponibles sous forme de GTF/GFF des dossiers. Vous pouvez obtenir l'association entre les emplacements génomiques et les lectures en utilisant leBEDOPSboîte à outils comme mentionné dans cet article Biostars.

Je n'ai pas beaucoup d'expérience avec cet outil. Ce que je ferais, c'est convertir leBAMàSAM(à l'aide de samtools) ou àLIT(à l'aide de bedtools:bamtobed) et analysez les colonnes duSAM/LITfichier décrivant les emplacements de lecture avec leGTFdéposer. Voir ce lien pour les détails sur le format SAM. Vous pouvez utiliser n'importe quel langage de script commeokouperlà analyser.

Samtools a une option pour filtre les lectures selon les régions spécifiées dans leLITformat mais il ne les annotera pas automatiquement.

vue samtools -hL regions.bed aln.bam > aln_filtered.sam

Analyse SNP

Le filtrage des millions de lectures produites par le séquençage de nouvelle génération représente un défi majeur lors de la recherche de SNP candidats. Les algorithmes Maq et GSNAP incluent des capacités de filtrage SNP.

Maq(1) a un processus de filtrage à deux niveaux qui recherche initialement les différences entre les lectures et la séquence de référence. Ensuite, une étape de filtrage a lieu qui passe au crible les résultats initiaux à la recherche d'un nombre minimum de variantes de la même classe par colonne de lectures, et des variantes intégrées dans des régions de haute qualité. Les résultats sont présentés dans un rapport complet. Vous pouvez également afficher vos résultats dans un Maqview ou une tablette.

Avec GSNAP(2), l'analyse des SNP adopte une approche différente en examinant à la fois les SNP signalés précédemment ainsi que les nouveaux candidats. L'utilisateur doit fournir une liste des SNP connus ainsi que les lectures et une séquence de référence. GSNAP effectue un alignement tolérant SNP de tous les allèles majeurs et mineurs. L'algorithme permet de différencier les allèles mineurs des mésappariements. Les résultats sont présentés dans un rapport complet. Vous pouvez également afficher vos résultats dans Tablet.

(1) Heng Li, Jue Ruan et Richard Durbin
Cartographier de courtes lectures de séquençage d'ADN et appeler des variantes à l'aide des scores de qualité de cartographie
Recherche sur le génome 2008 18:1851-1858

(2) Thomas D. Wu et Serban Nacu
Détection rapide et tolérante aux SNP de variantes complexes et épissage en lectures courtes
Bioinformatique 2010 26 : 873-881


Visualiseur de génomique intégré Samtools &

Samtools convertira les fichiers .sam générés lors des étapes précédentes en fichiers .bam. Ce site donne des instructions étape par étape pour convertir de sam en bam, trier et indexer un .bam.

Une méthode de visualisation des lectures dans un fichier .bam est l'IGV de Broad. Je ne vais pas entrer dans les détails, mais l'idée est la suivante :

  1. Choisissez le même génome de référence que vous avez utilisé pour indexer votre génome de référence à partir des étapes précédentes.
  2. Téléchargez votre fichier .bam (le fichier d'index “.bai” doit être dans le même dossier que .bam que vous téléchargez)
  3. Tapez le gène d'intérêt dans la barre de recherche.
  4. Zoomez pour voir les lectures, elles ne sont pas visibles à faible puissance.

Chaque ordinateur est configuré un peu différemment en invoquant une utilisation et des appels différents au logiciel. Commentaires et suggestions bienvenus!


Un didacticiel Travailler avec AppleScript et quelques exemples de scripts AppleScript sont installés avec Sequencher et sont également disponibles sur ce site Web. Le didacticiel et les scripts vous donnent un aperçu du potentiel d'AppleScript et de la façon dont il peut vous aider à tirer le meilleur parti de Sequencher. Cliquez ici pour télécharger les exemples AppleScript.

Depuis l'hiver 2006, Gene Codes distribue des clés SuperPro vertes, bleues et jaunes. Nous n'expédierons plus la Purple Eve3 et la Red SuperPro key.

Clé Fonction Logiciel pris en charge
Vert ou noir avec bande verte Clé réseau SuperPro Sequencher License Server 6.1 et supérieur
Bleu ou noir avec bande bleue Clé SuperPro autonome Mac Sequencher 4.7 et supérieur
Jaune ou noir avec bande jaune Clé SuperPro autonome Windows Sequencher 4.0 et supérieur
Etiquette NW rouge Clé réseau SuperPro Serveur de licences Windows Sequencher 5.2 et supérieur
Étiquette NW violette Clé réseau Eve3 Serveur de licences Mac Sequencher 5.2 à 6.0.3
Etiquette SA violette Clé Eve3 autonome Mac Sequencher 3.1 à 4.7


Résultats et discussion

Utiliser bio-samtools : un bref tutoriel

bio-samtools en cours d'utilisation est simple, voici quelques exemples d'interaction avec les fichiers BAM avec le package. Plus d'informations sur des fonctions spécifiques sont fournies dans la documentation RubyDoc et dans les fichiers bioruby-samtools/doc/tutorial.html et bioruby-samtools/doc/tutorial.pdf. L'emplacement du dossier d'installation de bio-samtools peut être trouvé en tapant 'gem which bio-samtools' sur la ligne de commande.

Installation

bio-samtools s'installe facilement à partir d'une machine avec une connexion Internet et une installation Ruby avec l'invocation simple de Gem 'gem install bio-samtools'. bio-samtools télécharge automatiquement le code source original de libbam C et le compile pour Linux ou OSX selon le cas. La nouvelle version de la bibliothèque est conservée localement dans le code bio-samtools pour éviter les conflits avec d'autres installations de la bibliothèque.

Chargement d'un fichier BAM

Un objet SAM représente les alignements dans le fichier BAM, et est très simple à créer, vous aurez besoin d'un fichier BAM trié, pour accéder aux alignements et d'une séquence de référence au format FASTA pour utiliser la séquence de référence. L'objet peut être créé et ouvert comme suit : require 'bio-samtools' bam=Bio::DB::Sam.new(:bam=>"my_sorted.bam", :fasta=>'ref.fasta') bam. ouvrir bam.fermer

L'ouverture du fichier ne doit être effectuée qu'une seule fois pour plusieurs opérations, l'accès aux alignements est aléatoire, vous n'avez donc pas besoin de parcourir toutes les entrées du fichier, comme vous le feriez avec une analyse de fichier SAM manuelle.

Obtenir des informations récapitulatives

La longueur des séquences de référence et le nombre de lectures mappées à chacune peuvent être obtenus avec la fonction index_stats. Un objet Hash, codé par nom de référence et avec un Hash à chaque valeur est renvoyé. Le hachage à la valeur a les clés :length, :mapped_reads et :unmapped_reads et des valeurs pour chacune d'entre elles. La fonction index_stats encapsule la commande SAMtools idxstats. sam.index_stats # renvoie < "chr_1"=> <:length=>69930, :mapped_reads=>1000, :unmapped_reads=>0 >, >

Récupérer la séquence de référence

La récupération de la référence ne peut se faire que si la référence a été chargée, ce qui ne se fait pas automatiquement pour économiser de la mémoire. La référence n'a besoin d'être chargée qu'une seule fois et est accessible en utilisant le nom de référence, le début et la fin en coordonnées basées sur 1. Un objet Ruby String standard est renvoyé. Dans cet exemple, une région de 500 nucléotides du début de la séquence est renvoyée. bam.load_reference seq = bam.fetch_reference("Chr1", 1, 500)

Récupérer des alignements dans une région

Les alignements dans une région d'intérêt peuvent être obtenus un par un en donnant la région à la fonction fetch(). bam.fetch("Chr1", 3000, 4000).each faire | alignement | met alignement.qname #faire quelque chose avec l'objet d'alignement end

Obtenez un résumé de la couverture dans une région

Il est facile d'obtenir la profondeur totale des lectures à une position donnée, la fonction chromosome_coverage est utilisée. Cela diffère des fonctions précédentes en ce qu'une position de début et une longueur (plutôt qu'une position de fin) sont transmises à la fonction. Un tableau de couvertures est renvoyé, par exemple [26,26,27 .. ]. La première position dans le tableau donne la profondeur de couverture à la position de départ donnée dans le génome, la dernière position dans le tableau donne la profondeur de couverture à la position de départ donnée plus la longueur donnée. covers = bam.chromosome_coverage("Chr1", 3000, 1000) De même, la moyenne (moyenne arithmétique) de la couverture peut être récupérée, également avec les paramètres de début et de longueur av_cov = bam.average_coverage("Chr1", 3000, 1000)

Obtenir des informations sur l'empilement

Le format Pileup représente la couverture des lectures sur une seule base dans la référence. Obtenir un Pileup sur une région est très facile. Notez que cela est fait avec mpileup et NON avec la fonction d'empilement désormais obsolète et supprimée de SAMTools. L'appel de la méthode mpileup crée un itérateur qui produit un objet Pileup pour chaque base. bam.mpileup faire |pileup| met fin à pileup.consensus

La fonction mpileup utilise une gamme de paramètres pour permettre le filtrage au niveau SAMTools des lectures et des alignements. Ils sont spécifiés sous forme de paires clé-valeur. Dans cet exemple, une région est spécifiée par :r et un score de qualité minimum par base est spécifié par :Q. bam.mpileup(:r => "Chr1:1000-2000", :Q => 50) do |pileup| met fin à pileup.coverage

Toutes les options que SAMTools vous permet de transmettre à mpileup ne sont pas prises en charge, celles qui obligent mpileup à renvoyer le format d'appel binaire variable (BCF) [13] sont ignorées. Plus précisément, il s'agit de g,u,e,h,I,L,o,p. Le tableau 4 répertorie les indicateurs SAMTools pris en charge et les symboles que vous pouvez utiliser pour les appeler dans la commande mpileup.


Comment extraire des lectures sans correspondance à l'aide de bwa et de samtools ?

J'ai une seule lecture (NON jumelé) dont j'ai besoin pour passer par le flux de travail décrit dans Beauclair et al. papier (version gratuite ici https://rnajournal.cshlp.org/content/24/10/1285.long) pour identifier les génomes défectueux à l'aide de leur programme DI-tector.

Ici, dans Matériaux et méthodes, la procédure est décrite comme suit :

La première étape du flux de travail consiste en un alignement des lectures contre le génome de l'hôte (Fig. 2i). Cette étape vise à éliminer les lectures qui correspondent au génome de l'hôte et peuvent partiellement correspondre au génome viral après segmentation, et à réduire la taille du fichier de travail. Par exemple, les ensembles de données MV et rMV-ΔV ont été générés à partir d'échantillons d'ARN total de cellules infectées et contenaient principalement des lectures cartographiant le génome humain (≈ 99 %). Cette étape utilise une combinaison de bwa mem et de samtools view avec les paramètres –bS –f4 . Une étape supplémentaire consiste en un alignement des reads contre le génome viral d'intérêt, afin d'exclure les reads cartographiant parfaitement le génome viral. Par conséquent, seules les lectures non mappées sont analysées plus en détail. Il est à noter que les lectures coupées (c'est-à-dire que le motif CIGAR contient S ou H) sont également conservées. Certaines de ces lectures peuvent correspondre aux jonctions de recombinaison du génome viral présentes dans les génomes DI.

On m'a déjà suggéré d'utiliser bowtie2 au lieu de bwa mais, d'une part, le résultat n'est pas clair pour moi et d'autre part, j'aimerais tester le protocole officiel.

Puisque l'article suggère d'utiliser bwa et samtools pour cette toute première étape, c'est ce que j'ai fait jusqu'à présent :

(Facultatif) je ne sais pas si cela est important, mais comme suggéré par quelqu'un, j'ai transformé .fna --> .fa

Génome humain indexé avec bwa

aligné ma seule lecture avec le génome indexé de l'étape 1

Lectures non mappées séparées (comme il est recommandé dans Matériaux et méthodes en utilisant -f4 )

Conversion des lectures non mappées au format .fastq (puisque c'est le format utilisé par le logiciel plus tard)


Étape 6 : Exporter le fichier BAM sous forme de table

Dans la visionneuse de séquence graphique, effectuez un zoom sur l'emplacement souhaité et sélectionnez une plage d'intérêt.

Cliquez avec le bouton droit sur la plage sélectionnée et cliquez sur le Exporter des données option dans le menu contextuel.

Un menu d'exportation d'alignement s'ouvrira. Notez que les fichiers BAM sont stockés en tant qu'alignements, vous devez donc sélectionner "Fichier de table d'alignement» dans la liste de gauche. Sélectionnez l'emplacement souhaité dans la section principale. Nommez le fichier cible. Si vous devez modifier l'emplacement d'exportation par défaut, utilisez le bouton Dossier. Clique le Prochain bouton.

Dans l'écran suivant, sélectionnez les champs du fichier d'alignement à exporter.

Clique le Finir bouton. Votre fichier sera exporté.

Le fichier exporté peut être ouvert dans un tableur comme Excel pour une utilisation ultérieure.


Remerciements

Nous remercions nos collègues, le professeur Bill Rawlinson et le professeur adjoint Rowena Bull, qui ont supervisé la collecte et le traitement des isolats de patients atteints du SRAS-CoV-2 pour une étude distincte. Merci également à Chandima Samarasinghe, Harshana Weligampola, Nirodha Suchinthana, Rahal Medawatte et Yasiru Ranasinghe pour leurs précieux commentaires après les tests. Génopo. Nous reconnaissons les sources de financement suivantes : subvention MRFF APP1173594 (à I.W.D.) et Cancer Institute NSW Early Career Fellowship 2018/ECF013 (à I.W.D.) et soutien philanthropique de la Kinghorn Foundation (à I.W.D. et H.G.). Le contenu des documents publiés relève de la seule responsabilité des auteurs participants ou individuels, et ils ne reflètent pas les points de vue des organismes de financement répertoriés.


Fond

La méthylation de l'ADN est une modification épigénétique importante impliquée dans le silençage génique, la différenciation tissulaire et le cancer [1]. La mesure haute résolution à l'échelle du génome de la méthylation de l'ADN est désormais possible à l'aide du séquençage au bisulfite du génome entier (WGBS), un processus par lequel l'ADN d'entrée est traité avec du bisulfite de sodium et séquencé. Bien que le WGBS soit complet, il est également assez coûteux [2]. Par exemple, une application de WGBS par Lister et al. [3] ont comparé les profils de méthylation de l'ADN d'une lignée de cellules souches embryonnaires et d'une lignée cellulaire de fibroblastes. Les deux ont été séquencés jusqu'à une couverture d'environ 30 fois (couverture 25 fois de tous les CpG), nécessitant 376 voies totales de séquençage au bisulfite sur l'instrument Illumina GA II. Alors que la sagesse conventionnelle veut qu'une couverture de 30× ou plus soit nécessaire pour obtenir des résultats précis, les techniques statistiques avancées proposées ici, telles que le lissage de vraisemblance local, peuvent réduire cette exigence à aussi peu que 4×.

Il a également été montré que différentes régions génomiques présentent différents niveaux de variation de la méthylation de l'ADN entre les individus [4]. En conséquence, les régions qui sont intrinsèquement variables peuvent facilement être confondues avec des régions qui diffèrent systématiquement entre les groupes lorsque peu de répétitions sont disponibles [1] (Figure 1). Mais effectuer un WGBS sur le nombre de réplicats biologiques nécessaires pour surmonter ces problèmes peut être assez coûteux. Les techniques proposées ici abordent ce problème à la fois en utilisant pleinement les informations répliquées lors de l'analyse et en réduisant potentiellement la couverture nécessaire (et donc le coût de) la réplication.

Le besoin de répliques biologiques. Nous montrons des profils de méthylation lissés pour trois échantillons normaux (bleu) et des cancers appariés (rouge) à partir des données de Hansen [1]. Le profil de méthylation lissé pour une lignée cellulaire IMR90 (noir) est également montré à partir des données Lister [3]. Si nous n'avions analysé que la paire normale-cancer 3 (lignes épaisses), il semblerait qu'il y ait une différence de méthylation entre le cancer et la normale dans cette région génomique. Cependant, lorsque les trois paires cancéreuses normales sont considérées, cette région ne semble pas être une région méthylée différentiellement spécifique au cancer.

L'analyse des données WGBS commence par l'alignement des lectures converties au bisulfite. Après l'alignement, des méthodes statistiques sont utilisées pour identifier les régions à méthylation différentielle (DMR) entre deux ou plusieurs conditions. Des travaux approfondis ont été consacrés à l'alignement [5–10] mais les méthodes d'analyse post-alignement sont limitées. Les travaux publiés basés sur le WGBS se sont appuyés sur une approche modulaire qui identifie d'abord les CpG méthylés de manière différentielle qui sont ensuite regroupés en régions à l'aide de ad hoc règles de regroupement. La première étape est réalisée en utilisant soit le test exact de Fisher [3, 11-13], des seuils arbitraires pour les différences dans les niveaux de méthylation observés [14], soit un modèle bêta-binomial [15]. Aucune de ces méthodes ne prend en compte la variabilité biologique. À notre connaissance, aucun logiciel n'est disponible pour mettre en œuvre ces approches.

Nous présentons ici BSmooth, un outil d'analyse complet pour les ensembles de données WGBS. Le pipeline BSmooth commence par une étape d'alignement de lecture impartiale et sensible au bisulfite, compile des mesures d'évaluation de la qualité basées sur la stratification des estimations de méthylation par position de lecture, applique une moyenne locale pour améliorer la précision des mesures de méthylation régionales et détecte les DMR représentant la variabilité biologique lorsque des réplicats sont disponibles . La principale contribution méthodologique de BSmooth est la capacité d'identifier les DMR responsables de la variabilité biologique, ainsi que les mesures de contrôle qualité que nous proposons. De plus, BSmooth inclut un nouvel aligneur, Merman, qui gère de manière appropriée l'espace colorimétrique. Nous démontrons les avantages de BSmooth avec quatre ensembles de données accessibles au public : les données Lister [3], les données Hansen [1], les données de capture Hansen [1] et les données Tung [16] (voir Matériaux et méthodes pour plus de détails). Nous utilisons ces données pour démontrer les avantages de BSmooth par rapport aux algorithmes existants basés sur le test exact de Fisher. BSmooth est le premier pipeline pour les ensembles de données WGBS produisant des DMR en sortie, tout en prenant également en compte la variation biologique. Il peut gérer des conceptions expérimentales à faible couverture, permettant aux chercheurs de profiler plusieurs échantillons au même coût qu'un profil à couverture élevée d'un seul échantillon.


Quel outil utiliser pour cartographier les lectures (samtools, sequencher,… ) ? - La biologie

Bismark est un programme permettant de cartographier les lectures de séquençage traitées au bisulfite sur un génome d'intérêt et d'effectuer des appels de méthylation en une seule étape. La sortie peut être facilement importée dans une visionneuse de génome, telle que SeqMonk, et permet à un chercheur d'analyser immédiatement les niveaux de méthylation de leurs échantillons. Ses principales caractéristiques sont :

  • Cartographie du bisulfite et appel de méthylation en une seule étape
  • Prend en charge les alignements de lecture à extrémité unique et à extrémité appariée
  • Prend en charge les alignements sans espace et avec espace
  • La longueur de la graine d'alignement, le nombre de discordances, etc. sont réglables
  • La sortie fait la distinction entre la méthylation de la cytosine dans le contexte CpG, CHG et CHH

Bismark est désormais également disponible sur GitHub. Vous êtes invités à laisser des commentaires, des demandes de fonctionnalités ou des rapports de bogues là-bas !

Ce lien vous mènera à la publication Bismark.

Ce lien vous amènera à notre revue sur l'analyse des données primaires dans BS-Seq.

Ce lien vous mènera à notre protocole « Contrôle de la qualité, ajustement et alignement des données Bisulfite-Seq » sur le site Web d'Epigenesys.

Ici, vous pouvez accéder à la documentation Bismark Guide de l'utilisateur Bismark.

Voici un aperçu des modes d'alignement actuellement pris en charge par Bismark : Modes d'alignement Bismark (pdf).


Voir la vidéo: Sequencher Tour Guide Part 1 (Décembre 2021).