Man könnte sagen, ich bin ein Amateur-Bioinformatiker oder versuche, einer zu werden. Ich habe eine BAM-Datei, aus der es mir mit UGENE gelungen ist, Konsensdaten im FASTA-Format zu extrahieren. Ich sehe jetzt eine einzelne Reihe von Nukleotiden und ihre Komplemente für jedes Chromosom. Was ich nicht sehe, sind zwei korrespondierende Sequenzen. SNP-Daten (z. B. SNPedia ) zitieren (wenn ich es richtig verstehe) den SNP an derselben Stelle auf jedem Chromosom im Paar. Ich weiß nicht, wie ich meine Variation bestimmen soll, da ich an einer bestimmten Stelle nur ein Nukleotid sehe, nicht das Paar.
Ich bin mir ziemlich sicher, dass ich hier etwas Grundlegendes übersehe. Danke für jede Hilfe beim Navigieren in diesem Dschungel!
Wenn Sie nach einfachen einmaligen Abfragen suchen, ist es möglicherweise besser, die BAM-Datei und ein relevantes Referenzgenom in einen Browser wie IGV zu laden und einfach zu dieser bestimmten Position zu navigieren.
Für einige Daten, die ich herumliegen hatte, würde ein heterozygoter SNP wie das Bild unten aussehen, es gab einen A bis G SNP und einen C bis T:
Für längere Abfragelisten würde ich einen Blick auf BEDtools werfen: https://bedtools.readthedocs.org/en/latest/content/bedtools-suite.html
Wenn Ihnen das nicht hilft, empfehle ich Ihnen, Ihre Frage auf https://www.biostars.org/ zu stellen . Dort finden Sie Hilfe von echten Bioinformatikern.
Ich würde nicht unbedingt erwarten, dass Regionen mit Heterozygotie aus einem Konsens-Fasta hervorgehen. Ich würde einen Blick darauf werfen, ob Sie einige potenzielle Websites kennen, oder Ihre .bam-Datei durch etwas laufen lassen, das SNPs aufruft.
Terdon
Markus