Wie findet man die entsprechenden SNPs im Chromonosmenpaar einer FASTA-Datei?

Man könnte sagen, ich bin ein Amateur-Bioinformatiker oder versuche, einer zu werden. Ich habe eine BAM-Datei, aus der es mir mit UGENE gelungen ist, Konsensdaten im FASTA-Format zu extrahieren. Ich sehe jetzt eine einzelne Reihe von Nukleotiden und ihre Komplemente für jedes Chromosom. Was ich nicht sehe, sind zwei korrespondierende Sequenzen. SNP-Daten (z. B. SNPedia ) zitieren (wenn ich es richtig verstehe) den SNP an derselben Stelle auf jedem Chromosom im Paar. Ich weiß nicht, wie ich meine Variation bestimmen soll, da ich an einer bestimmten Stelle nur ein Nukleotid sehe, nicht das Paar.

Ich bin mir ziemlich sicher, dass ich hier etwas Grundlegendes übersehe. Danke für jede Hilfe beim Navigieren in diesem Dschungel!

"Zwei korrespondierende Sequenzen": korrespondierend zu was? Welche SNP-Daten? Welcher SNP sollte auf beiden Chromosomen sein? Der von Ihnen angegebene Link scheint für einen SNP zu gelten, der entweder hetero- oder homozygot sein kann. Warum gehen Sie in Ihren Daten davon aus, dass es homozygot ist? Was sind Ihre Daten? Bitte bearbeiten Sie Ihre Frage und stellen Sie sie klar. Es ist im Moment sehr schwer zu verstehen, was Sie fragen.
Tut mir leid, wenn ich mich nicht gut ausdrücke ... Ich bin irgendwie neu in all dem. Ich spreche eigentlich davon, was ich im Fall eines heterozygoten SNP erwarten sollte. Die Frage ist einfach folgende: Wenn das bestimmte Genom, das ich untersuche, zufällig einen heterozygoten SNP an einer Stelle aufweist, sagen wir (C; T), wie/wo würde ich dies dann in meinen Daten erwarten? Ein Konsens spiegelt den häufigeren Lesevorgang an dieser Site wider, aber in diesem Fall würde ich erwarten, dass etwa 50 % der Lesevorgänge C und 50 % T sind ... also ist der Konsens nicht nützlich. Liege ich falsch?

Antworten (2)

Wenn Sie nach einfachen einmaligen Abfragen suchen, ist es möglicherweise besser, die BAM-Datei und ein relevantes Referenzgenom in einen Browser wie IGV zu laden und einfach zu dieser bestimmten Position zu navigieren.

Für einige Daten, die ich herumliegen hatte, würde ein heterozygoter SNP wie das Bild unten aussehen, es gab einen A bis G SNP und einen C bis T:

Für längere Abfragelisten würde ich einen Blick auf BEDtools werfen: https://bedtools.readthedocs.org/en/latest/content/bedtools-suite.html

Wenn Ihnen das nicht hilft, empfehle ich Ihnen, Ihre Frage auf https://www.biostars.org/ zu stellen . Dort finden Sie Hilfe von echten Bioinformatikern.

Geben Sie hier die Bildbeschreibung ein

Richtig, also habe ich mir die BAM-Datei angesehen, aber ich habe noch keine Instanz einer Website gefunden, auf der ich 50/50-Reads von zwei Nukleotiden sehe (z. B. 50 % C und 50 % T). Ist dies das, was ich bei einem heterozygoten SNP-Genotyp erwarten sollte? Wenn ja, sollte ich dann einfach den Konsens ignorieren und mir nur die BAM-Datei ansehen? Ich möchte nur bestätigen, dass ich hier auf dem richtigen Weg bin ...
Ich habe die Antwort so angepasst, dass sie ein Bild enthält. Hoffentlich ist jetzt alles klarer

Ich würde nicht unbedingt erwarten, dass Regionen mit Heterozygotie aus einem Konsens-Fasta hervorgehen. Ich würde einen Blick darauf werfen, ob Sie einige potenzielle Websites kennen, oder Ihre .bam-Datei durch etwas laufen lassen, das SNPs aufruft.