Hilfe zu STRING-Datenbankdaten

Ich arbeite mit Daten, die von der STRING-Datenbank (string-db.org) für Protein-Protein-Wechselwirkungen heruntergeladen wurden. Meine Idee ist es, die Topologie von Verbindungen desselben Proteins auf verschiedenen Organismen zu vergleichen.

Mir ist jedoch aufgefallen, dass dasselbe Protein bei jedem Organismus eine andere ID erhalten kann.

Daher würde ich gerne wissen, ob es eine Möglichkeit gibt, alle IDs in nur ein Muster umzuwandeln.

Vielen Dank.

Antworten (2)

Proteine ​​entwickeln sich und haben unterschiedliche Sequenzen zwischen den Arten, daher müssten Sie definieren, was Sie mit "gleichem Protein" meinen. Eine Möglichkeit wäre die Nutzung einer Orthologie-Datenbank wie eggNOG . (eggNOG hat die gleichen Proteinidentifikatoren wie STRING.) Dann könnten Sie 1:1-Korrespondenzen zwischen Proteinen herausfinden.

Vielleicht möchten Sie sich auch über die Arbeit von Roded Sharan informieren , z. B. Globale Ausrichtung von Protein-Protein-Interaktionsnetzwerken.

Hallo @Michael, genau das habe ich gesucht. Danke für deine Hilfe und den Lesetipp.

Wenn ich es richtig verstehe, haben Sie zum Beispiel 1000 Proteinsequenzen mit 1000 IDs heruntergeladen, aber es gibt Duplikate in Sequenzen, also ist es in Wirklichkeit so, als hätten Sie 600 einzigartige Sequenzen mit 1000 IDs? In diesem Fall sollte es ziemlich einfach sein, ein Skript zu schreiben, das eine Reihe eindeutiger Sequenzen mit allen entsprechenden IDs erstellt, sodass Sie auswählen können, welche Sie verwenden möchten.

In Python könnte dies unter Verwendung der Sequenz als Wörterbuchschlüssel mit der ID als Wert erfolgen. Überprüfen Sie beim Durchlaufen jeder Sequenz, ob sich die Sequenz bereits im Wörterbuch befindet. Wenn ja, hängen Sie die neue ID als Wert an. Schließlich würden Sie bekommen

seqs = {
'DFABIODFAFDIOAF....':['ID001', 'ID007'],
'ANOTHERUNIQUESEQUENCE':['ID50'],
...
}

aus denen die Auswahl leicht sein sollte

TBH ist sich über die Effizienz nicht sicher, aber das hängt von der Größe des Datensatzes ab? Wie groß ist es? Geben Sie mir einfach einen Beispieldatensatz und ich kann ihn schreiben.

Hallo @Pocin, danke für deine Hilfe und für deine Antwort, aber mein Problem war, wie ich die auf STRING verwendete Protein-ID in eine andere Datenbank-ID (z. B. Uniprot) umwandeln kann. Mit der von Michael bereitgestellten Lösung kann ich diese Korrespondenz führen.