Anordnung der Aminosäuren im Protein-Alphabet

Ich bin Software-Ingenieur mit geringen Kenntnissen in Molekularbiologie. Ich versuche jedoch, einen Bioinformatik-Computercode zu verstehen, in dem das Proteinalphabet als die folgende Zeichenfolge mit jedem der zwanzig Aminosäurebestandteile des Proteins dargestellt zu werden scheint:

ACDEFGHIKLMNPQRSTVWY

Der Code scheint eine zweite Zeichenfolge zu definieren, in der die erste wie folgt neu geordnet wird:

DEKRHNQSTPGAVILMCFYW

Über die biologische Bedeutung bin ich mir nicht sicher. Stellt diese Neuordnung eine spezifische Wechselwirkung zwischen diesen Molekülen dar?

Willkommen bei Biology.SE. Haben Sie sich eine Tabelle mit Aminosäureeigenschaften angesehen ? Es gibt viele Möglichkeiten, Aminosäuren zu gruppieren. Wenn also nicht dokumentiert ist, warum diese Reihenfolge verwendet wird, bezweifle ich, dass Ihnen irgendjemand eine endgültige Antwort geben kann, die über die triviale „Ordnung nach physikalisch-chemischen Eigenschaften“ hinausgeht.
@tyersome Aber die vom OP angegebene Zuordnung scheint überhaupt nicht auf physikalisch-chemischen Eigenschaften zu beruhen?
@user338907 — Warum sagst du das? DE = "sauer", KRH = "basisch" usw. (siehe auch acvills Antwort), Sie scheinen verwirrt zu sein, das OP erwähnt nicht, dass dies eine Zuordnung ist ...
Was ist der Kontext? HPLC? Massenspektrometer? 2D-Gele? Saccharose-Gradienten? Proteinfaltung? Welche Art von Analyse?
OP bezieht sich wahrscheinlich darauf .
Das ist genau richtig, @voile. Ich habe mir das DeepSequence-Papier und seine Implementierung angesehen, wo Sie verwandte Proteinsequenzen miteinander abgeglichen haben und man versucht, ein statistisches Modell über ihre Verteilung zu entwickeln.
Ich habe die Frage umformuliert, um sie an die akzeptierte Antwort anzupassen und einen biologisch irreführenden Titel zu vermeiden. Obwohl ich kein Python-Anhänger bin, scheint es, wenn ich mir den Code in dem von @Voile angegebenen Link ansehe, dass ich in meinem Kommentar falsch liege, dass dies keine Zeichenfolgen sind. Die Antwort scheint zu sein, dass die zweite Kette auf der Grundlage (besser einer bestimmten Zuordnung) von Aminosäureeigenschaften neu geordnet wurde. Warum Strings auf diese Weise verwendet werden, ist keinem Molekularbiologen oder sonst jemandem klar, ohne den Code zu analysieren.
@Luce Danke für deinen Beitrag. Da der Algorithmus für das Papier, auf das Sie sich beziehen, weder Standard noch selbstverständlich ist, würde ich es sehr nützlich finden, wenn Sie eine Antwort geben könnten, die ihn erklärt.
@David Also habe ich den Code ein wenig analysiert und diese Neuordnung scheint ein Ablenkungsmanöver zu sein. Muss ein Überbleibsel eines alten Codes sein, da er anscheinend nirgendwo verwendet wird ...
@Luca — Seltsam. Ich schaue mir das vielleicht mal selbst an. Ich muss im Moment am Django-Code von jemand anderem arbeiten, also könnte ich genauso gut versuchen, Python herauszufinden. Wenn es mich schlägt, habe ich Freunde, auf die ich mich stützen kann. Das Ganze wäre wahrscheinlich besser auf SE Bioinformatics gewesen, obwohl ich dort nicht viel gehe.
Ah richtig ... ja, wusste nicht, dass SE!

Antworten (1)

Wie der Kommentar von Tyersome andeutet, werden die Aminosäuren nach ihren physikalisch-chemischen Eigenschaften gruppiert. Lassen Sie uns ein paar Kommas hinzufügen:

DE,KRH,NQ,ST,PGAVIL,MC,FYW
  • Asparaginsäure ( D) und Glutaminsäure ( E) sind sauer
  • Lysin ( K), Arginin ( R) und Histidin ( H) sind basisch
  • Asparagin ( N) und Glutamin ( Q) sind amidisch
  • Serin ( S) und Threonin ( T) sind Hydroxylgruppen
  • Prolin ( P), Glycin ( G), Alanin ( A), Valin ( V), Isoleucin ( I) und Leucin ( L) sind aliphatisch
  • Methionin ( M) und Cystein ( C) sind schwefelhaltig
  • Phenylalanin ( F), Tyrosin ( Y) und Tryptophan ( W) sind aromatisch

Meine Quelle ist diese Grafik.

Danke schön! Viel zum Mitnehmen!
Ich bin die Person, die sich diese Neuordnung ausgedacht hat, und ich kann bestätigen, dass acvill korrekt ist. Insbesondere bestand die Hoffnung darin, dass in Heatmaps, die die Sequenz mit anderen Eigenschaften wie Farben in Beziehung setzen, in Clustern auftauchen würden. Es funktioniert eigentlich nicht so gut, aber es ist das Beste, was Sie tun können, wenn Sie sie in einer Dimension anordnen.
Ich habe meinen vorherigen Kommentar zu Strings gelöscht, da sich zu meiner Überraschung herausstellt, dass der Computercode die beiden 20 Aminosäuresequenzen als Strings enthält. Ihre Antwort könnte also so geändert werden, dass "die zweite Zeichenfolge die 20 Aminosäuren enthält, die so angeordnet sind, dass diejenigen mit ähnlichen physiochemischen Eigenschaften gruppiert sind". Der Grund für die Konstruktion solcher Zeichenfolgen kann nur aus einem Verständnis des Computeralgorithmus erkannt werden.
@David Ich werde die Autoren kontaktieren und den Thread aktualisieren.