TBvBM

Cards (39)

  • 1.      Molecular clock assumption: Was ist das und in welchem Zusammenhang wird das verwendet?
     
    Sequenzen entwickeln sich mit konstanten Raten
    Menge an Mutationen ist proportional zur Evolutionszeit
    Zweiglängen können verwendet werden, um Divergenz Zeit abzuschätzen
    trifft in Realität selten zuwird bei der Analyse von Phylogenetischen Bäumen verwendet š zeitliche Reihenfolge von Divergenzereignissen darzustellen
  • Scoring Funktionen:
    • Sum of pairs (SP): Summe der Punkte aller möglichen Sequenzpaaren, die anhand einer Substitutionsmatrix bewertet und summiert werden
    • Das Ziel ist es, einen maximalen SP-Score zu erreichen
  • BLOSUM, Was ist das und wozu verwendet?
     
    Direkte Beobachtung (z.B. Sequenzvergleiche) lokales ungapped multiple Alignment von > 2000 konservierten AS-Muster, die 500 Gruppen entfernt verwandte Proteine darstellen:
    lokales Alignment von konservierten Sequenzblöcken
    für finden von konservierten Domänen
    keine Extrapolation = direkte Beobachtung
    BLOSUM62: konstruiert aus Sequenzen mit einem durchschnittlichen Identitätswert von 62% (tatsächlicher Wert)
    kleinere BLOSUM = divergentere Sequenzen (umgekehrt zu PAM)
  • Multiple sequence alignment: Welchem Zweck dient das und was ist der größte Vorteil gegenüber dem pairwise sequence alignment?
     
    Einzelnes Alignment, bei den evolutionär äquivalenten Positionen über alle Sequenzen gemacht werden.
    Mehr biologische Informationen als beim Pairwise Alignment
    Identifizierung von konservierten Sequenzmustern und funktionell wichtigen AS-Resten
    Voraussetzung für phylogenetische Analyse und Sekundär-/Tertiärstrukturvorhersage
  • kleinere BLOSUM-Nummer, größere PAM š divergenter (bei PAM: niedrige Werte = geringe Identitöt)
     
    BLOSUM:
    lokal Alignment von konservierten Sequenzblöcken
    für Auffinden von konservierten Domänen
    direkt beobachtet
     
     
  • PAM:
    global Alignment von konservierten und variablen Regionen
    evolutionär abgebildet
    PAM für die Erstellung phylogenetischer Bäumchen
    1 PAM = 1% der AS-Position die verändert wurden (PAM I, 99% Sequenzähnlichkeit) → Wahrscheinlichkeitsmatrizen
    PAM Matrizen für divergente Sequenzen werden von PAM I durch Matrixmultiplikation extra-poliert
    PAM Matrizen mit niedrigen Nummer = für näher verwandte Sequenzen
  • Welche drei Bindemechanismen gibt es bei Protein-Protein Interaktionen?
     
    Lock & Key: Beide Partner haben „matching binding surfaces“
    Conformational Selection: Konformationsänderung vor Bindung
    Induced Fit: Partner bindet ans Molekül, dadurch Konformationsänderung
    Proteine haben nicht nur eine Konformation
     
    Zusätzlich: 3 Bindungskräfte Protein-Protein Interaktion: VdW, elektrostatische WW, WBB
  • Welche Möglichkeiten zum Loop Modelling gibt es?
     
    Database Searching oder Ab-initio-Methode
    manuelle Modellierung, Vorhersagemethoden wie Energy-Based-Methoden (z.B. Rosetta, Modeller), Knowledge-Based-Methoden (z.B. LOOPP, FREAD), und Hybrid-Methoden (z.B. CABS-loop), Machine Learning
     
  • Database Searching:
    1.PDB-Suche nach 'spare parts' bekannter Proteinstrukturen
    -> Segmente mit gleicher Länge und passender Endpunktskonformation
    2. Auf 2 Stammregionen des Proteins anpassen
    3. Messen der Orientierung und Distanz der 'Anchor-Region' im Stamm
    4. Auswahl des besten Loops à beste Sequenzähnlichkeit, wenig sterische Abstoßungen
    5. Kopieren der Konformation des besten, passenden Fragments auf Anchor-Points im Stamm
  • Ab Initio Methode:
    1. Generation vieler zufälliger Loops
        2. Selektonskriteria:
           keine Abstoßung mit nahen Seitenketten
           wenig Energie
           ψ und ϕ in erlaubten Regionen des Ramachandran-Plots
    kurze Loops (< 5 Resten): vernünftige korrekte Modelle
    lange Loops: schwierig
  • Etablierung von Strukturklassifizierungen:
    Entfernung der Redundanz aus Datenbanken
    Auswahl von Vertretern
    Trennung strukturell unterschiedlicher Domäne
    Clusterbildung von Domänen ähnlicher Strukturen
     
  • SCOP: Structural classification of Proteins: Datenbank für den Vergleich und Klassifizierung von Proteinen basierend auf manuellen Untersuchungen der Proteinstruktur
    Familien: hohe Sequenzidentität, enge evolutionäre Beziehung und gleiche Funktion
    Superfamilien: Familien mit ähnlichen Strukturen aber geringer Sequenzidentität, gemeinsamer entfernter Vorfahre
  • SCOP: Structural classification of Proteins: Datenbank für den Vergleich und Klassifizierung von Proteinen basierend auf manuellen Untersuchungen der Proteinstruktur
    Folds: Superfamilien mit manuell bestimmter gemeinsamer Kernstruktur, ähnliche Sekundärstruktur, nicht immer evolutionäre Beziehung
    Klassen: Folds mit ähnlicher Kernstruktur, ähnliche SekStruktur Elemente und generelle Eigenschaften, zufällig in Evolution verwandt
  • Homologie: gleicher evolutionärer Ursprungje kürzer die Sequenz, desto höher die Wahrscheinlichkeit dass fälschlicherweise Homologie angenommen wird
    Sequenzidentität: % an Matches der gleichen Reste bei zwei aligned Sequenzen
    Sequenzähnlichkeit: % an aligned Resten die ähnliche physiochemische Eigenschaften aufweisen → können einfacher füreinander ersetzt werden
  • Pairwise sequence Alignment (global und local alignment methods)
    -> Anordnung von 2 Sequenzen, um maximale Übereinstimmung zu erhaltenZiele: Suche nach Konservativität und Variation, Beschreibung der Sequenzähnlichkeit, Basis für Struktur- und Funktionsvorhersagen, Beurteilung der Ähnlichkeit → Möglichkeit der HomologieSubstitutionen → andere ResteGaps: Insertionen oder DeletionenReste ohne Gegenstückevolutionär selten
  • Pairwise Sequence Alignment:
     
    Zu niedrige Werte erlauben kein sinnvolles Alignment: Eine einzige Mutation kann zu mehreren Insertionen / Deletionen führen → das Auftreten einer Gap ist signifikanter als die Länge
  • Multiple sequence Alignement (exhaustive and heuristic algorithms)
  • Dynamic Programming (optimales alignment, großes kompliziertes Problem in einfachere Sub-Proleme geteilt und daraus optimale Lösung finden)
    Scores werden Reihe fur Reihe berechnet → Scoring beachtet vorherige Scores → höchster Score wird übernommen
  • Needleman Wunsch Algorithm (global alignment)optimale Pfad über Erweiterung von lokalen Subpaths → immer der Reste mit den besten Score wird gewählt → Maximum Score für full-lenght Alignment und Gap penalties erlaubt
    Nachteil: eventuell beste lokale Ähnlichkeiten ¨übersehen¨, nur für Alignment von zwei nah verwandten Sequenzen mit ungefähr gleicher Länge
  • Smith Watermann (local alignment)
    Alignmentpfad darf entlang der Hauptdiagonale beginnen / enden, Gaps werden wenn notwendig eingeführt, für divergente Sequenzen um Domäne zu alignen
    keine negativen Scores (dynamic gap penalties)
  • globale Alignment (top down, conserved sequences)
    Alignment über gesamte Länge (ca. 2 gleich lange Sequenzen), Sequenzen ähnlich über gesamte Länge
    hoch übereinstimmende Regionen werden ¨ übersehen ¨
     
     
    Local Alignment (bottom up, distant homology)
    Alignment von Regionen mit hoher Ähnlichkeit, Domäne und Motive
  • Arten Datenbanken:
    ·       Biologische Datenbanken
    ·       Primäre Datenbanken
    ·       Sekundäre Datenbanken
    ·       Spezialisierte Datenbanken
    Beispiel für Sequenzdatenbank: Genbank (DNA, RNA, cRNA, etc. und kodierende Sequenzen, Sequenzlänge, Molekültypen etc.)
  • Vorteil primäre DB:
    erstellt durch biologische Daten von Forschern š Sequenz und Struktur
    Nachteil gegenüber sekundäre DB:
    überflüssige Daten
    wiederholte Einträge
    Überlappende Sequenzen
    Frameshifts
    Kontaminierungen durch Klonierungsvektoren
    Frühere Sequenzen anfällig für Fehler
    Falsche Vermerke: Unterschiedliche Namen für die gleiche Gensequenz oder gleicher Name für verschiedene Gene
  • Vorteil X-Ray:
    einfach zu visualisieren und interpretieren, hohe atomare Auflösung
    mathematisches Modell (Fourier Transformation) um von Elektronendichte -> Atomkernpositionen -> 3D Struktur
    große Moleküle bestimmbar
    Qualitätsindikatoren und umfangreiche Datensätze vorhanden

    Nachteil X-ray:
    Proteinkristall erstellen ist nicht immer möglich
    keine Dynamik erfassbar und somit keine physiologische Umgebung
  • Vorteil NMR:
    Protein Faltungen können studiert werden sowie räumliche Nähe von Atomen
    kein Proteinkristall notwendig, in situ Proteinstrukturen identifizieren
    Dynamik studierbar -> Ensemble an möglichen Strukturen
     
    Nachteil NMR:
    hohe Konzentrationen an gereinigten Proteinen notwendig
    Gefahr der Aggregation
    Limitiert auf die Molekülgröße und Empfindlichkeit
  • Vorteil Cryo EM:
    viele separate Bilder, werden aligned und gemittelt š 3D Informationen (3D Dichtemodell)
    Proteine in natürlichen Zustand und in vitro-Zustände bei physiologischen Bedingungen untersuchen
    Elektronenstrahlen verwendet sodass kleinere Proteinmoleküle und große Komplexe untersuchbar sind, die sonst schwer kristallisieren
     
    Nachteil Cryo EM:
    sehr viel noise
    keine atomare Auflösung
  • Motive und Domänen sind evolutionär mehr konserviert, werden verwendet für die Klassifizierung von Proteinsequenzen und Identifizierung von Proteinfamilien
    Motive: kurze konservierte Sequenzmuster, assoziiert mit Funktionen und mit Strukturseiten, 10 – 20 AS, Beispiel: Zn-Finger
    Domäne: konservierte Sequenzmuster, unabhängige funktionelle und strukturelle Einheit, 40 – 700 AS-Reste (Durchschnitt = 100), kann Motive enthalten, Beispiel: Transmembran Domäne
  • MD Simulation Zeitskalen-Problem:
    Zeitskalenproblem in Molekular Dynamics (MD) Simulationen: Herausforderung, den physikalischen Prozess in einer Simulation bei realistischer Geschwindigkeit abzubilden
    1. Ansätze: Enhanced Sampling Techniken2. Die Verwendung von parallelen Rechnern erhöht die Geschwindigkeit und Effizienz der Simulationen3. Verwendung von Hardware-beschleunigten MD-Simulationen mit speziellen Grafikkarten und Prozessoren4. Verwendung von Coarse-Grained-Modellen oder Reactive-Force-Fields (ReaxFFs)
  • Loop-Modeling:
    Database Searching: Dabei wird in den Protein-Datenbanken nach passenden Fragmenten mit bekannter Struktur gesucht. Anhand dieser Fragmente kann das Modell gebaut werden.
    Ab-initio-Methode: Diese Methode besteht darin, mit zufälligen Konformationen des Loops zu beginnen. Dann werden diese Konformationen bewertet und in jedem Schritt des Modellierungsprozesses weiter verbessert.
  • Loop-Modeling:
    Knowledge-based-Methoden: Dabei werden die Informationen aus bekannten Proteinen genutzt, um das Loops zu modellieren. Solche Methoden basieren auf Statistikdaten und Datenbanken.
    Hybrid Methoden
    Template-Modellierungsmethode: Bei dieser Methode wird die Struktur eines Protein-Loop-Modells auf der Basis von lokalen Strukturelementen der Proteine modelliert.
    Segment-Modellierungsmethode: Die Loop-Struktur wird auf Basis von Segment-Fragmenten modelliert.
  • Scheitern ab-initio Sek. Strukturvorhersage Proteine:
    an der Komplexität des Proteinfaltungsprozesses
    basiert auf physiochemischen Prinzipien und der Vorhersage von Aminosäure-Kontaktvorhersagen, um eine Faltung auf der Primärstruktur des Proteins vorherzusagen
    Faktoren wie Entropie, Umweltbedingungen, WW mit anderen Molekülen, strukturelle Konformationen -> schwierig präzise Vorhersage der tertiären Struktur
    Vielzahl von Proteinen, für die es bisher keine experimentell bestimmten Strukturen gibt: š Fehlen solcher Daten erschwert die Vorhersage der Proteinfaltung
  • Anwendung von Bioinformatik:

    Sequenzanalyse (Gene, Motive, DNA etc.)
    Strukturanalyse → Protein Struktur Vorhersage
    Funktionanalyse (Metabolismus, Gen-Expression, Proteininteraktionen, etc.)
  • Database Similarity Searching:
     
    Vergleich aller individueller Sequenzen in einer Datenbank → zuweisen mutmaßlicher Funktionen, Hauptanwendungen von Pairwise Alignment
    Eine Erhöhung der Sensitivität führt zu einer Verringerung der Selektivität
    Eine Erhöhung in Schnelligkeit führt zu geringerer Sensitivität und Selektivität
    Sensitivität -> true positives (möglichst viele korrekte Hits)
    Selektivität -> false positives (ausschließen nicht-korrekter Hits)
  • true negative = predicted nedative actual negative
    false positive = predicted positive actual negative
    false negative = predicted negative actual positive
    true positiv = predicted positive actual positive
  • heuristische Methode:begrenzte Anzahl von Optionen untersucht wird, um eine schnelle, aber nicht unbedingt perfekte Lösung zu finden
    verwendet, wenn die möglichen Lösungen sehr groß sind oder eine perfekte Lösung zu teuer in Bezug auf Ressourcen oder Zeit ist
    exhaustive („erschöpfend“) Methode:alle möglichen Kombinationen und Lösungen durchprobiert werden, um die perfekte Lösung für ein Problem zu finden
    sehr zeitaufwändig, eher nur für einfache Probleme mit einer geringen Zahl von möglichen Lösungen
  • "Word-Methode" š heuristische MethodeBerechnung des Alignments:  kurze Bereiche von identischen oder ähnlichen Resten ("words") in beiden Sequenzen gesuchtzwei Sequenzen gelten als verwandt, wenn sie mindestens ein gemeinsames "word" haben
  • BLAST → Substitutionsmatrix um passende Words zu finden, schneller, spezifischer durch low complexity masking
    FASTA → identische matching Words mit Hashing-Strategie bei kleinerer Fenstergröße, sensitiver mit besserer Abdeckung von Homologen, langsamer
  • Phylogenie:
     
    Entwicklung einer biologischen Form von anderen bereits existierenden Formen durch: natürliche Selektion: ’untaugliche’ Formen werden eliminiert und spontane Mutationen: biologische Vielfalt in einer Population
    Phylogenie = evolutionäre Divergenz = Baumverzweigungsmuster
    Forschung der evolutionären Beziehung von Genen und biologischen Makromolekülen und Analyse von Mutationen → Entwicklung von Hypothesen zur evolutionären Verwandtschaft von Biomolekülen, basiert auf Sequenzähnlichkeit
  • Homologiemodellierung:
     
    1. Template Auswahl: Identifizierung homologer Sequenzen in Proteinstrukturdatenbank
    2. Alignment des Targets und Template Sequenz
    3. Konstruktion des Hauptketten-Frameworks für das Target
    4. Hinzufugen und Optimieren von Seitenkettenatomen und Loops
    5. Verfeinerung und Optimierung des ganzen Modells nach energetischen Kriterien
    6. Evaluierung der Gesamtqualität des erhaltenen Modells