DNS in MB

Marcus_c10157 · 9. Juli 2004 um 17:11

Hallo,
kann mir jemand eine Zahl nennen, wie viel Information das menschliche Genom enthält in Megabyte (ich nehme mal an, dass es in diesem Bereich liegt)? Die Gene sind aus Basenpaaren aufgebaut, die vier Werte annehmen können, also zwei Bit Information kodieren. Der Mensch hat laut Human-Genom-Projekt ca. 35.000, nach anderen Schätzngen ca. 100.000 Gene. Fehlt zum Ausrechnen nur noch die durchschnittliche Länge eines Gens. Wer weiß mehr?

Simon_d9fe0a · 9. Juli 2004 um 18:20

Hallo Marcus,

Das menschl. Genom enthält ca. 3 * 10^9 Basenpaare.
Nur: es gibt auch DNA-Sequenzen, die kein Gen darstellen - z.B. weil die betr. Sequenz regulatorische Funktion hat, oder weil zwischen den einzelnen Genen auch Basensequenzen eingebaut sind, deren Sinn noch nicht so ganz klar ist.
Evtl. hilft dir das ja weiter.

Grüße, Simon

Hallo,
kann mir jemand eine Zahl nennen, wie viel Information das
menschliche Genom enthält in Megabyte

Marcus_c10157 · 9. Juli 2004 um 19:12

Das menschl. Genom enthält ca. 3 * 10^9 Basenpaare.

Daraus würde ich dann schließen, dass das menschliche Genom ca. 750 MB umfasst, falls das ein falscher Schluss sein sollte, bitte ich um Korrektur.

Nur: es gibt auch DNA-Sequenzen, die kein Gen darstellen -
z.B. weil die betr. Sequenz regulatorische Funktion hat, oder
weil zwischen den einzelnen Genen auch Basensequenzen
eingebaut sind, deren Sinn noch nicht so ganz klar ist.

Diese Sequenzen muss man wohl mitzählen, denn ich nehme an, dass unser Genom nicht mehr funktionsfähig wäre, würde man diesen Teil „weglassen“.

DrStupid · 9. Juli 2004 um 22:55

Das menschl. Genom enthält ca. 3 * 10^9 Basenpaare.

Daraus würde ich dann schließen, dass das menschliche Genom
ca. 750 MB umfasst

Das ist korrekt.

helge_a8d83d · 9. Juli 2004 um 23:56

Hi,

Diese Sequenzen muss man wohl mitzählen, denn ich nehme an,
dass unser Genom nicht mehr funktionsfähig wäre, würde man
diesen Teil „weglassen“.

Es ist so, dass diese Sequenzen mit Abstand den grössten Teil ausmachen.
(Ich finde gerade meine Roche CD nicht, aber ich glaube es sind weit über 90%).
Diese Sequenzen haben keine codierende Wirkung und enthalten somit keine Information. Für einen echten Vergleich in MB darf man also anstatt 750 MB allerhöchstens 75 MB annehmen.
Gruss,

Scrabz_c2446e · 10. Juli 2004 um 00:31

Huhu!

Diese Sequenzen haben keine codierende Wirkung und enthalten
somit keine Information.

Das ist schwer zu sagen - lass uns lieber sagen, das wir bisher nicht wissen, was für eine Funktion sie haben.

Vieleicht sind es Moderator-Gene, die sagen, wie und wann bestimmte Gene abgelesen werden sollen, und welches Protein rauskommen soll.

Und in dem Fall würden sie die Informationsdichte ziemlich hochhauen.

Die „Ein-Gen-Ein-Protein“-Hypothese stimmt auch nicht so ganz, aber ich bin gerade zu müde und zu angetrunken, um das zu recherchieren.

Morgen vieleicht.

Grüßlis!

Scrabz aka Philipp.

Michael_967d28 · 10. Juli 2004 um 01:25

Hey ho Philipp
Hi Philipp

Die „Ein-Gen-Ein-Protein“-Hypothese stimmt auch nicht so ganz,
aber ich bin gerade zu müde und zu angetrunken, um das zu
recherchieren.

Morgen vieleicht.

Zu Philipp:
Da bin ich ja mal gespannt, hoffentlich hast du keinen Kater morgen.
Wie bist du auf dieses Forum gekommen? Etwa durch die Fachschafts-Homepage? Freut mich aber sehr das du hier fleißig als Experte mitmachen möchtest.

Zum Thema:
Wenn ich wissen möchte wieviel MB in der DNA steckt, ist es doch vollkommen egal ob die Folge von Zeichen (bits) eine Information ergibt oder nicht.
Man kann doch z.B. einen Text aus wahllos zusammengewürfelter Buchstaben mit einem Programm speichern und es belegt trotzdem seinen gewissen Speicherplatz der nur von der Anzahl der Zeichen abhängt.
Bei der Codierung von DNA ist es ja so das ein Basentriplett eine Information enthält, welche aus dem Basenalphabet A,G,C,T besteht.
Wenn man also wissen möchte wie groß der Informationsgehalt ist muss man sich die Tripletts ansehen, hierbei ist zu beachten das unterschiedliche Triplets die gleiche Bedeutung haben können. So gibt es z.B. UAA, UAG, UGA (RNA code: T in DNA wird zu U in RNA )welche für Stop in der Translation stehen.
Wenn man nur den Speicherplatzbedarf errechnen will reicht es die Basensequenz zu benutzen.

Viel spannender finde ich übrigens den möglichen Informationsgehalt der Zucker, da diese ein größeres Alphabet haben und somit mehr Möglichkeiten bieten um z.B. Rechenoperationen durchzuführen.
Man könnte z.B. versuchen einer „Population“ von Proteinen in einer Lösung zwei bestimmte Zucker zu geben, welche diese dann in irgendeiner Form umbauen, und dann als Produkt abgeben.
Machen die Proteine dies immer gleich, kann man den einen Zucker z.B. mit der Zahl 2 gleichsetzen und den anderen mit 3, das Produkt ist dann 5. Es wurde also eine Addition von den Proteinen durchgeführt.
Durch die große Anzahl an Proteinen die man in so eine Lösung stecken kann, ist es natürlich ein leichtes viele verschiedene Rechnungen paralell rechnen zu lassen.

So genug Brain-Storming für heut Nacht.

CU evtl. Mittwoch Philipp
Gruß an alle
Micha

Scrabz_c2446e · 10. Juli 2004 um 11:41

Huhu!

Zu Philipp:
Wie bist du auf dieses Forum gekommen? Etwa durch die
Fachschafts-Homepage? Freut mich aber sehr das du hier fleißig
als Experte mitmachen möchtest.

Hey, hi Micha!

Cool, endlich mal jemand, der Wer-Weiss-Was auch kennt!

*höhm* Ich bin seid ungefähr Mitte 2000 dabei, der Spiegel hat damals wer-weiss-was in einem Artikel genannt, und ich mußte meine Facharbeit schreiben.
Ich war früher mal wesentlich aktiver

Zum Thema:
Wenn ich wissen möchte wieviel MB in der DNA steckt, ist es
doch vollkommen egal ob die Folge von Zeichen (bits) eine
Information ergibt oder nicht.

Mit klarem Kopf, und wenn ich nochmal drüber nachdenke bezog ich mich auf diese Stelle:

[Quote Helge]

Diese Sequenzen haben keine codierende Wirkung und enthalten somit keine :Information. Für einen echten Vergleich in MB darf man also anstatt 750 MB :allerhöchstens 75 MB annehmen.

[/Unquote]

Ich meinte, das man doch von 750 MB ausgehen sollte, weil man halt nicht weiss, ob die „nichtcodierenden Sequenzen“ wirklich keine Information enthalten oder doch.

Man kann doch z.B. einen Text aus wahllos zusammengewürfelter
Buchstaben mit einem Programm speichern und es belegt trotzdem
seinen gewissen Speicherplatz der nur von der Anzahl der
Zeichen abhängt.

*grummel*

Meine ich ja.

Merke: Nicht betrunken posten

Das mit den Zuckern mußt du mir mal bei Gelegenheit erklären.

Bis Mittwoch, Micha(hoffentlich), Grüßlis an alle!
Philipp.

Majikthise_4e82ce · 10. Juli 2004 um 15:15

Hallo Marcus,

Daraus würde ich dann schließen, dass das menschliche Genom
ca. 750 MB umfasst, falls das ein falscher Schluss sein
sollte, bitte ich um Korrektur.

Während man ein Bit mit einem Basenpaar gleichstellen kann, kann man daß, glaube ich, nicht ohne weiteres in Byte umrechnen. Ein Byte ist definiert als 8 bit; in der Genetik aber gibt es das so nicht.
Dort codieren drei aufeinanderfolgende Basenpaare für eine Aminosäure; ein genetisches Byte hätte also 3 bit.

Gruß Majikthise

Peter_TOO · 10. Juli 2004 um 16:49

Hallo Majikthise,

Während man ein Bit mit einem Basenpaar gleichstellen kann,
kann man daß, glaube ich, nicht ohne weiteres in Byte
umrechnen. Ein Byte ist definiert als 8 bit; in der Genetik
aber gibt es das so nicht.
Dort codieren drei aufeinanderfolgende Basenpaare für eine
Aminosäure; ein genetisches Byte hätte also 3 bit.

Für den Speicherbedarf spielt das absolut keine Rolle.

Auch bei einem Computer sagt das Byte nichts über die die tatsächliche Verwendung der einzelnen Bits aus.
èbrigens ist Byte eigentlich ein Begriff aus der Hobby-Computerei.
Die Fachlich richtige Bezeichnung ist eigentlich Octet.

MfG Peter(TOO)

DrStupid · 11. Juli 2004 um 20:01

Diese Sequenzen haben keine codierende Wirkung und enthalten
somit keine Information.

Daß die nicht-codierenden Sequenzen keine Information enthalten, nur weil sie keine Aminosäure-Sequernzen codieren, halte ich für eine extrem gewagte Hypothese.

Spinturn · 12. Juli 2004 um 01:53

etwas OT )))
Hallo Marcus!

ca. 750 MB umfasst,

Kraaassss… )

Schon überhaupt seltsam der Vergleich…

Also könnte man theoretisch alle Info eines Genoms eines Menschen auf einen CD-Rohling brennen *g*
(ok, ein klein wenig mehr…)

*duckundweg*

Spotvolta

Jo1_a88223 · 12. Juli 2004 um 10:53

Hallo allerseits,

kann mir jemand eine Zahl nennen, wie viel Information das
menschliche Genom enthält in Megabyte (ich nehme mal an, dass
es in diesem Bereich liegt)?

Gegenfrage: Was verstehst du im Genom als Elementarinformation ?
Wenn du ein Basenpaar dafür ansiehst, dann brauchst du 2 Bit pro Basenpaar, das macht zusammen 2 x 3 x 10E9 = 5.6 Gbit = 715 MB. Das ist, denke ich, die einzig „sinnvolle“ Umrechnung, wenn auch biologisch nicht sonderlich aussagekräftig (dann kann man auch die Genomgröße in Basenpaaren angeben - was man ja auch tut).

Alles andere ist extrem schwierig. Wie willst du strukturelle und regulatorische Informationen werten/wichten?

Selbst, wenn du dich nur auf den Informationsgehalt von codierenden Sequenzen beschränken willst, bleibt die Frage, ob du hier statt der Basen eine „Übersetzungseinheit“ (Triplett) als Elementarinformation ansehen willst und ob du redundante Einheiten mit der selben Bitfolge codierst. Solltest du das machen, dann kann man überschlagen, daß es mehr als 16 aber weniger als 32 funktionell unterschiedliche Elementarinformationen gibt, die lassen sich durch je 5 Bit codieren. Die so codierende Sequenz macht etwa 10% des Genoms aus, das sind also 5 x 3 x 10E8 = 1.4 Gbit = ca. 180 MB.

Aber eben durch die da nicht berücksichtigten nicht-codierenden Sequenzen entstehen deutlich mehr unterschiedliche Proteine (durch Kombination von Teilsequenzen). Der Informationsgehalt des Proteoms ist also deutlich größer.

Der Mensch hat laut Human-Genom-Projekt
ca. 35.000, nach anderen Schätzngen ca. 100.000 Gene. Fehlt
zum Ausrechnen nur noch die durchschnittliche Länge eines
Gens. Wer weiß mehr?

Auch das ist so einfach nicht, weil die Genlängen nicht normalverteilt sind. Als anhaltspunkt ca 10% des Genoms für alle Gene zusammen ist wohl ok. Allerdings ist der Genbegriff nicht so sonderlich strikt definiert. Zählen regulatorische Sequenzen dazu oder zählen nur die codierenden Sequenzen dazu? Sind entfernte cis- und transregulatorische Elemente und andere, größere genomische Regionen, die über Struktureigenschaften zur Regultaion beitragen, auch Teil des Gen? Regulatorische Elemente bezeihen sich dabei auch auf Gruppen von Genen, überschneiden sich teilweise usw.

Heidenein, wenn das so einfach wäre, gäbe es da schon genauere Aussagen zu, wie groß der effektive Informationsgehalt des Genoms ist.

Grüße,
Jochen