In één gram dna kun je miljoenen terabytes bewaren

Synthetische biologie Organismen slaan informatie op in dna. Ook computerdata zijn op die manier te bewaren.

Illustratie Roland Blokhuizen

Dataopslag doet denken aan harde schijven, usb-sticks en datacentra. Die slaan miljarden en miljarden teksten en beelden op, gecodeerd in digitale bits. Onze lichamen bezitten ook biljoenen kleine datacentra. In iedere celkern is informatie opgeslagen in tienduizenden genen: data over onder andere oogkleur, geslacht en lichaamslengte zijn terug te vinden in ons dna.

Dit natuurlijke opslagmedium houdt deze informatie tienduizenden jaren intact. „Maar dna biedt deze mogelijkheid ook voor romans, vakantiefoto’s en kattenfilmpjes”, vertelt Tom de Greef, hoogleraar synthetische biologie aan de TU Eindhoven. Bij het Institute for Complex Molecular Systems verbetert De Greef met zijn onderzoeksgroep de techniek om data op te slaan in synthetisch dna.

Afgelopen jaar produceerde men wereldwijd zo’n 90 zettabyte (ZB) aan data, wat gelijk staat aan 90 triljard byte of 90 miljard terabyte. In 2025 zal dat zijn verdubbeld tot 180 ZB. Naar verwachting stuit men in dat jaar op een opslagplafond. Dat betekent dat keuzes moeten volgen over welke data wel en niet opgeslagen wordt. Bovendien is het bijbouwen van datacentra geen duurzame oplossing vanwege hun grootschalige energie- en waterverbruik.

De informatiedichtheid van dna is ongeëvenaard

Tom de Greef TU Eindhoven

Volgens De Greef zijn de datacentra van de toekomst laboratoria met bolletjes gevuld met dna. „Het klinkt misschien als sciencefiction, maar ik zie het al voor me dat robotarmpjes druk bezig zijn met het heen en weer pipetteren van dna om data uit te lezen.”

In theorie kan één gram dna 455 exabyte (455 miljoen terabyte) aan data opslaan, in de praktijk ligt het maximum nu op 17 exabyte per gram. Mocht dat in de nabije toekomst niet toenemen, dan heb je voor alle geproduceerde data van 2025 nog steeds maar 26 kilogram dna nodig. „De informatiedichtheid van dna is ongeëvenaard: vergeleken met een harde schijf zo’n vijftig miljoen keer hoger”, zegt De Greef.

Nog een voordeel: dna blijft langer goed dan een harde schijf. „In plaats van de tien tot twintig jaar die harde schijven meegaan, blijft dna bij kamertemperatuur zo’n duizend jaar stabiel.”


Amper energie nodig

Het dna wordt niet opgeslagen in levende cellen, maar in welletjes, kleine laboratoriumschaaltjes, waardoor er geen mutaties plaatsvinden, legt de Greef uit. Dankzij de stabiliteit van dna bij kamertemperatuur is er amper energie nodig om data in stand te houden. Alleen wegschrijven en uitlezen kost energie.

De techniek heeft ook zijn beperkingen. Het uitlezen van dna is tijdrovend. „Het kan zomaar een dag duren totdat je de data terug hebt gehaald. Onze harde schijven thuis zal dna dus niet vervangen. Dna als opslagmedium is vooral nuttig voor archiefopslag, zoals oude filmcollecties van filmmaatschappijen of geheime documenten van inlichtingendiensten, waartoe je slechts enkele keren per jaar toegang nodig hebt.” Deze zogenoemde ‘koude data’ beslaat inmiddels meer dan 60 procent van de totale dataproductie.

Hoe werkt dat precies, data opslaan in dna? Stel je begint met een afbeelding. De kleur van iedere pixel kun je beschrijven met een binaire computercode. Dna werkt niet met enen en nullen, maar met de nucleotiden A, C, G en T. Die letters kunnen twee opeenvolgende bits coderen. Een computeralgoritme vertaalt ‘00’ bijvoorbeeld in A, ‘01’ wordt C, ‘10’ G en ‘11’ T. Daarna worden dna-strengen gesynthetiseerd met de juiste nucleotidevolgorde en voilà, je digitale afbeelding is opgeslagen in dna-code.

De prijs is momenteel exponentieel aan het dalen

Tom de Greef TU Eindhoven

Qua techniek is dit al haalbaar, vertelt Jesse Middelwijk, biotechnoloog bij een dna-synthesebedrijf. Middelwijk is zelf niet betrokken bij onderzoek naar dna als data-opslagmedium. „We kunnen met een efficiëntie van 99,5 procent iedere nucleotide toevoegen aan de streng en zo de juiste volgorde bepalen.”

Wil je weer toegang tot je afbeelding, dan leest een sequence-apparaat de nucleotidevolgorde van deze strengen uit. Omdat sequencers hierbij kleine foutjes maken, gaat daar vermenigvuldiging met een PCR-reactie aan vooraf: de sequencers bepalen van meerdere kopieën van dezelfde dna-streng de volgorde, waarna een algoritme de uitleesfoutjes eruit filtert. Vervolgens vertaalt een computer de lettercode via enen en nullen terug naar pixels.

„Om een bestand op te slaan zou je een heel lange dna-streng nodig hebben, wat een groter risico op schrijffouten geeft”, legt De Greef uit. De oplossing is om het bestand te verdelen in stukjes van 150 nucleotiden. „65.000 van die dna-strengetjes vormen samen een bestand van ongeveer één megabyte”, aldus De Greef.

Fouten in de code

Eén zo’n bestand in een welletje opslaan en uitlezen gaat goed, maar meerdere dna-bestanden in hetzelfde welletje levert een probleem op. Als je verschillende bestanden uit één welletje tegelijk uitleest, maakt de PCR-reactie fouten door overlap in de dna-code. Je moet dus kiezen. Of verschillende bestanden opslaan in verschillende welletjes, maar dat kost veel ruimte. Of genoegen nemen met maar één bestand per keer uitlezen, maar dat kost veel tijd.

Het Eindhovense team loste dit PCR-probleem op door dna op te slaan in polymeerbolletjes van dertig tot veertig micrometer groot. Meerdere dna-bestanden kunnen zo zonder problemen in verschillende bolletjes in één welletje zitten. De dna-strengen die samen één bestand coderen zijn aan de binnenkant van de capsules verankerd. „Bij een temperatuur van 50°C gaan die bolletjes dicht, wat een fysieke scheiding creëert tussen verschillende bestanden. De PCR-reactie vindt daarbinnen plaats, bijna foutloos. Als we de temperatuur verlagen gaan de bolletjes open. Dan kan je de gemaakte dna-kopieën uit de bolletjes wassen om uit te lezen, terwijl de originele dna-strengen verankerd blijven aan de bolletjes”, beschrijft De Greef.

Duizend euro voor een megabyte

Op deze manier kan je de opgeslagen data parallel en herhaaldelijk uitlezen. Dat is een eigenschap die alle opslagmedia moeten bezitten, legt De Greef uit. „Waar we voorheen maar één bestand tegelijk konden uitlezen, zijn dat er nu 25. En de bolletjes verminderen ook het verlies van data. Na drie keer uitlezen ging 35 procent van het dna verloren. Met de bolletjes is dat verlies minder dan 1 procent.”

Hoewel deze hordes overwonnen zijn, zijn er nog geen dna-datacentra in gebruik. De synthese van dna is namelijk ontzettend duur: De Greef schat het opslaan van een megabyte momenteel op duizend euro. „De prijs is momenteel exponentieel aan het dalen en als dat zo doorgaat, schat ik dat het eerste dna-datacentrum over vijf tot tien jaar beschikbaar is”, zegt de Greef.

Er zijn momenteel nog veel chemicaliën nodig om zuiver dna te verkrijgen

Jesse Middelwijk biotechnoloog

Middelwijk is terughoudender. „Dna-synthese wordt steeds goedkoper, maar dat gaat afwisselend met impulsen en vlakke stukken, dus dat is moeilijk te voorspellen.” Hij plaatst ook een kanttekening bij de duurzaamheid. „Er zijn momenteel nog veel chemicaliën nodig om zuiver dna te verkrijgen. Een nieuwe synthesemethode met enzymen is een stuk minder vervuilend, maar die staat nog in de kinderschoenen.” De Greef verwacht dat de synthese met enzymen de kosten van dna-synthese zal drukken.

Over het idee achter de techniek is Middelwijk enthousiast. „We kunnen zoveel leren van hoe dna informatie opslaat. Niet alleen door de nucleotiden zelf, maar ook hoe bepaalde stukken dna wel en niet worden uitgelezen in ons lichaam.”