Однажды мы сможем закодировать всю информацию мира в нескольких литрах ДНК
За последние несколько лет ученые расшифровали геномы мамонтов и лошади возрастом 700 000 лет, используя фрагменты ДНК, извлеченные из окаменелостей. ДНК определенно сохраняется намного дольше, чем организмы, для которых она несет в себе генетические коды. Компьютерные ученые и инженеры давно мечтают обуздать миниатюрность и устойчивость ДНК для хранения цифровых данных. Они хотят закодировать все эти нули и единицы в молекулы А, C, G и T, которые образуют винтовую лестницу полимера ДНК — и достижения этого десятилетия в сфере синтеза и секвенирования ДНК привели к серьезному прорыву. Недавние эксперименты показали, что однажды мы сможем закодировать всю цифровую информацию мира в нескольких литрах ДНК — и прочитать ее заново спустя тысячи лет.
Интерес со стороны Microsoft и других технологических компаний повышает напряжение в этой сфере. В прошлом месяце Microsoft Research заявила, что заплатит стартапу в области синтетической биологии Twist Bioscience энную сумму, чтобы создать 10 миллионов цепочек ДНК, разработанных компьютерными учеными компании Microsoft для хранения данных. Ведущий производитель памяти Micron Technology также финансирует исследования хранения данных в ДНК, чтобы определить, может ли система на основе нуклеиновой кислоты расширить пределы электронной памяти. Этот приток денег и интереса может постепенно снизить непомерные затраты и сделать хранение данных в ДНК возможным уже через десять лет, говорят исследователи.
Люди сгенерируют более 16 триллионов гигабайт цифровых данных к 2017 году, и большую часть этого нужно будет архивировать. Юридические, финансовые и медицинские данные, а также, конечно, мультимедийные файлы. Сегодня данные хранятся на жестких дисках, оптических дисках в энергоемких дата-центрах размером со склад. В лучшем случае эти данные хранятся тридцать лет, в худшем — несколько. Кроме того, как говорит компьютерный архитектор Microsoft Research Кэрин Штраус, «мы производим намного больше данных, чем успевает индустрия по производству устройств для их хранения, и прогнозы показывают, что этот разрыв будет расти».
А теперь добавим ко всему этому ДНК. Она живет столетия, если держать ее в сухом холодном месте. Теоретически с ее помощью можно упаковать миллиарды гигабайт данных в объем кубика сахара. Магнитные ленты, плотнейшая из современных среда хранения данных, умещают 10 гигабайт в том же объеме пространства. «ДНК — это невероятно плотный, прочный и энергонезависимый носитель данных», говорит Ольгица Миленкович, профессор электротехники и вычислительной техники в Университете штата Иллинойс в Урбана-Шампейн.
Все потому, что каждая из четырех строительных молекул — аденин (А), цитозин (C), гуанин (G) и тимин (T) — занимает кубический нанометр в объеме. Используя систему кодирования — скажем, в которой А представляет биты «00», C представляет «01» и так далее — ученые могут брать ряды нулей и единиц, образующих цифровые файлы с данными, и создавать цепочку ДНК, содержащую снимок или видео. Разумеется, настоящая методика кодирования куда сложнее, чем мы тут вам написали. Синтез дизайнерской цепочки ДНК — это процесс записи данных. Затем ученые могут прочитать их, секвенируя цепочки.
Генетик Гарвардского университета Джордж Черч основал эту область исследований в 2012 году, закодировав 70 миллиардов копий книги — один миллион гигабит — в кубическом миллиметре ДНК. Годом позже ученые из Европейского института биоинформатики показали, что могут прочитать, без единой ошибки, 739 килобайт данных, заключенных в ДНК.
В прошлом году несколько команд ученых продемонстрировали полностью функционирующие системы. В августе ученые E.T.H Zurich инкапсулировали синтетическую ДНК в стекло, подвергли условиям, моделирующим истечение 2000 лет, и полностью восстановили закодированные данные. Параллельно с этим, Миленкович и ее коллеги сообщили о сохранении страниц Википедии силами шести американских университетов в ДНК и — предоставив последовательностям специальные «адреса» — выборочно прочитали и отредактировали части написанного текста. Случайный доступ к данным очень важен, чтобы избежать необходимость «секвенировать целую книгу, чтобы прочитать один только параграф», говорит Миленкович.
В апреле Штраус и ученые Джорд Силиг и Луис Цезе из Вашингтонского университета сообщили о том, что смогли записать три файла изображения, каждый в несколько десятков килобайт, в 40 000 цепочек ДНК, используя собственную схему кодировки, а после считать их в индивидуальном порядке, не допустив ошибок. Работу они представили в апреле на конференции Ассоциации по электронно-вычислительной технике. С помощью 10 миллионов цепочек, которые Microsoft покупает у Twist Bioscience, ученые планируют доказать, что данные ДНК можно хранить в куда более широких масштабах. «Наша задача — продемонстрировать конечную систему, в которой мы кодируем файлы ДНК, синтезируем молекулы, храним их в течение длительного времени, а затем восстанавливаем, секвенируя ДНК, — говорит Штраус. — Начинаем с битов и возвращаемся к битам».
Производитель памяти Micron изучает ДНК в качестве посткремниевой технологии. Компания финансирует работу Черча и ученых Университета штата Айдахо, чтобы создать безошибочную систему хранения в ДНК. «Рост стоимости хранения данных будет стимулировать альтернативные решения, и хранение в ДНК является одним из самых перспективных решений», говорит Гуртей Санду, директор отдела развития перспективных технологий в Micron.
Ученые пока еще ищут способы уменьшения количества ошибок в кодировании и декодировании данных. Но основные части технологии уже на местах. Так что же мешает нам перейти от хранилищ данных размером с обувную коробку до стеклянных капсул с ДНК? Стоимость. «Процесс записи в миллион раз дороже», говорит Силиг.
И вот почему: создание ДНК включает нанизывание молекул нанометровых размеров одну за одной с высокой точностью — это непростая задача. И хотя стоимость секвенирования упала из-за быстро развивающегося спроса на эту услугу, синтез ДНК не имел подобного драйвера на рынке. Миленкович заплатила около 150 долларов, чтобы создать ряд из 1000 синтезированных нуклеотидов. Секвенирование миллиона нуклеотидов стоит около цента.
Интерес к хранению данных от Microsoft и Micron может быть именно тем импульсом, что необходим для начала снижения расходов, говорит Силиг. Умная инженерия и новые технологии вроде микрофлюидики и нанопорового секвенирования ДНК, которые помогают уменьшить и ускорить процесс, также будут способствовать продвижению. Сейчас уходит несколько часов, чтобы секвенировать несколько сотен пар нуклеотидов — и дни на их синтез — используя кучу оборудования. Хотелось бы проводить все это в небольшой коробке, иначе преимущество плотности хранения данных будет потеряно.
Если все получится, Штраус воображает появление компаний, предлагающих услуги по хранению архивных ДНК в течение следующего десятилетия. «Вы сможете открыть браузер и загрузить файлы на их сайт или забрать свои байты обратно, как с облаком», говорит она. Или можно будет купить диск ДНК вместо жесткого диска.