Ученые Массачусетского технологического института нашли способ поиска и извлечения отдельных файлов, хранящихся в виде ДНК. Они рассчитывают, что это станет шагом к использованию ДНК в качестве файлохранилища, способного вместить всю сгенерированную человечеством информацию.
На сегодняшний день люди создали около 10 трлн ГБ данных, и каждый день появляются новые электронные письма, фотографии, твиты и другие цифровые файлы. Большая часть этих данных хранится в эксабайтных центрах обработки данных (1 ЭБ равен 1 млрд ГБ), которые могут занимать несколько футбольных полей, а их строительство и обслуживание стоит около миллиарда долларов.
Многие ученые считают, что альтернативным способом хранения данных может быть молекула ДНК, которая может вмещать огромное количество информации. По словам Марка Бата, профессора МТИ, в кофейной кружке, полной ДНК, теоретически можно уместить все мировые данные.
«ДНК в тысячу раз плотнее, чем флеш-накопитель, кроме того, полимер ДНК не потребляет энергии. Можно записать информацию на ДНК и хранить ее вечно».
Цифровые системы хранения кодируют текст, фотографии или любую другую информацию как последовательность нулей и единиц. Эту же информацию можно закодировать в ДНК с использованием четырех нуклеотидов, составляющих генетический код: A, T, G и C. Например, G и C могут использоваться для обозначения 0, в то время как A и T представляют 1. У ДНК есть и несколько других особенностей, которые делают ее оптимальным носителем информации: она стабильна, ее легко синтезировать и секвенировать; она обладает высокой плотностью — каждый нуклеотид, эквивалентный двум битам, составляет около 1 нм³. Благодаря этому 1 ЭБ данных, хранящихся в виде ДНК, может уместиться на человеческой ладони.
Одно из препятствий для такого типа хранения данных — высокая стоимость синтеза больших объемов ДНК. В настоящее время запись одного петабайта данных (1 млн ГБ) будет стоить около $1 трлн. По оценке Бата, стоимость синтеза ДНК должна снизиться примерно на шесть порядков, чтобы хранить информацию в таком виде было выгодно. Бат считает, что это произойдет в течение одного-двух десятилетий — подобно тому, как стоимость хранения информации на флеш-накопителях резко упала за последние пару десятков лет.
Еще одна проблема — сложность поиска нужного файла среди всех остальных.
«Если предположить, что технологии достигнут точки, когда будет экономически выгодно записать эксабайт или зеттабайт данных в ДНК, что тогда? У вас будет куча ДНК с миллионами фото, текстов, фильмов и программ. Когда вам нужно будет найти определенный файл, как вы это сделаете? Это все равно что искать иголку в стоге сена».
Бат и его коллеги продемонстрировали решение, заключив каждый файл данных в частицу диоксида кремния, помеченную «штрих-кодами» — короткими последовательностями ДНК, раскрывающими содержимое файла, например, «кошка» или «самолет». Чтобы извлечь конкретное изображение, исследователи удаляют образец ДНК и добавляют праймеры, соответствующие нужным ярлыкам, например «кошка», «рыжий» и «дикий» для изображения тигра, или «кошка», «рыжий» и «домашний» для домашней кошки. Праймеры помечены флуоресцентными или магнитными частицами, что позволяет легко извлечь и идентифицировать нужные файлы, не повреждая остальную часть ДНК. Этот процесс ученые сравнивают с поиском изображений в Google по ключевым словам.
Для своих «штрих-кодов исследователи использовали одноцепочечные последовательности ДНК из библиотеки в 100 тысяч последовательностей, каждая длиной около 25 нуклеотидов, разработанных Стивеном Элледжем, профессором генетики и медицины Гарвардской медицинской школы. Если поместить две из этих меток на каждый файл, можно 10 миллиардов различных файлов, а с четырьмя метками — 10 секстиллионов.
Бат предполагает, что этот метод инкапсуляции ДНК будет полезен для хранения больших объемов архивных данных, к которым редко обращаются. Его лаборатория в настоящее время создает стартап Cache DNA, который займется разработкой технологии для долгосрочного хранения файлов в виде ДНК.