Сверхкомпактный носитель информации на ДНК человека

(Статья подготовлена на базе публикации «Operating System of Computer Summarized movie stored on Human DNA !»)

Преамбула

Моя ключевая статья «Переход разума через сингулярность» исходит из предпосылки, что мир стоит на краю качественного перехода человечества в новое состояние. Реализация подхода к использованию ДНК человека в качестве носителя информации не относящейся к его геному, мне кажется подтверждает наличие критической массы технологических новаций, способной инициировать технологическую сингулярность.

Аннотация статьи

Исследователи из Колумбийского колледжа и Нью-йоркского геноцентра (NYGC) C:\Users\кирилл\YandexDisk\Рисунки\Флеш с ДНК.gif разработан алгоритм, предназначенный для потоковой передачи видео на мобильном телефоне, который может разблокировать возможность использования полного потенциала хранения информации на ДНК сжимая дополнительную информацию в его 4 базовых нуклеотида: А, G, C и T (аденин, гуанин, цитозин и тимин).

Генерируемая человечеством информация растет ежегодно на 30%, это приводится к необходимости искать новые способы ее фиксации для хранения и использования. В этом смысле, найденный природой способ хранения информации в ДНК является наиболее перспективным по сравнению уже известными. ДНК является идеальной средой хранения информации по причине сверх компактности и времени хранения (тысячами лет, о чем свидетельствует восстановление ДНК с костей предков человека найденных в Испании которым уже 430 тысяч лет сохранившихся в прохладном и сухом месте). «ДНК не будет деградировать с течением времени, как современные носители информации», — заявил соавтор Янив Эрлих, профессор науки о ПК в Columbia Engineering, член Колумбийского института наук о знаниях и основного члена NYGC. Таким образом, ДНК – это жесткий диск природы, постоянное хранилище генетической информации, записанной химическим языком [1].

Предшествующий опыт

Информационные возможности ДНК стали понятны сразу после открытия ее структуры в 1953 году, однако в инженерном ключе ученые стали думать о возможности ее использования в информационной сфере, лишь несколько лет назад. Связано это, прежде всего, со значительным снижением стоимости синтеза и чтения последовательности нуклеиновых кислот. Одна из первых серьезных работ по реализации информационных возможностей ДНК на практике, появилась в 2012 году, когда ученые (под руководством известного молекулярного биолога George Church) закодировали в последовательности ДНК книгу объемом в 52 тысячи слов, несколько jpeg-изображений и небольшую программу на JavaScript. Общий объем информации составил ~700 килобайт, которые уместились в 55 тысяч отдельных фрагментов ДНК длиной по 159 нуклеотидов. Б?льшую (но не всю) часть закодированной информации тогда удалось прочитать. Однако ни метода коррекции ошибок, ни системы избыточности в использованной кодировке не было: бинарную последовательность просто переводили в последовательность нуклеотидов по принципу один нуклеотид — один бит (аденин или цитозин соответствовал 0, гуанин или тимин — 1).

Подобная система может быть использована для демонстрации возможности технологии, но на практике неприменима. В дальнейшем несколько других коллективов пытались использовать известные в теории информации методы кодирования и применить их для работы с ДНК. Например, ученые использовали классический код Рида-Соломона, который позволяет исправлять ошибки в блоках данных и применяется, в частности, при записи информации на CD. Однако этот код не подходит для ДНК: поскольку характер ошибок, возникающие при ее копировании, приводит к большому разбросу в представленности олигонуклеотидов разного типа, особенно при большом объеме данных, что плохо сказывается на «читаемости» кода. Кроме того, полученная плотность кодирования информации (в тех работах, где использовался этот код) составляла всего около половины теоретического предела.

Существо новации

Сначала данные сжимали в recordsdata прямо в файл захвата, после чего преобразовали информацию в короткие строки двоичного кода. Используя алгоритм исправления стирания, называемый кодами фонтана, они случайным образом упаковывали строки в так называемые «капли» и отображали эти единицы и нули в каждой капле на 4 нуклеотидных основания в ДНК, добавляя штрих-код к каждой капле, чтобы позже собрать их вместе. Затем двоичная последовательность разбивается на непересекающиеся сегменты фиксированной длины в 32 байта, а затем они кодируются с помощью «капель», — специальным образом полученных последовательностей чуть большей длины. Полученные капли затем переводятся напрямую в последовательность ДНК с максимальной плотностью (по два бита на нуклеотид), и — в этом состоит надстройка над фонтанным кодом — проверяются по биохимическим ограничениям, которые накладывает техника чтения ДНК: фрагменты не должны содержать длинных однонуклеотидных повторов или участков со слишком большой или слишком малой долей GC-нуклеотидов (сотношение A+T/G+С влияет на физические свойства молекул). Если кодирование приводит к нарушениям ограничений, оно просто повторяется заново до тех пор, пока не удастся создать правильную последовательность. Полученный результат дополняют стандартными адаптерами для ПЦР и отправляют на аппарат автоматического синтеза.

https://nplus1.ru/images/2017/03/03/cb09f04d04994d546e5aabb076175b79.png

Для реализации подхода Эрлих и его коллега Дина Зелински выбрали шесть записей для кодирования и записи в ДНК: полноценную рабочую операционную систему для ноутбуков, французский фильм 1895 года «Прибытие практики в La Ciotat», карту США, компьютерный вирус «pc», исследования 1948 года теоретика информации Клода Шеннона. В целом, они создали цифровой листинг из 72 000 цепочек ДНК, каждые 200 баз данных, и отправили его в текстовом файле для синтеза ДНК на основе контента, в фирму Twist Bioscience (Сан-Франциско), которая специализируется на превращении цифровых данных в органические данные. Через две недели они получили образцы с пятнами молекул ДНК. Чтобы снова перевести генетический код в двоичный, они использовали секвенирование, с использованием собственного программного обеспечения.

Кроме того, они продемонстрировали почти неограниченное множество копий recordsdata, которые вполне могут быть созданы с помощью их метода кодирования путем копирования их структуры ДНК полимеразной цепной реакцией (PCR) этих копий и даже копий их копий и т. д. могут быть полностью восстановлены без ошибок.

Наконец, исследователи отмечают, что их методика кодирования содержит 215 петабайт (215 000 000 гигабайт) информации на один грамм нуклеиновой кислоты — это более чем в 2 раза больше, чем метод, опубликованный исследователями Джорджем Черч в Гарварде, и Ник Голдман и Эван Бирни в Европейском институте биоинформатики [2]. «Мы предполагаем, что это система хранения данных с самой высокой плотностью, когда-либо созданной», — заявил Эрлих. По расчетам авторов новой статьи (подробности приведены здесь) шенноновская плотность информации, учитывающая среднюю длину нуклеотидов, размеры адаптеров для копирования и типичные ошибки синтеза составляет около 1,83 бит на нуклеотид. Использование нового метода позволило добиться информационной плотности, которая составляет 86% этого теоретического предела.

Главным результатом новой работы — далеко не первой в своей области — можно назвать приближение к теоретическому пределу плотности и надежности кодирования информации на основе ДНК. Учитывая близость полученных данных к теоретическим пределам сложно надеяться на какое-то радикальное улучшение этих показателей в будущих работах. Сейчас главным препятствием к практическому применению ДНК в качестве носителя информации остается дороговизна синтеза. Так, в новой работе итоговая стоимость «ДНК-флешки» составила 3,5 тысяч долларов за мегабайт данных. Однако оценивать эту цифру следует в правильном контексте: во-первых, единожды созданный такой носитель может быть легко скопирован почти не ограниченное количество раз. Во-вторых, текущая стоимость записи информации в ДНК является результатом применения обычного современного метода химического синтеза, разработанного прежде всего с приоритетом требования точности. Как показано в новой работе, такая точность сильно избыточна для задач хранения информации. Значительное снижение стоимости может быть достигнуто ослаблением этого требования, но пока такие «быстрые и грязные» методы синтеза ДНК не получили распространения из-за того, что у них не было практического применения.

Представленная работа превосходит по плотности записи все проделанные до сих пор, однако уже существенно уступает другим по объему данных. Так, в Вашингтонском университете при финансовой поддержке частной компании, удалось записать в ДНК более 200 мегабайт данных, среди которых были оцифрованные произведения искусства, 100 литературных произведений из проекта «Гутенберг», всеобщая декларация прав человека ООН более чем на 100 языках, база данных семян некоммерческой организации Crop Trust и клип This Too Shall Pass группы OK Go в высоком разрешении [1].

Таким образом, можно констатировать, что плотность записи информации почти достигла теоретического максимума, что косвенно свидетельствует о приближении момента технологичекой сингулярности.

1. Если это правда, то это гениально!

2. Операционная система компьютера, хранящеиеся в ДНК человека

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *