Как просчитать наследственность

Иллюстрация: Ida Bagus Nyoman Rai / Wikipedia Commons

И если бы самому ему пришло в голову задаться вопросом, почему, например, дети похожи на родителей, он бы только подивился неожиданному баловству мысли, узревшей вопрос в естественном порядке вещей, а искать ответ он бы даже не попытался.

Аркадий и Борис Стругацкие, «Отягощенные злом, или сорок лет спустя»

О том, что наследственность существует, люди знали всегда. Признаки передаются от предков к потомкам и у человека, и у животных, и у растений. Простой крестьянин, живший век или два назад, мог не иметь ровно никаких теоретических представлений об устройстве природы, но уж то, что детям положено быть похожими на родителей, он знал твердо. И это имело для него ясное практическое значение: в русских деревнях невесту присматривали «по породе», стремясь, чтобы у нее в роду не было наследственных заболеваний, калек или сумасшедших. Не менее наглядным был опыт разведения домашних животных и растений. Никто из людей, имевших хоть какое-то отношение к сельскому хозяйству, в существовании наследственности не сомневался.

Примечательно, что ни в одном из трех дореволюционных изданий словаря Даля слова «наследственность» все же нет. Очевидно, народному сознанию это явление представлялось настолько естественным, что особое обозначение для него не требовалось. Скорее наоборот, удивление вызывали слишком явные отклонения от точного наследования (мол,«в кого ты такой уродился?»). Для подобных отклонений в науке придумано понятие «изменчивость». В целом — на это стоит обратить внимание — о наследственности обычно говорят в том случае, если она хотя бы потенциально не является абсолютно точной, то есть если хоть какая-то изменчивость все же налицо. Эти понятия — взаимодополняющие.

Любому, кто пытался осмыслить явление наследственности, было ясно: дети получают от своих родителей нечто, решающим образом влияющее на их качества. Как же это «передаваемое нечто» можно назвать? Отец биологических наук Аристотель воспользовался тут довольно сложным понятием «энтелехия». Аристотелевская энтелехия — это нематериальная сущность, определяющая форму и структуру развивающегося организма. Жизнь этой концепции оказалась очень долгой, некоторые биологи обращались к ней еще в первой половине XX века. Но сейчас энтелехию окончательно вытеснило другое понятие, гораздо более четкое: наследственная информация.

Почему энтелехия исчезла из науки? Не в последнюю очередь потому, что ее так никто никогда и не сумел количественно измерить. Информация же вполне измерима, о чем прекрасно знает любой пользователь современного компьютера. А ведь наследственная информация по своей природе ничем принципиально не отличается от той, которая записывается и копируется в технических устройствах.

Есть два способа записи информации — аналоговый и цифровой. При аналоговой записи кодирующий параметр может меняться сколь угодно постепенно: например, форма звуковой дорожки на виниловой пластинке (если в наше время еще кто-нибудь помнит, что это такое) повторяет форму той самой звуковой волны, которую нужно записать. При цифровой записи кодирующий параметр может принимать всего несколько строго определенных значений безо всяких промежутков между ними. Предельный случай цифровой записи — это двоичный код, где кодирующий параметр может принимать всего два значения: или 0, или 1. Технология записи обычного текста — тоже типично цифровая. Есть строго определенный набор букв, промежуточные состояния между которыми не предусматриваются.

Важнейший для понимания всей современной биологии факт состоит в следующем: наследственная информация — цифровая. В XVIII веке об этом догадался французский физик Пьер Луи Моро де Мопертюи. А через 100 лет к тому же выводу пришел всем известный Грегор Мендель — тоже физик, но увлекшийся ботаникой и ставший в ней первоклассным специалистом. Причем если Мопертюи опирался на наблюдения, то Мендель доказал цифровой характер наследственной информации уже экспериментально. Конечно, ни Мопертюи, ни Мендель не знали терминов, которые мы сейчас употребляем, но с нашей формулировкой насчет цифровой записи они наверняка согласились бы.

Отступление об основателях

Пьер Луи Моро де Мопертюи был одним из самых блестящих умов французского Просвещения. Он не преподавал в университетах, не имел профессорского звания, а просто занимался наукой в свое удовольствие, время от времени публикуя результаты исследований. И это очень рано сделало его известным ученым и членом нескольких академий — в XVIII веке такое еще было вполне возможно. Именно Мопертюи получил решающие данные о форме Земли, доказав, что она представляет собой сплюснутый с полюсов эллипсоид вращения, как и было несколько ранее предсказано Ньютоном. Мопертюи открыл (и математически обосновал) принцип наименьшего действия — один из самых общих принципов физики, оказавшийся полезным для вычислений как в механике, так и в оптике. Убежденный космополит, Мопертюи по приглашению короля Фридриха Великого переехал из Парижа в Берлин и там стал президентом Прусской академии наук. Это создало ему большие проблемы на родине через несколько лет, когда началась Семилетняя война между Францией и Пруссией, — увы, жизнь мыслителей в разделенном мире редко бывает безоблачной. Умер он в возрасте 61 года в эмиграции, в Базеле, в 1759 году, военные события которого, по мнению многих историков, определили поражение Франции в борьбе за мировое господство.

Заинтересовавшись теорией наследственности, Мопертюи не стал пытаться разглядывать структуру клеток под микроскопом: он прекрасно понимал, что текущее состояние естественных наук не позволит там ничего толком разобрать. Он выбрал совершенно другой путь, а именно занялся исследованием человеческих родословных. Фактически он применил известный кибернетический принцип «черного ящика»: если мы и не можем пока вскрыть механизм наследственности, то некоторые его черты наверняка можно будет описать, если аккуратно сопоставить данные «на входе» и «на выходе».

Прежде всего Мопертюи показал, что наследственные качества совершенно равноправно передаются потомкам от обоих родителей. Это называлось бипарентальной теорией наследственности, и в XVIII веке в этом были убеждены далеко не все. Одни ученые считали, что зародыш получает наследственные качества в основном от отца (анималькулисты), другие — что в основном от матери (овисты). Мопертюи с фактами в руках опроверг обе эти теории. Что же касается его собственных взглядов на наследственность, то их можно сформулировать в нескольких пунктах.

Предки передают потомкам наследственное вещество, состоящее из материальных частиц («задатков»), между которыми существует химическое сродство еще неизвестного типа. Эти частицы являются носителями памяти. Для каждой части организма существует своя наследственная частица, определяющая свойства этой части. При размножении организмов наследственные частицы по каким-то еще неизвестным закономерностям расходятся и комбинируются заново.
В одном организме могут сочетаться разные наследственные частицы, контролирующие один и тот же признак. В этом случае одна частица может «перекрывать» (l'emporte) влияние другой. Здесь Мопертюи открыл явление, которое Мендель в следующем веке назовет доминированием.
Комбинация наследственных частиц при возникновении нового организма может быть неточной. Если какая-то частица потеряна, возникает урод, лишенный соответствующего органа (monstre par defaut). Если какая-то частица лишняя, то возникает урод с избыточными органами (monstre par exces). Здесь пока можно лишь сказать, что современная генетика действительно знает подобные эффекты.
Спонтанные изменения наследственных частиц могут мгновенно создавать новые наследуемые признаки. Хорошей иллюстрацией тут послужило явление человеческой многопалости. У двух нормальных родителей, не имевших в обозримом прошлом никаких многопалых предков, может внезапно родиться ребенок с многопалостью, которая потом оказывается наследственной. Документально подтвердив такой случай, Мопертюи фактически открыл мутации (хотя этого термина тогда еще не было).
При скрещиваниях могут создаваться новые сочетания наследственных частиц и, тем самым, новые разновидности организмов. Именно это делает человек при разведении домашних животных и растений. Нет никаких оснований считать, что те же самые процессы не происходят в дикой природе. Здесь у Мопертюи теория наследственности естественным образом переходит в теорию эволюции: получается, что одного без другого не бывает. Насколько мы сейчас понимаем, это абсолютно верно. Хотя даже ученые XIX–XX веков, знавшие гораздо больше, чем Мопертюи, пришли к этой мысли далеко не сразу.

Интересно, что Мопертюи не допускал никакого наследования благоприобретенных признаков, в отличие от многих ученых XIX и даже XX веков, державшихся так называемого ламаркизма — версии эволюционной теории, согласно которой приобретенные полезные признаки постепенно, в ряду поколений, трансформируются в наследственные. Это особенно важно для Франции, где ламаркизм долгое время был очень влиятелен. На самом деле «мопертюистская» традиция старше ламаркистской. Именно ее по большому счету и продолжает современная генетика.

Есть версия, что Пьер Луи Моро де Мопертюи послужил одним из прототипов доктора Моро, героя знаменитого романа Уэллса «Остров доктора Моро». Прямых доказательств этому нет, но совпадение первой части фамилии — Моро — с фамилией доктора, скорее всего, не случайно. И атмосфера в этом романе в целом подходящая.

Итак, Мопертюи первым пришел к выводу, что материальная основа наследственности (какой бы она ни была) образована дискретными частицами, которые не смешиваются между собой. В XIX веке это было подтверждено экспериментально. Например, французский ботаник Огюстен Сажрэ скрещивал дыни разных сортов, отличающихся друг от друга формой плодов. Поначалу Сажрэ ожидал, что у межсортовых гибридов форма плодов будет какой-нибудь промежуточной. Вместо этого оказалось, что у разных особей гибридов встречаются признаки, свойственные или одному, или другому исходному сорту, и эти признаки как бы «конкурируют» между собой в ряду поколений, переходных же состояний между ними нет. Эти и другие данные убедили Сажрэ, что наследственные качества определяются некими устойчивыми единицами (он называл их «зачатками»), которые не могут сливаться или смешиваться. Передаваясь от родителей к детям, они вступают в самые разные комбинации, но сами по себе остаются стабильными, примерно как атомы в химических реакциях.

Через 20 лет после Сажрэ австриец Грегор Мендель продемонстрировал в серии аккуратнейших опытов, что такой механизм наследственности действительно работает — по крайней мере, у некоторых растений. Более того, Мендел показал, что знание этого механизма позволяет делать проверяемые количественные предсказания. «Задатки» Мопертюи, «зачатки» Сажрэ или «факторы» Менделя — это разные названия для дискретных частиц наследственности, в некотором смысле эквивалентных буквам, составляющим текст; недаром в классической генетике их именно буквами и обозначали. Любая отдельно взятая частица такого типа либо унаследована данным организмом, либо нет. Это и есть цифровой способ передачи информации.

Закончить этот разговор, как всегда, можно подходящей цитатой из Станислава Лема. В его рассказе «Одиссей из Итаки» говорится о вымышленном (к сожалению) ученом, который пришел к идее цифровой записи наследственной информации еще в начале эпохи Возрождения:

«...Есть среди них увесистый том некоего Мираля Эссоса из Беотии, который изобретательностью превзошел Леонардо да Винчи; после него остались проекты логической машины из спинного мозга лягушек; задолго до Лейбница он додумался до идеи монад и предустановленной гармонии; он применил трехценностную логику к некоторым физическим феноменам; он утверждал, что живые существа рождают подобных себе потому, что в их семенной жидкости содержатся письма, написанные микроскопическими буковками, и комбинации таких «писем» определяют строение взрослой особи; все это — в XV веке».

Вот с теми самыми «микроскопическими буковками», которыми написаны эти «письма», мы сейчас и познакомимся.

Атомы наследственности

Открытия Мопертюи, Сажрэ и Менделя были несовершенны в одном важном для нас аспекте. Частицы, которые они принимали за элементарные единицы наследственности, таковыми на самом деле вовсе не были. Все эти «задатки» и «факторы» вполне поддаются дроблению на более мелкие части (как мы сейчас совершенно точно знаем). В XIX веке просто не существовало методов, позволяющих это увидеть. А вот в XX веке, с началом так называемых исследований тонкой структуры гена, сразу стало ясно, что «атомы наследственности» — если они и есть в природе — должны быть гораздо мельче.

И все-таки сторонники дискретности оказались в конечном счете правы. Неделимые носители наследственной информации действительно существуют. Это — нуклеотиды. Вот они-то и есть те самые «буквы», которыми написан генетический текст. Надо заметить, что нуклеотид — это достаточно крупная молекула по меркам обычной химии. И если его расщепить на части, то они носителями наследственной информации уже не будут. Таким образом, «атом наследственности» можно считать обнаруженным.

В оправдание исследователей прошлых веков надо сказать, что они очень многое угадали верно. Дело в том, что дискретность существует на разных уровнях. Нуклеотиды объединяются в гораздо более крупные комплексы, которые бывают чрезвычайно устойчивыми и очень часто (хотя и не всегда!) в самом деле ведут себя как независимые друг от друга единицы. Вот именно это явление и зафиксировал Мендель. Ну а о существовании самих нуклеотидов ни он, ни тем более его предшественники не имели никакого понятия: время для этого еще не пришло.

Зато к середине XX века биохимики со всей определенностью выяснили, что главным носителем наследственной информации служит ДНК. Молекула ДНК — это, попросту говоря, длинная цепочка нуклеотидов, которые бывают четырех типов: адениновый (А), тиминовый (Т), гуаниновый (Г) или цитозиновый (Ц). Итак, генетический «алфавит» — четырехбуквенный. В общем-то, ничего особенного. В двоичном коде всего две «буквы», в наиболее ходовой версии латинского алфавита 26, ну а здесь четыре.

Цепочка ДНК вполне подобна тексту, где записана некая информация четырехбуквенным алфавитом. С той особенностью, что эта цепочка — двойная. Надо, впрочем, заметить, что такая особенность не является абсолютно необходимой для хранения генетической информации: она просто полезна, но не больше. Дублирование молекулы ДНК заметно повышает надежность системы (если одна цепь почему-то разрушится — есть вторая), но ничего не прибавляет к самому содержанию записанных нуклеотидным текстом сообщений.

Однако что же это за сообщения? Как раз к тому времени, когда биологи выяснили генетическую роль ДНК, ответ (полученный другими биологами и оказавшийся правильным) был готов. Крупные устойчивые комплексы нуклеотидов — гены — должны каким-то образом нести информацию о структуре белков, тех самых огромных молекул, которые делают в клетке почти все (см. главу 3). Множество генов (геном) некоторым неизвестным нам пока способом определяет собой множество белков (протеом). Вот именно этот вывод и оформился в сознании биологов к середине 1950-х годов.

Тут надо оговориться, что геном — это вообще-то не только набор генов. В геномах обычно есть и другие участки ДНК, ни в какие гены не входящие (но они нас пока не интересуют). Что касается самих генов, то каждый из них включает тысячи нуклеотидов, а очень часто и десятки тысяч. Целые геномы обычно состоят из миллионов нуклеотидов, а иногда и из миллиардов. И в принципе все эти нуклеотиды можно пересчитать, современные биохимические методы вполне позволяют это сделать.

Как же геном кодирует белки?

Начнем с того, что любой белок — это цепочка аминокислот. Причем всегда линейная, то есть неветвящаяся. Именно здесь это становится очень важно. Порядок аминокислот в цепочке называется первичной структурой белка. Все остальные уровни структуры — вторичная, третичная и четвертичная — относятся уже к сворачиванию аминокислотной цепи в объеме, в трехмерном пространстве.

И вот тут возникает важнейший факт, который вообще-то относится к физической химии, но — внезапно — оказывается ключевым для понимания такой тонкой материи, как наследственность. Факт этот следующий. Первичная структура белка (то есть аминокислотная последовательность), как правило, однозначно определяет все остальные уровни его структуры, то есть всю укладку молекулы в объеме. Именно поэтому простая линейная последовательность нуклеотидов — иначе говоря, нуклеотидный текст — может полностью определить все свойства любой сколь угодно сложной белковой молекулы. Ведь первичная структура такой молекулы тоже линейна, и ее тоже можно считать текстом. Только вот «буквы» в этих текстах разные.

И перед нами немедленно возникает следующий вопрос: каким образом нуклеотидный «алфавит» переводится в аминокислотный?

Генетический код

Пока большинство биологов считало гены белками, все было относительно просто. Белок, как мы знаем, представляет собой линейную цепочку аминокислот, которые могут чередоваться в любом порядке. Двадцать аминокислот — это количество, вполне сравнимое с количеством букв в каком-нибудь древнем алфавите, вроде греческого или финикийского. Такая система кодирования позволяет хранить любую информацию не хуже, чем в обычной книге. Получается, что «белок является как бы длинным предложением, записанным с помощью двадцати букв».

Правда, надо тут же заметить, что до открытия великой двойной спирали практически никто из биологов в таких понятиях не рассуждал. Перейти с привычного «аналогового» языка традиционной биологии на «цифровой» язык новой биологии, изучающей информационные процессы, им и в дальнейшем было непросто. Многим даже очень крупным ученым, профессионально сложившимся до 1953 года, это вообще так никогда и не удалось. Идея цифровой записи наследственной информации вживалась в биологию с удивительным трудом, несмотря на то что со времен работ Менделя к тому времени прошло уже почти 100 лет. Впору предположить, что эта идея противоречила какой-то фундаментальной особенности склада ума большинства людей, выбиравших биологию своей профессией.

Так или иначе после открытия генетической роли ДНК все заметно усложнилось. Стало понятно, что «базой данных», хранящей последовательности белков, служит не какой-то особый белок, специально приспособленный для записи информации (как это вполне можно было бы вообразить), а совершенно другой полимер, резко отличающийся от белка химически и к тому же содержащий всего-навсего четыре типа мономеров вместо 20. Так возникла проблема перекодировки, или, в более привычных нам терминах, проблема генетического кода.

Тут обязательно нужно пояснение. В сети и публицистике довольно часто встречается мнение, будто генетический код — примерно то же самое, что и генетическая информация. Так вот, это совершенно неправильно. Код — это не сама информация, а словарь, с помощью которого ее можно прочитать. Или более строго: генетический код — это способ перевода друг в друга текстов, записанных с помощью двух разных алфавитов — нуклеотидного и аминокислотного. Своего рода шифровальный ключ. Последнее — даже не метафора: первые теоретики, писавшие о генетическом коде, сразу предложили использовать для его расшифровки математический аппарат криптографии, благо эта наука после Второй мировой войны была развита отлично.

Итак, чего стоит ожидать от генетического кода? У тех ученых, которые сразу после открытия двойной спирали ДНК первыми занялись этим вопросом, получилось примерно следующее:

аминокислот в составе белков 20, а разновидностей нуклеотидов в ДНК всего четыре. Значит, каждая аминокислота должна кодироваться не одним нуклеотидом, а неким их сочетанием. Примерно так, например, вводятся с помощью клавиш китайские и японские иероглифы;
отличающихся друг от друга двоек нуклеотидов (дублетов) может существовать максимум 16. Для кодирования всех аминокислот этого не хватит. Значит, генетический код должен быть как минимум триплетным;
отличающихся друг от друга троек нуклеотидов (триплетов) может существовать максимум 64. То есть их намного больше, чем аминокислот. Значит, каждая аминокислота, скорее всего, кодируется не одним триплетом, а несколькими разными. Таким образом, надо ожидать, что генетический код — избыточный (иногда это называют заимствованным из квантовой физики термином «вырожденный»).

Человека, который первым опубликовал эти соображения, звали Георгий Антонович Гамов. Это был крупный физик-теоретик, причастный к созданию теории Большого взрыва. Занятия биологией для него были эпизодом, но очень плодотворным. Гамов вычислил «на кончике пера» основные параметры генетического кода, и вскоре эксперименты показали, что предсказал он их в основном правильно.

Почти одновременно с Гамовым и, похоже, даже немного раньше очень сходные выкладки совершенно независимо подготовил другой ученый — молодой советский эмбриолог Александр Александрович Нейфах. Но его статью не приняли к публикации! «Редакция “Известий Академии наук. Серия биологическая” отклонила статью, сославшись на то, что формальные математические соображения неприменимы к такой самобытной науке, как биология». Эта история как нельзя лучше показывает, насколько трудно было подавляющему большинству биологов переключиться с «аналогового» мышления на «цифровое». А Нейфах в результате остался без приоритета, и вся советская наука вместе с ним. После Гамова публиковать статью с теми же расчетами было уже бессмысленно.

«Самым трудным в проблеме кода было понять, что код существует, — писал соавтор Гамова Мартинас Ичас. — На это потребовалось целое столетие. Когда это поняли, то для того, чтобы разобраться в деталях, хватило каких-нибудь десяти лет».

Полный генетический код выглядит достаточно просто. Это таблица из 64 ячеек, в каждой из которых значится определенная тройка нуклеотидов (вернее, азотистых оснований, входящих в их состав, — ведь все остальные части в нуклеотидах, составляющих ДНК, одинаковы). Эти тройки называются кодонами . Генетический код состоит из 61 кодона, кодирующего аминокислоты, и трех стоп-кодонов, на которых синтез белковой цепи останавливается. Есть всего две аминокислоты, кодирование которых не является избыточным, то есть подчиняется правилу «одна аминокислота — один кодон». Это метионин и триптофан. Любая другая аминокислота кодируется как минимум двумя разными кодонами. Многие аминокислоты кодируются четырьмя кодонами, а некоторые даже шестью.

Кодоны, кодирующие одну и ту же аминокислоту, называются синонимичными . Например, кодон ТТТ (три тимина подряд) кодирует аминокислоту фенилаланин, и кодон ТТЦ (тимин-тимин-цитозин) — тоже. Довольно часто (но не всегда!) бывает, что синонимичные кодоны отличаются друг от друга только последней «буквой», как мы это в случае с фенилаланином и видим.

Вместо тимина (Т) в таблице генетического кода можно везде поставить урацил (У) и наоборот. Эти два азотистых основания в данном контексте взаимозаменяемы. Дело в том, что они очень похожи друг на друга по структуре: урацил, так же как и тимин, может комплементарно спариваться с аденином, и только с ним. Единственная метильная группа, которой тимин отличается от урацила, никак на это его свойство не влияет.