Агентство национальной безопасности США — технологически очень продвинутая организация. Это неудивительно, учитывая масштабы данных, которые приходится обрабатывать. Петабайты перехваченного интернет-трафика и телефонных разговоров, миллиарды текстовых сообщений из мессенджеров и сотовых сетей — ежедневно. Всё это нужно распознать, классифицировать, индексировать для мгновенного поиска по ключевым словам, выстроить социальный граф и так далее.

Благодаря Сноудену мы представляем, как работают программы глобальной массовой слежки типа PRISM. Теперь давайте посмотрим, какие вычислительные мощности для этого задействуются.

Дата-центры




Главный дата-центр АНБ в штате Юта под кодовым названием Bumblehive (Шмель) введён в строй в сентябре 2013 г. Ориентировочная стоимость строительства на площади почти 10 га оценивается в $1,5 млрд.

Объём дискового хранилища Шмеля в 2013 году оценивали в 5 зеттабайт (5×10²¹). Для сравнения, в 2020 году мировой объём IP-трафика оценивается примерно в 250 эксабайт в месяц (Statista), то есть примерно 3 зеттабайта в год. С подводных межконтинентальных кабелей АНБ уже в 2013 году снимало 2 петабайта в час, а сейчас гораздо больше.

Поэтому АНБ наверняка пришлось сделать апгрейд дисковых накопителей в последние годы, если они по-прежнему хотят сохранять копию всего мирового интернет-трафика.





На схеме показаны:

  • четыре помещения для серверов общей площадью 9290 м²;
  • офис для технического и административного персонала;

  • генераторы резервного питания и баки с топливом, которого хватает на трое суток работы дата-центра;


    Запасы воды и топлива
  • резервуары с водой и насосы, пропускная способность 6,4 млн л в сутки;

  • холодильники и теплообменники, через которые проходит вода, всего около 60 тыс. тонн охлаждающего оборудования;
  • электрическая подстанция;
  • отдел охраны, где установлены центр системы видеонаблюдения, система обнаружения проникновения и другие подсистемы общей стоимостью $10 млн.


Площадь всех административных и технических зданий 83 613 м².

Другую техническую информацию по дата-центру Шмель см. здесь.

Место в Юте выбрано не случайно. Оказывается, крупнейшие американские ЦОД располагаются у 41-й параллели северной широты.



По стечению обстоятельств такой маршрут взяли для первой трансконтинентальной железной дороги, строительство которой завершилось в 1869 г. Вдоль неё непрерывная полоса отчуждения шириной 60 м, под которой сейчас оптические каналы связи.

Другие дата-центры АНБ не такие впечатляющие. Есть суперкомпьютер в Форт-Миде, где находится штаб-квартира. Он нужен для оперативной деятельности. Также в строю ЦОД в Сан-Антонио (Техас), криптологические центры в Джорджии стоимостью $286 млн и Сант-Антонио (Техас) стоимостью $300 млн, которые используются для взлома шифров.


Внутри куполов скрыты радиоантенны для прослушки спутниковой связи по программе шпионажа FORNSAT

Из документов Сноудена выяснилось, что у АНБ есть небольшой ЦОД даже в Великобритании. Дата-центр на станции Menwith Hill (Field Station 8613) была секретно построен в период с 2009 по 2012 годы с бюджетом $40 млн.



Menwith Hill Station занимается хранением и анализом трафика, собранного в этой местности, обрабатывая более 300 млн телефонных звонков и электронных сообщений в сутки. Данные нужны в реальном времени для операций по захвату и уничтожению террористов, которые ЦРУ проводит по всему миру.

Но в целом Шмель стал центральным звеном в инфраструктуре АНБ, как показано на диаграмме. Шмель сам по себе стал облаком.



Дата-майнинг


После утечки данных от Сноудена стало понятно, что АНБ занимается массовой слежкой и собирает данные на всех граждан ДО совершения преступлений, а не на конкретных подозреваемых ПОСЛЕ преступления. Видимо, второй подход считают устаревшим и не таким эффективным.





Вот список некоторых целей по сбору данных АНБ. Каждый тип данных нуждается в классификации, индексировании и отдельном анализе:

  • поисковые запросы;

    пример базы данных с поисковыми запросами государственных служащих с указанием места работы и IP-адреса сотрудника:

  • посещённые сайты;
  • полученная и отправленная почта;
  • активность в соцсетях (Facebook, Twitter и др.)
  • активность в блогах: опубликованные и прочитанные посты, оставленные комментарии (патент АНБ на технологию определения темы текста путём анализа существительных);
  • звукозаписи телефонных переговоров с биометрической идентификацией личности по голосу (патент АНБ);
  • видеозвонки через Zoom, Google Meet и др.;
  • ДНК;
  • и многое другое.


Объём растёт в экспоненциальной прогрессии. Например, в последние годы добавились видеозаписи с камер наблюдения.

Раньше людям хватало аудиозвонков и текстовых сообщений. А теперь всё больше трафика генерируют видеозвонки и видеоконференции.

В дата-центре Шмель установлен суперкомпьютер Cray XC30. В каждую стойку Cray XC30 входит до 384 процессоров Intel Xeon E5-2600 либо Intel Xeon E5-2600 V2.


Cray XC30


Распаковка суперкомпьютера Cray XC30 (источник)

Конструктивно стойка содержит три блейд-шасси, по 16 лезвий в каждом. В свою очередь, в каждом блейде — четыре двухпроцессорных вычислительных узла.





На узел устанавливается 32-128 ГБ памяти с пропускной способностью до 117 ГБ/с. Для связи между узлами применяется фирменная шина интерконнекта Aries.

Суперкомпьютеры XC30 работают под управлением операционной среды Cray Linux Environment, в состав которой входит SUSE Linux Enterprise Server.

Облачные сервисы


Дата-центр в Юте стал последним крупным проектом по строительству инфраструктуры для американских спецслужб. Как и многие другие заказчики, они посчитали более выгодным арендовать мощности облачных провайдеров, а не заниматься техническим обслуживанием собственных дата-центров.

Сейчас ЦРУ и АНБ постепенно отказываются от собственных ЦОД — и переходят в облако, причём частично используют инфраструктуру обычных провайдеров, начиная с AWS.

Агентства вроде ЦРУ и АНБ — самые «жирные» заказчики для облачных провайдеров. Бюджеты не ограничены, объёмы данных колоссальные.

Commercial Cloud Enterprise


В ноябре 2020 года стало известно, что ЦРУ заключило «мультиоблачный» контракт Commercial Cloud Enterprise (C2E) сразу с пятью облачными провайдерами: Amazon Web Services, Microsoft, Google, Oracle и IBM, в то время как с 2013 года она эксклюзивно пользовалась только AWS по десятилетнему контракту на $600 млн на 2013-2023 годы. Теперь ЦРУ переходит в гибридное облако и будет выбирать наиболее подходящего поставщика облачных услуг для конкретных рабочих нагрузок.

Финансовые условия нового контракта не разглашаются, но документация для тендера от 2019 говорит, что бюджет может составлять «десятки миллиардов долларов» на следующие пятнадцать лет.

ЦРУ специализируется на деятельности исключительно иностранных организаций и граждан. Другое дело — АНБ. Вот уже эта структура осуществляет прослушку электронных коммуникаций и за границей, и внутри страны, охватывая всё местное население. Объёмы данных у них на порядок больше, чем у ЦРУ.

Intelligence Community GovCloud


По примеру других разведывательных агентств, к 2018 году АНБ тоже перенесло бóльшую часть своих данных в облако. Но совсем другое облако — это Intelligence Community GovCloud, которое работает на инфраструктуре АНБ (on-premise), на стандартном железе, но с использованием множества уникальных наработок АНБ по аппаратной и программной части.

Commercial Cloud Enterprise и Intelligence Community GovCloud от ЦРУ и АНБ — в каком-то смысле два «конкурента». Каждое из 16-ти агентств, которые входят в Разведывательное сообщество, может выбрать C2E или GovCloud.

Кроме того, есть ещё инфраструктура «Джедай» (Joint Enterprise Defense Infrastructure, JEDI) Минобороны США, которое заключило эксклюзивный контракт с Azure в октябре 2019 года, но до сих пор правомерность сделки оспаривается в суде компанией Amazon.

С точки зрения логической архитектуры Intelligence Community GovCloud — это общий центр, единая среда для удобной работы с множеством разрозненных источников данных. Оно описывается как «озеро данных» (data lake), которое запрашивает данные из внешних хранилищ АНБ и других ведомств.

Информационный директор АНБ Грег Смитбергер рассказывал, что благодаря GovCloud стало проще применять алгоритмы машинного обучения. Вся информация, поступающие в озеро, помечается тегами с указанием источника и уровня доступа — у кого есть право работать с этими данными. Это должно защитить в том числе от таких масштабных утечек, как в случае с Эдвардом Сноуденом. Ведь он работал в консалтинговой компании Booz Allen Hamilton (подрядчик АНБ) и формально не должен был получить доступ к секретным файлам, которые вынес из здания операционного центра АНБ на Гавайях.


Кадр из фильма «Сноуден»

АНБ сейчас тоже смотрит в сторону гибридного облака на публичной инфраструктуре. О проекте Hybrid Compute Initiative (HCI) рассказал информационный директор Разведывательного сообщества США Джон Шерман на конференции AFCEA NOVA. Он говорит, что это будет своего рода эволюционное развитие GovCloud.

HCI и C2E будут работать параллельно. АНБ допускает, что при наличии специфических задач со всплесками нагрузки они тоже могут воспользоваться услугами црушного проекта. Хотя ведомства конкурируют между собой, но готовы сотрудничать по некоторым взаимовыгодным направлениям.

Гибридная платформа HCI будет работать в дата-центрах сторонних облачных провайдеров, но АНБ считает важным, чтобы географически они размещались как можно ближе к её собственной инфраструктуре «для скорости». В некоторых приложениях АНБ сетевая задержка является критичным фактором.

By Ruslan Novikov

Интернет-предприниматель. Фулстек разработчик. Маркетолог. Наставник.