Как Великий Китайский Файервол обнаруживает и блокирует полностью зашифрованный трафик

Сжатый перевод свежего исследования Great Firewall Report
Источник перевода: https://roskomsvoboda.org/post/chinese-firewall/

Одним из основых механизмов в обходе цензуры являются полностью зашифрованные протоколы, которые шифруют каждый байт полезной нагрузки в стремлении «выглядеть как ничто» (look like nothing). Например, полностью зашифрованные (рандомизированные) протоколы – такие как VMess, Shadowsocks и Obfs4 – разработаны таким образом, что каждый байт в соединении функционально неотличим от случайного. Идея этих протоколов «выглядеть как ничто» заключается в том, что цензорам должно быть сложно снять отпечатки пальцев и, следовательно, дорого блокировать их. Однако в начале ноября 2021 года Великий Китайский Файервол (Great Firewall of China, GFW) развернул новую технологию цензуры, которая пассивно обнаруживает и впоследствии блокирует полностью зашифрованный трафик в режиме реального времени. Новая цензурная способность GFW затрагивает большой набор популярных протоколов обхода цензуры, включая, помимо прочего, Shadowsocks, VMess и Obfs4. Хотя Китай уже давно ведёт активную проверку таких протоколов, это первое сообщение о полностью «пассивном» обнаружении, что заставляет сообщество противников цензуры задаться вопросом, как такое обнаружение стало возможным. Эти материалы стали известны после публикации Great Firewall Report, авторы которого проделали огромную работу для раскрытия механизмов работы китайской цензуры.

Бэкграунд

В атаках активного зондирования цензор посылает хорошо подготовленные полезные нагрузки на подозреваемый сервер и измеряет его реакцию. Если сервер отвечает на эти запросы идентифицируемым образом (например, позволяет цензору использовать его в качестве прокси), цензор может его заблокировать. Ещё в августе 2011 года было замечено, что GFW посылает кажущиеся случайными нагрузки на иностранные SSH-серверы, которые принимают SSH-логины из Китая. В 2012 году GFW сначала искал уникальный шифр TLS для идентификации трафика Tor; затем он отправлял активные зонды на подозрительные серверы для подтверждения своей догадки. В 2015 году Энсафи и др. провели подробный анализ активных зондирующих атак GFW на различные протоколы. С мая 2019 года Китай развернул систему цензуры для обнаружения и блокировки серверов Shadowsocks в два этапа: сначала она использует длину и энтропию полезной нагрузки первого пакета в каждом соединении для пассивной идентификации возможного трафика Shadowsocks, а затем отправляет различные зонды, на разных этапах, на подозреваемые серверы для подтверждения своих догадок. Таким образом, это первый случай, когда цензура могла массово блокировать полностью зашифрованные прокси в режиме реального времени, полностью основываясь на пассивном анализе трафика.

Для выводов, представленных в Докладе Great Firewall Report (далее – Доклад) была проведена серия экспериментов, чтобы понять, как GFW обнаруживает и блокирует полностью зашифрованные соединения. Исследователи создавали и отправляли различные тестовые зонды между хостами в Китае и за его пределами, позволяя им быть замеченными GFW. Они наблюдали за реакцией GFW, перехватывая и сравнивая трафик на каждой стороне. Для проведения экспериментов использовалось три VPS в Китае и три sink-сервера в США. В тот же период также использовали один VPS в AlibabaCloud Beijing (AS37963) для повторения всех экспериментов. Такое протоколирование позволило им выявить любые отброшенные или манипулированные пакеты, а также активные зонды.

Исследователи не заметили никаких различий в поведении цензуры между собственными точками наблюдения в Китае или любой затронутой внешней точкой наблюдения. 16 февраля 2023 года они повторили эксперименты и подтвердили, что все правила обнаружения остаются в силе. На этот раз мы использовали один VPS в TencentCloud BJ и один стоковый сервер в DigitalOcean SFO. Подробнее о методологии можно прочитать в Докладе.

Стратегии блокирования

Исследователи выяснили, какой стратегии блокирования придерживается GFW при анализе трафика. В результате 10%-го сканирования Интернета было обнаружено 109 489 IP-адресов, которые учёные пометили как заблокированные. Как показывает оценка вероятности блокировки, распределение количества успешных случайных соединений с данными, которые мы можем сделать с каждым IP-адресом, прежде чем он будет заблокирован, соответствует геометрическому распределению. Этот результат позволяет предположить, что блокировка каждого соединения происходит независимо, с вероятностью 26,3 %

Почему используется вероятностная блокировка. Исследователи предполагают, что цензор использует вероятностную блокировку, возможно, по двум причинам: во-первых, это позволяет цензору проверять только одну четвертую часть соединений, сокращая вычислительные ресурсы. Во-вторых, это помогает цензору уменьшить побочный ущерб, наносимый соединениям без обхода. Хотя это сокращение также происходит за счёт снижения истинно положительных результатов, остаточная цензура может компенсировать это: как только соединение определяется как заблокированное, последующие соединения также блокируются в течение нескольких минут после этого, что затрудняет успешное подключение пользователей прокси после обнаружения. Это также может подтвердить предыдущие утверждения о том, что цензоры уделяют больше внимания снижению числа ложных срабатываний, чем достижению высокого числа истинных срабатываний.

Таким образом, вместо того чтобы напрямую определять, что такое полностью зашифрованный трафик, цензор применяет топорную, но эффективную интуицию для исключения трафика, который вряд ли является полностью зашифрованным трафиком, а затем он блокирует оставшийся неисключённый трафик. Эти эвристики основаны на «отпечатках пальцев» распространенных протоколов, доле установленных битов, количестве, доле и положении печатаемых символов ASCII. Сканирование Интернета показывает, какой трафик и какие IP-адреса проверяет GFW. Алгоритм обнаружения GFW моделируется на живом трафике университетского сетевого экрана, чтобы оценить его полноту и количество ложных срабатываний.

Выводы

В Докладе исследователи раскрыли и изучили новейшую китайскую систему цензуры, которая динамически блокирует полностью зашифрованный трафик в режиме реального времени. Эта новая мощная форма цензуры частично или полностью затронула многие основные инструменты обхода, включая Shadowsocks, Outline, VMess, Obfs4, Lantern, Phiphon и Conjure. В итоге понимание этой новой системы цензуры позволило исследователям вывести несколько стратегий обхода. Они представляют две контрмеры, которые помогают пользователям в Китае и разработчикам антицензурных решений: Customizable Payload Prefixes и Altering Popcount. Подробнее о них вы можете прочитать в полной версии Доклада.

Оригинал от Great Firewall Report - How the Great Firewall of China Detects and Blocks Fully Encrypted Traffic

Полностью зашифрованный трафик довольно неоднозначная формулировка. Есть трафик, который выглядит как “мусор” (случайные данные), а есть трафик, который имеет заголовки TLS (маскируется под стандартный HTTPS) и уже внутри него прячется VPN. Но похоже, что затронуло всех.

The “fully encrypted” label is a relatively recent one, proposed by " Security Notions for Fully Encrypted Protocols". Some people have adopted it as an alternative to “looks-like-nothing” protocols or “fully randomized” protocols. It includes protocols that try to present a uniformly random byte stream, even if they fail at indistinguishability according to the definitions in the Fenske and Johnson paper. So it include things like Shadowsocks, VMess, obfs4; but not TLS, WireGuard, etc.