Нужна помощь программистов с оптимизацией PAC-файла

Дело оказалось в RESOLVE_NXDOMAIN=“yes” (в репозитарии “no”).

И раз залез сюда, в topsequences.py имеет смысл обрабатывать последовательности длинее 4-х символов. Если обрабатывать 6 символов, используя или существующий символ из алфавита или почему-то неиспользуемый ‘_’, получается 989798 байт против исходных 1011183. Если использовать половину алфавита для 6, половину для 5 получится еще чуть короче. Но 2% это все равно конечно гомеопатия, РКН ничего не мешает за день столько добавить. Так что увы, боюсь без более активного использования исключений никуда.

diff -u topsequences.py.ok topsequences.py


+wordreplace_6 = [“_” + x for x in wordreplace]


for patternlen in (6,):
for round, _ in enumerate(wordreplace_6):


-wordreplace = wordreplace_big + wordreplace
+wordreplace = wordreplace_6 + wordreplace_big + wordreplace

@ValdikSS вариант с вычищенным списком РКН рассматривается? Есть сам список и наработки по методологии очищения списка (тесты, проверки)

Если есть дополнения и улучшения — добавляйте, конечно.

Файл опять близится к переполнению.

Тяжело…

Я не программист. Предлагаю взять список заблокированных доменов, да и выкинуть оттуда половину. Если есть статистика, наверняка активно используется 1% из этого списка.

А если выкинуть всё, что не ресолвится, просрочено?
Как показала история с морзянкой, такого там предостаточно.

Уже неоднократно и нересолв выкидывали, и от зеркал чистили, и откровенные непотребства удаляли; по-моему разве что именно не выкидывали намеренно сайты, которыми “типа никто ни пользуеца”, но так действительно делать не желательно. Все равно это паллиатив. Нужны именно мозги программистов чтобы решать эти проблемы. Простым юзверям тут особо делать нечего.

Как на счёт упакованного trie или минимальных хешей для доменов с последующим Elias-Fano кодированием для идентифиаторов нод?

Я хочу отметить что Роскомнадзор будет существовать ещё какое-то время в любом случае. Если ориентироваться на заранее заданный запас прочности, он рано или поздно всё равно исчерпается. Как минимум ОЧЕНЬ старые браузеры стоит отбросить из уравнения. Задача по определению нерешаемая. Ещё год назад было сложно что-то новое придумать, сейчас тем более. А если и появится что-то новое, это даст год очередной, может два, от поддержки старых браузеров придётся всё равно отказываться, а у новых скорее всего и ограничения будут другие.

@ValdikSS подумайте, отказ от старых браузеров естественный процесс. Я предлагаю брать за новый ориентир флэш-хромиумы 87-й версии 2020 года - ими пользуются из-за любви к флэшплееру и там ещё была поддержка Windows xp. И то даже они уже очень многие сайты нормально не открывают. Тут же у вас по ссылке речь идёт ещё о 50-х версиях Файрфокса из 2017 года. Такой некрофилией занимаются очень, очень немногие. Ну и по файрфоксам логика примерно та же самая - вглубь сильно дальше чем на 5 лет не уходить. А вы пытаетесь держать живыми ещё интернет-эксплореры, не в обиду вам, это очень почётно, я ценю невероятно подобное уважение к своим пользователям.

Должно быть именно это резервным вариантом на случай если сжать всё же не получится, а не произвольно выкидывать домёны, как тут предлагали Шариковы.

нусуде по всему проблему решили если учитывать что последний раз обновлялось 15 августа

@ValdikSS, можно попробовать оформить как задачу с отфильтрованным от казино списком доменов для https://codegolf.stackexchange.com/
Там соответствующая аудитория найдёт лучшие варианты алгоритмов сжатия

Что вообще происходит с серверами Антизапрета? Читал что они заблокированы, но иногда они работают, а иногда нет. Можно каким-то образом защитить их от цензуры, к примеру использовать устойчивый протокол вроде shadowsocks или сделать обфускацию как с мостами в торе?

Как вариант, убирать повторяющиеся домены типа:

0-111.lordfilm0.biz
0-112.lordfilm0.biz
0-113.lordfilm0.biz
0-115.lordfilm0.biz

заменяя их на
lordfilm0.biz

такую замену сделал в своем скрипте AntiZapret-VPN/setup/root/antizapret/parse.sh at main · GubernievS/AntiZapret-VPN · GitHub

с обработкой исключений из nxdomain и заменой повторяющихся более 3х раз доменов на домены 2 уровня выходит 169 тысяч

в exclude-regexp-dist.awk можно добавить еще исключения:

(/login/) {next}
(/signin/) {next}
(/bank/) {next}
(/secure/) {next}
(/verify/) {next}
(/account/) {next}
(/billing/) {next}
(/password/) {next}
(/invoice/) {next}
(/casino/) {next}
(/bet/) {next}
(/poker/) {next}
(/blackjack/) {next}
(/roulette/) {next}
(/slots/) {next}
(/winbig/) {next}
(/jackpot/) {next}
(/1win/) {next}
(/admiralx/) {next}
(/escort/) {next}
(/striptiz/) {next}
(/massaj/) {next}
(/stavki/) {next}
(/vulkan/) {next}
(/sloty/) {next}
(/prostitutki/) {next}
(/intim/) {next}
(/kokain/) {next}
(/xanax/) {next}
(/xanaks/) {next}
(/anasha/) {next}
(/escort/) {next}
(/pytana/) {next}
(/prostitutka/) {next}
(/metadon/) {next}
(/mefedron/) {next}
(/krokodil/) {next}
(/amfetamin/) {next}
(/drug/) {next}
(/narcotic/) {next}
(/meth/) {next}
(/weed/) {next}
(/vzyatka/) {next}
(/bribe/) {next}
(/russianbrides/) {next}
(/gamble/) {next}
(/blacksprut/) {next}
(/ecstasy/) {next}

У меня до сих пор жив EEEPC 904 HD и на нём стоит Windows 7 и даже обновляется каждый месяц расширенными апдейтами. Похоронить ОС древнее 7 пора уже давно и везде.

Рассмотрите вариант использование списков скриптов-чистилок с re:filter
(отсортированный и причесанный от мусора zapret-info)