Просмотр новости

Найдите то, что Вас интересует

[Перевод] Структуры данных на практике. Глава 16: Фильтры Блума и вероятностные структуры данных

Дата публикации: 28-06-2026 10:18:41

Наш веб-краулер потреблял 128 МБ ОЗУ только на отслеживание посещённых URL. На встраиваемом устройстве с 256 МБ это была половина всей памяти.Задача краулера была простой: отслеживать посещённые URL, чтобы не краулить одну и ту же страницу дважды. После обработки 1 миллиона URL (средняя длина 80 байт) хэш-таблица, в которой хранились эти URL, разрослась до 96 МБ плюс оверхед.«Можем ли мы обменять точность на память? Нас вполне устроит несколько дублированных операций, если это позволит сэкономить большой объём памяти», — сказал мне мой менеджер во время ревью кода.Этот вопрос изменил всё. На самом деле, идеальная точность не требуется. Если мы случайно обработаем одну страницу дважды, то впустую потратим часть пропускной способности, но ничего не поломаем. Главным ограничением была память. Читать далее

Схожие новости

#Наименование новостиТональностьИнформативностьДата публикации
1HyperLogLog: как найти уникальные значения в терабайте данных, не храня их0724-06-2026
2[Перевод] Раньше ПО работало шустро, потому что иначе было никак0728-06-2026
3Как я свертки ускорял0728-06-2026
4Почему Google не индексирует страницы, хотя технически всё в порядке0528-06-2026
5Актуальность техстека как задача: наш путь от хаоса к регулярным SLA-апдейтам5726-06-2026
6Тап по тысяче точек за O(log n): QuadTree и сферическая геометрия в гео-соцсети0728-06-2026
7Баг-трекинг: почему баги возвращаются на прод и какая система это лечит0724-06-2026
8Переделка стоила два дня, теперь два часа. Что в разработке подорожало взамен0626-06-2026
9КТЗ показал единицу, а задачу вернули трижды. Что на самом деле ломает процесс требований0624-06-2026
10Как мы научили реляционую базу хранить оргструктуру в виде графа на 500к пользователей0823-06-2026

Классификация: . Схожих патентов: 0. Схожих новостей: 10. Тональность: 0. Информативность: 7. Источник: habr.com.