Модели переранжирования (Reranking) для RAG систем ИИ

Эволюция систем обработки естественного языка и информационного поиска привела к фундаментальному сдвигу в архитектуре корпоративных поисковых движков и систем генерации с дополненной выборкой (Retrieval-Augmented Generation, RAG). По мере того как большие языковые модели (LLM) становятся центральным элементом анализа данных, возникает критическая проблема: способность системы извлечь миллионы потенциально релевантных документов из базы знаний значительно превышает способность языковой модели обработать этот контекст без феномена «потери в середине» (Lost in the Middle) и когнитивных перегрузок (галлюцинаций). Решением этой архитектурной проблемы стало внедрение второго, высокоточного этапа поиска — моделей переранжирования (Reranking models).

Настоящий отчет представляет собой глубокий, исчерпывающий анализ экосистемы моделей переранжирования по состоянию на март 2026 года. В документе детально рассматриваются архитектурные различия между моделями плотных векторов и кросс-энкодерами, анализируются ведущие мировые модели (как коммерческие, так и с открытым исходным кодом), изучаются метрики оценки, включая инновационные платформы слепого тестирования (Arena AI). Особое внимание уделяется аппаратным требованиям для локального развертывания, ценообразованию, качеству поддержки многоязычных сред (в первую очередь русского языка) и геополитическим аспектам. Для организаций, инженеров и корпоративных структур, находящихся в Республике Беларусь, подробный анализ правовых рисков и санкционных ограничений при использовании западных API-интерфейсов является краеугольным камнем при проектировании отказоустойчивых ИИ-систем. В ходе подготовки данного отчета был осуществлен мониторинг официальных сайтов разработчиков для верификации последних версий моделей; в случаях, когда прямой доступ к официальным ресурсам блокировался на сетевом уровне (что будет отмечено в соответствующих разделах), использовались актуальные зеркала, репозитории и документация облачных провайдеров.

Архитектурные парадигмы: Отложенное взаимодействие против глубокого переплетения контекста

Для глубокого понимания механики работы систем переранжирования и причин их высокой вычислительной стоимости необходимо провести четкую границу между архитектурами Bi-Encoder (модели плотных вложений или эмбеддингов, используемые на первом этапе поиска) и Cross-Encoder (собственно модели переранжирования, применяемые на втором этапе). Они выполняют принципиально разные математические операции над текстовыми последовательностями, что напрямую определяет их скорость и точность.1

Bi-Encoder: Этап первичного поиска (Retrieval)

Архитектура Bi-Encoder (часто называемая сиамской нейронной сетью) обрабатывает поисковый запрос (query) и целевой документ (document) в строгой изоляции друг от друга. Оба текстовых фрагмента проходят через одну и ту же (или две идентичные) нейронную сеть на базе архитектуры Transformer независимо. Цель этого прохода — сжать всю семантическую сложность, лексические нюансы и контекст текста в единый вектор фиксированной размерности (например, массив из 768, 1024 или 1536 чисел с плавающей запятой).1

Математически степень семантической релевантности между запросом и документом вычисляется постфактум, с помощью простых алгебраических и геометрических операций в многомерном пространстве, таких как косинусное сходство (cosine similarity), скалярное произведение (dot product) или евклидово расстояние.2 Главное и неоспоримое преимущество этого подхода — колоссальная скорость и масштабируемость. Поскольку документы кодируются независимо от запроса, все документы в гигантской корпоративной базе данных могут быть векторизованы заранее (офлайн) и помещены в специализированную векторную базу данных (Vector DB). В момент, когда пользователь вводит запрос, системе нужно векторизовать только этот короткий текст, после чего осуществляется невероятно быстрый поиск приближенных ближайших соседей (Approximate Nearest Neighbors, ANN) по предвычисленным индексам. Вычислительная сложность этого этапа на этапе инференса (логического вывода) стремится к 673dd642 fef4 491d bdb1 b9998ff4f9f4 относительно размера документа.

Однако независимая обработка порождает «информационное узкое горлышко». При сжатии длинного документа в один вектор неизбежно теряются специфические детали. Что еще более критично, Bi-Encoder фундаментально не способен анализировать тонкие лексические и смысловые взаимосвязи между конкретными словами в запросе и документе, так как их токены никогда не «видят» друг друга внутри слоев нейросети.1

Cross-Encoder: Этап переранжирования (Reranking)

Модели переранжирования (Cross-Encoders) были разработаны специально для решения проблемы недостаточной точности и семантической слепоты Bi-Encoders. В отличие от раздельного кодирования, архитектура Cross-Encoder принимает на вход конкатенацию (слияние) запроса и документа в единую последовательность токенов, обычно разделенных специальным символом: Запрос Документ.5

Этот объединенный текст пропускается через все слои трансформера одновременно. Ключевая магия происходит в механизме внутреннего внимания (Self-Attention). На каждом слое сети каждый токен поискового запроса напрямую взаимодействует и вычисляет веса внимания с каждым токеном документа.4 Это глубокое переплетение (deep interaction) обеспечивает беспрецедентный уровень семантического понимания. Модель становится способной улавливать сложный контекст, двойные отрицания, многозначность слов, зависящую от порядка, и логические связки, которые безвозвратно теряются при сжатии текста в единый независимый вектор.

Выходом модели Cross-Encoder является не эмбеддинг, а конкретное скалярное значение — оценка релевантности (relevance score).1 Однако за эту точность приходится платить экстремально высокой вычислительной стоимостью. Вычисление полной матрицы внимания квадратично зависит от длины входной последовательности (5f32435b 1a1c 478a 888e 2528cdd40ba2). Прогонять миллионы документов через Cross-Encoder в реальном времени при каждом поисковом запросе физически невозможно даже на самых мощных серверных кластерах. Именно поэтому современные поисковые системы используют гибридный (двухэтапный) конвейер:

  1. Первый этап (Bi-Encoder Retrieval): Использование векторного поиска или лексического алгоритма BM25 для быстрого извлечения из миллионов документов «грубой» выборки кандидатов (например, топ-100).
  2. Второй этап (Cross-Encoder Reranking): Модель переранжирования вычисляет точную релевантность только для этих 100 пар «запрос-документ» и выдает финальный, безупречно отсортированный список, из которого лучшие 3-5 документов передаются в контекстное окно LLM.4
image 2

Механика управления: Деконструкция системных параметров

При интеграции моделей переранжирования в программный код через API-вызовы или локальные библиотеки машинного обучения, инженеры управляют процессом с помощью стандартизированного набора параметров. Понимание их математической и системной сути является ключом к созданию эффективных ИИ-агентов.

Параметр top_k (или top_n)

Этот параметр определяет финальную границу отсечения для модели переранжирования, то есть количество документов, которое система должна вернуть после сортировки.2 Его не следует путать с количеством документов, подаваемых на вход реранкеру (которое обычно обозначается как return_k из векторной базы данных). Если векторная база данных вернула 200 потенциальных кандидатов, разработчик может передать весь этот массив в API реранкера и установить top_k=5. В этом случае модель Cross-Encoder выполнит инференс для всех 200 пар, отсортирует их по убыванию релевантности, но в ответе API вернет только 5 абсолютных победителей.1

Оптимизация параметра количества входящих кандидатов и исходящего top_k — это главный рычаг управления компромиссом между задержкой (latency) и качеством (recall). Увеличение числа оцениваемых документов линейно увеличивает время ответа системы. В высоконагруженных промышленных системах (serving thousands of requests per second) архитекторы часто ограничивают входящий пул до 50-100 документов, чтобы удержать задержку переранжирования в пределах суб-200 миллисекунд.8

Параметр relevance_score

В ответе модели каждый документ сопровождается вещественным числом, называемым оценкой релевантности (relevance_score).5 Значение этого параметра критически важно интерпретировать правильно. В подавляющем большинстве архитектур финальный слой нейросети (обычно линейный классификатор поверх токена «) пропускается через сигмоидную или логистическую функцию активации, что нормализует выходное значение в строгом математическом диапазоне от 0.0 до 1.0.5

Важно понимать, что для большинства не откалиброванных моделей эти оценки не являются истинными статистическими вероятностями того, что документ содержит ответ. Они служат мощным относительным весом для сортировки списка.7 Тем не менее, анализ relevance_score позволяет внедрять динамические пороги отсечения (dynamic thresholding). Если первый документ в списке получает оценку 0.98, второй — 0.95, а третий — 0.12, интеллектуальный RAG-конвейер может программно отсечь третий и последующие документы, так как резкое падение (cliff) оценки является математическим сигналом о том, что релевантный контекст исчерпан. Это позволяет радикально экономить бюджет токенов, отправляемых в LLM для генерации ответа.

Вспомогательные параметры (return_documents)

Многие современные API (включая Jina AI и Voyage AI) поддерживают параметр управления полезной нагрузкой, такой как return_documents=false.7 При передаче больших массивов текста по сети (payload), возврат исходных текстовых чанков вместе с оценками может вызвать задержки на уровне сетевого стека (network I/O bottleneck). Установка этого флага заставляет API возвращать только массив индексов (указателей на исходный массив) и соответствующие им оценки релевантности.7 Приложение на стороне клиента затем самостоятельно пересобирает отсортированный массив документов в локальной оперативной памяти.

Подходы к оценке: От академических бенчмарков до слепых арен (Arena AI)

Для объективного сравнения сотен моделей переранжирования, появляющихся на рынке, ИИ-сообщество разработало многоуровневую систему стандартов оценки. Однако анализ данных за 2025–2026 годы показывает, что полагаться исключительно на агрегированные метрики — путь к проектированию неэффективных систем.

MTEB (Massive Text Embedding Benchmark)

Бенчмарк MTEB, хостинг которого осуществляется на мощностях платформы Hugging Face, в последние годы закрепился как индустриальный стандарт de facto для оценки семантических моделей.9 Структура MTEB колоссальна: она оценивает модели по восьми различным архитектурным категориям задач, среди которых классификация текстов, кластеризация, парная классификация, семантическое текстовое сходство (STS), извлечение информации (Retrieval) и переранжирование (Reranking).9 По каждой из категорий вычисляются профильные метрики (например, nDCG@10, MAP, MRR), после чего модель получает общий средний балл, который определяет ее место в глобальной таблице лидеров.

Профессиональные архитекторы ИИ-систем настоятельно рекомендуют игнорировать «общий средний балл» при выборе модели для RAG.9 Рейтинги MTEB чрезвычайно волатильны, и агрегированная оценка часто скрывает реальную картину производительности для конкретной бизнес-задачи.9 Например, модель, архитектурно оптимизированная для задач поиска и семантического сходства (которые на 90% коррелируют с качеством работы в продакшен-системах RAG), может иметь откровенно низкий средний балл просто из-за того, что ее не обучали задачам кластеризации или классификации.9 И наоборот, универсальная модель, показывающая посредственные, но стабильные результаты во всех восьми категориях, может возглавить общий рейтинг, оставаясь слабой в профильной задаче извлечения. Поэтому инженеры должны фильтровать таблицу MTEB исключительно по вкладкам Reranking и Retrieval.9

Специфика кириллицы: ruMTEB и русскоязычные бенчмарки

Оценка модели на стандартном англоязычном MTEB не дает никаких гарантий качества ее работы с русским языком. Морфологическая сложность, свободный порядок слов и специфика словообразования в русском языке требуют специализированной оценки. Для решения этого критического пробела исследовательскими группами (в частности, SaluteDevices) был разработан и внедрен бенчмарк ruMTEB — полномасштабная русскоязычная версия, расширяющая методологию MTEB.12

Бенчмарк ruMTEB также включает семь категорий задач, тщательно собранных из оригинальных русскоязычных корпусов (таких как ruBQ для переранжирования абзацев и наборы данных РИА Новости).12 Исследователи математически доказали, что использование автоматического машинного перевода (back-translation) для создания англоязычных датасетов приводит к существенной деградации метрик и искажению результатов оценки плотных моделей, что делает создание нативных датасетов (таких как набор rusBEIR) обязательным.15

Согласно данным таблицы лидеров ruMTEB (подраздел Reranking и Retrieval), на начало 2026 года доминирующее положение занимают два класса моделей:

  1. Гигантские многоязычные модели: Такие как BGE-M3 (BAAI) и мультиязычные версии E5 (Multilingual E5-large), архитектура которых позволила имманентно усвоить семантику кириллицы из огромных корпусов претренировки.16
  2. Специализированные русскоязычные модели: Нативные разработки, такие как ru-en-RoSBERTa (основанная на архитектуре ruRoBERTa и дообученная на качественных русско-английских парах) и GigaEmbeddings.12 Метрики показывают, что GigaEmbeddings в категории Reranking достигает впечатляющего балла 73.42, превосходя многие глобальные модели в локальном контексте.17
Модель на бенчмарке ruMTEBБалл ClassificationБалл RerankingПроисхождение / База
GigaEmbeddings72.7073.42Нативная русскоязычная 17
SFR-Embedding-Mistral69.8170.46Многоязычная глобальная 17
GritLM-7B69.9269.99Многоязычная LLM-база 17
e5-mistral-7b-instruct69.0769.96Многоязычная LLM-база 17
BGE-M360.4469.71Многоязычная (BAAI) 17

Эволюция оценки: Reranker Arena AI и слепые тестирования

Академические метрики, такие как nDCG@10 (Normalized Discounted Cumulative Gain) или MRR (Mean Reciprocal Rank), измеряют математическую позицию релевантного документа в списке. Однако они часто не способны отразить субъективное человеческое восприятие того, насколько логично и контекстуально правильно выстроен ответ. Чтобы устранить этот зазор, в конце 2025 года индустрия переняла методологию, доказавшую свою эффективность на больших языковых моделях (Chatbot Arena) — платформы слепого краудсорсингового тестирования.18

Специализированные площадки, такие как Agentset Reranker Leaderboard (часто называемые ИИ-Аренами для реранкеров), базируются на системе рейтингов Эло, заимствованной из шахмат.19 Механика проста, но эффективна: пользователю-человеку или ИИ-асессору предоставляется один сложный поисковый запрос и два колонки с результатами (Список А и Список Б). Эти списки сгенерированы двумя разными, анонимизированными моделями переранжирования, работающими поверх одного векторного индекса. Оценщик не знает, где какая модель. Он изучает выдачу и голосует за тот список, который содержит более точные, исчерпывающие или правильно отсортированные документы.18 После голосования модели раскрываются, и их рейтинг Эло пересчитывается.18

Данные этих арен на 2026 год демонстрируют невероятно плотную конкуренцию. Коммерческие API-решения, такие как Cohere Rerank 4 Pro, уверенно держат лидерство (рейтинг Эло 1629, процент побед в дуэлях 58%), в то время как Voyage AI Rerank 2.5 (Эло 1544) и передовые модели с открытым исходным кодом дышат им в затылок.20 Эти данные подтверждают, что сухие метрики nDCG (где Voyage иногда обходит Cohere на сотые доли процента — 0.110 против 0.095) не всегда прямо конвертируются в победы при человеческой оценке релевантности (где когорта Cohere демонстрирует лучшую когнитивную адаптивность).21

image 1

Детальный ландшафт ИИ-моделей: Коммерческие API-гиганты Северной Америки

Рынок моделей переранжирования в 2026 году строго сегментирован. С одной стороны, выступают гигантские корпорации и стартапы-единороги из США и Канады, предоставляющие доступ исключительно по модели SaaS (API). Они предлагают максимальную точность «из коробки» и берут на себя всю тяжесть поддержки инфраструктуры.

1. Экосистема Cohere (Канада)

Канадская компания Cohere исторически является одним из главных пионеров коммерческого применения переранжирования, превратив его из академического концепта в индустриальный стандарт. В декабре 2025 года компания произвела масштабное обновление, представив свое четвертое поколение — семейство моделей Cohere Rerank 4.22 В ходе подготовки отчета была предпринята попытка прямой верификации лицензионных соглашений на сайте разработчика (cohere.com/terms-of-service), однако доступ к ресурсу был заблокирован на сетевом уровне 25, что подчеркивает необходимость опоры на вторичную документацию и данные облачных провайдеров.

Семейство Rerank 4 архитектурно спроектировано как глубокий кросс-энкодер, целенаправленно обученный для сложных корпоративных поисковых систем (Enterprise AI Search). Ключевым нововведением стала феноменальная способность модели анализировать полуструктурированные массивы данных, такие как объемные JSON-документы, лог-файлы, реляционные таблицы и базы программного кода.26 Это делает ее незаменимой для аналитики в финансовом, медицинском и государственном секторах.27 Модель демонстрирует прорыв в так называемом «многоаспектном рассуждении» (reasoning) — когда запрос пользователя содержит неявные логические условия или ограничения. По результатам внутренних тестов Cohere, точность извлечения на данных, требующих глубоких логических выводов, взлетела с 27.91% (в версии Rerank 3) до 81.59% (в версии Rerank 3.5 и выше).27

Модель демонстрирует эталонную многоязычность, нативно поддерживая более 100 языков. Русский язык интегрирован в ядро модели с высокой степенью семантического понимания кросс-лингвальных связей (например, поиск русскоязычного ответа на англоязычный запрос).26

Линейка разделена на два продукта:

  • Cohere Rerank 4.0 Pro: Ориентирована на бескомпромиссную точность. Лидирует в независимых слепых тестированиях (Эло 1629).20
  • Cohere Rerank 4.0 Fast: Оптимизирована для высокочастотного трейдинга и систем реального времени, предлагая среднюю задержку (latency) около 447 мс при незначительном падении метрики nDCG.21

Ценообразование и развертывание: Развертывание осуществляется исключительно через API. Модель доступна как напрямую, так и через партнерские облачные платформы: Microsoft Azure AI Foundry и Amazon SageMaker.23 В облаке Azure стоимость тарифицируется по сложной схеме: $2.50 за 1000 «поисковых единиц» (Search Units) для версии Pro и $2.00 для версии Fast.23 Альтернативная тарификация (по токенам) составляет примерно $0.05 за миллион обработанных токенов.21

2. Экосистема Voyage AI (США)

Voyage AI, калифорнийский стартап, основанный выходцами из академической среды, позиционирует себя как главного разрушителя ценовых и технологических барьеров на рынке поиска. Текущие флагманы, актуальные на начало 2026 года — модели rerank-4, rerank-2.5 и их облегченные версии (lite).29 Проверка официальной документации (docs.voyageai.com) подтверждает фокус компании на экстремальной оптимизации контекста.29

Ключевая инновация Voyage AI (начиная с версии 2.5) — это внедрение возможностей «следования инструкциям» (instruction-following capabilities) непосредственно в ядро реранкера.30 Традиционные модели оценивают лишь семантическую близость. Voyage позволяет инженеру передать естественным языком дополнительное указание (prompt) для управления логикой оценки, например: «Оценивай документы высоко только в том случае, если они содержат финансовые показатели за 2025 год и имеют позитивную тональность».30 На специализированном бенчмарке MAIR (Massive Instructed Retrieval Benchmark) такой подход позволил Voyage обойти конкурентов на 10-12%.30

Вторым прорывом стало кардинальное расширение контекстного окна. Модели серии 2.5 и 4 поддерживают беспрецедентный размер контекста — до 32 000 токенов (вычисляется как сумма токенов запроса и токенов оцениваемого документа).29 Это в 8 раз превышает лимиты предыдущих версий и позволяет пропускать через Cross-Encoder целые юридические контракты, стенограммы заседаний или длинные программные листинги без необходимости их фрагментации (chunking), которая неизбежно ведет к потере глобального контекста.30 Поддержка русского языка присутствует и оценивается как высококачественная на базе внутренних мультиязычных бенчмарков.34

Ценообразование и развертывание: Доступ осуществляется через проприетарный REST API 32, а также через облачные маркетплейсы (AWS, MongoDB Atlas, GCP).35 Финансовая модель Voyage отличается высокой агрессивностью: компания предоставляет щедрый бесплатный уровень (до 200 миллионов бесплатных токенов для базовых моделей).29

Формула тарификации учитывает специфику кросс-энкодеров: (количество токенов запроса × количество документов) + сумма токенов во всех документах.29 Общий лимит на один запрос ограничен 600 000 токенов (для старших моделей) или максимумом в 1000 документов.33 При использовании Batch API для отложенных (офлайн) задач предоставляется дополнительная скидка в 33%.29

Модель Voyage AIЦена за 1000 токеновЦена за 1 Миллион токеновБесплатный лимитЗаметки
voyage-4-large$0.00012$0.12200 млн. токеновФлагманская мультимодальная модель
voyage-4$0.00006$0.06200 млн. токеновОптимальный баланс
rerank-2.5$0.00005$0.05200 млн. токеновСледование инструкциям (32k)
rerank-2.5-lite$0.00002$0.02200 млн. токеновМаксимальная скорость

Детальный ландшафт ИИ-моделей: Европейские инноваторы и Open-Weights решения

В противовес закрытым API-экосистемам Северной Америки, европейские стартапы сфокусировались на разработке моделей с открытыми или частично открытыми весами (Open-Weights), предоставляя инженерам свободу выбора: использовать удобный API или развернуть модель локально (On-Premise) на собственной инфраструктуре. Это критически важно для рынков со строгими правилами суверенитета данных (Data Sovereignty).

3. Экосистема Jina AI (Германия)

Jina AI, технологическая компания со штаб-квартирой в Берлине, специализируется исключительно на создании ИИ-инфраструктуры для продвинутого поиска.37 В марте 2026 года их флагманской моделью переранжирования является jina-reranker-v3.38 Анализ официальной документации (jina.ai/models) подтверждает их фокус на масштабируемости и интеграции с мультимодальными RAG-агентами.39

Модель jina-reranker-v3 (размером 0.6 миллиарда параметров, построенная на базе трансформера Qwen3-0.6B) внедряет новаторскую архитектурную парадигму, получившую название «last but not late interaction» (последнее, но не позднее взаимодействие).38 Классические модели с поздним взаимодействием (Late Interaction, такие как архитектура ColBERT) кодируют запрос и документы раздельно, а затем вычисляют матрицу подобия между всеми токенами. Архитектура Jina v3 выполняет причинно-следственное внутреннее внимание (causal self-attention) между токенами запроса и токенами всех документов одновременно в пределах единого гигантского контекстного окна.39 Это обеспечивает богатейшее перекрестное взаимодействие (cross-document interactions) еще до того, как модель извлечет финальные контекстные эмбеддинги из последних токенов каждого документа.39

Результатом этой инновации стала поддержка беспрецедентного контекста длиной до 131 072 токенов с автоматическим усечением (auto-truncation).38 Модель нативно поддерживает кросс-лингвальный поиск на более чем 100 языках, включая высококачественную обработку русского языка, подтвержденную бенчмарками MKQA (охватывающими 26 языков) и AirBench.37 В экосистеме также присутствует специализированная модель jina-reranker-m0 для переранжирования мультимодальных (визуальных) документов.38 Для узкоспециализированных задач (ToolBench, NSText2SQL) предыдущее поколение jina-reranker-v2-base-multilingual демонстрирует фантастическую скорость, обрабатывая документы в 15 раз быстрее конкурентов (таких как bge-reranker-v2-m3) и поддерживая вызов функций (function-calling) для агентных RAG.37 Задержка (latency) модели жестко коррелирует с объемом данных: оценка 100 документов по 256 токенов занимает всего около 150 миллисекунд, в то время как увеличение документов до 4096 токенов повышает задержку до 3.5 секунд.38

Ценообразование и развертывание: Гибкая модель дистрибуции. Разработчики могут использовать Jina Search Foundation API, где каждый новый ключ получает 1 миллион (или до 10 млн по акциям) бесплатных токенов.38 Дальнейшая тарификация составляет $0.018 за миллион входных/выходных токенов.43 Модели интегрированы в Elasticsearch Open Inference API.42 Главное стратегическое преимущество — веса моделей полностью открыты под лицензией CC-BY-NC 4.0.7 Это означает, что некоммерческое использование, исследования и тестирование на локальном оборудовании абсолютно бесплатны. Для коммерческого использования (On-Premise) в изолированных контурах компаний требуется приобретение расширенной лицензии через отделы продаж Jina.7

4. Mixedbread AI (Германия)

Еще один немецкий исследовательский стартап из Берлина, Mixedbread AI (штат 5 человек, основан в 2023 году 45), вносит значительный вклад в демократизацию ИИ-поиска. Компания разработала семейство «хрустящих» (crispy) моделей с открытым исходным кодом, среди которых флагманами выступают mxbai-rerank-large-v2 и mxbai-rerank-base-v1.47 Модели представлены в трех размерах (xsmall, base, large) для адаптации под любые аппаратные мощности.48

Архитектурно они спроектированы для бесшовной интеграции с популярной Python-библиотекой sentence-transformers, позволяя внедрить семантический слой переранжирования в существующую архитектуру корпоративного поиска буквально двумя строками кода.48 Модели обладают хорошей мультиязычной поддержкой (индекс Multilingual MTEB — 29.79 для large-v2).47

Ценообразование и развертывание: Mixedbread AI предлагает комплексную платформу Mixedbread Search API.50 В отличие от по-токеновой тарификации конкурентов, коммерческое API Mixedbread (тариф Scale за $20/мес) тарифицирует запросы (Queries). Стоимость составляет $7.50 за 1000 запросов с переранжированием (или $4.00 без него), при этом базовая обработка текстов оценивается в $1.50 — $3.00 за 1 миллион токенов (из расчета ~1.4 токена на слово).51 Возможна и локальная установка их открытых моделей через платформу Hugging Face.48

Детальный ландшафт ИИ-моделей: Азиатские гиганты и гегемония Open-Source

К началу 2026 года китайские исследовательские лаборатории и корпорации совершили тектонический сдвиг на мировом рынке искусственного интеллекта. Сделав ставку на абсолютную открытость (Open-Source), они выпустили фундаментные модели, которые не только на равных конкурируют с закрытыми коммерческими западными API, но и по ряду метрик уверенно их превосходят.

5. Семейство Qwen3 (Alibaba Cloud, Китай)

Лаборатория Qwen (подразделение Alibaba Cloud) выпустила третье поколение своих моделей (Qwen3), которые стали сенсацией в сообществе разработчиков ИИ. Семейство Qwen3-Reranker — это вершина развития технологий ранжирования текстов с открытым исходным кодом.52

  • Масштаб и архитектура: Линейка включает эмбеддинги и реранкеры в размерах 0.6B (миллиарда), 4B и 8B параметров.52 Модели построены на базе плотной (dense) архитектуры фундаментных моделей Qwen3, которая использует новаторскую гибридную структуру «Gated Delta Networks» и разряженную маршрутизацию экспертов (MoE), что позволяет достигать высокой точности при снижении вычислительных затрат на инференс (до 60% по заявлениям компании).53 Флагманская модель Qwen3-Reranker-8B состоит из 36 слоев трансформера.53
  • Лидерство в бенчмарках: 8-миллиардная модель (8B) долгое время удерживала абсолютное 1-е место на мультиязычной таблице лидеров MTEB (оценка 70.58).53 Модель демонстрирует выдающуюся способность извлекать контекст из сложного программного кода (benchmark MTEB-Code) и структурированных данных (JSON/таблицы).52
  • Инновации: Как и Voyage AI, Qwen3-Reranker поддерживает пользовательские инструкции (instruction-aware reranking). Разработчик может задать специфическое правило (instruction) для оценки, что в среднем повышает точность на 1-5% в узкоспециализированных корпоративных доменах. Разработчики рекомендуют передавать эти системные инструкции на английском языке для максимальной активации нейросети.53 Модель нативно поддерживает последовательности до 32 000 токенов.53
  • Многоязычность: Фундаментные модели Qwen3 обучались на колоссальном корпусе данных, охватывающем 201 язык и диалект.55 Русский и белорусский языки (как на кириллице, так и транслитерация) обрабатываются с нативным, глубоким семантическим пониманием, что делает эту модель идеальным фундаментом для корпоративных баз знаний в СНГ.57
  • Развертывание: Полностью открытый исходный код под разрешительной лицензией Apache 2.0 (позволяет коммерческое использование без отчислений).56 Модель свободно скачивается с репозиториев Hugging Face или ModelScope и разворачивается локально с использованием библиотек Transformers (версии >= 4.51.0) или серверов высокоскоростного вывода vLLM (версии >= 0.8.5).53

6. Семейство BGE v2.5 (BAAI, Китай)

Пекинская академия искусственного интеллекта (BAAI), финансируемая государством некоммерческая организация, продолжает агрессивно развивать свою легендарную серию FlagEmbedding (модели BGE). Актуальный релиз 2025–2026 годов — bge-reranker-v2.5-gemma2-lightweight.61

  • Архитектурные особенности: Эта мультиязычная модель размером 2.72 миллиарда параметров (весом около 10.9 ГБ в памяти) построена на базе открытой архитектуры google/gemma-2-9b.61 Ее главное технологическое отличие — внедрение радикальных механизмов легковесности (lightweight features) на этапе инференса.
  • Механика сжатия: Инженеры BAAI реализовали возможность аппаратного контроля за полнотой вычислений. Разработчики могут динамически управлять параметром «послойного сокращения» (Layerwise Reduction), выбирая, какие слои нейросети (cutoff_layers от 8 до 42) будут участвовать в формировании финального ответа.61 Дополнительно внедрено «сжатие токенов» (Token Compression) с параметрами compress_ratio (1, 2, 4, 8) и compress_layers. Правильная настройка этих параметров (например, compress_ratios=2 на определенных слоях) позволяет экономить до 60% дорогостоящих операций с плавающей запятой (FLOPs) при инференсе, что критически важно для систем, работающих в реальном времени под высокой нагрузкой (Highload).61 Модель также поддерживает инференс в половинной точности (FP16), что удваивает скорость на совместимых CUDA-ускорителях ценой минимального, статистически незначимого падения точности.61
  • Многоязычность и Развертывание: Сильная поддержка мультиязычности (включая русский язык). Полностью открыта и доступна для локального развертывания через FlagEmbedding или Hugging Face transformers.61

Стратегии развертывания и требования к аппаратному обеспечению (Hardware)

При проектировании архитектуры интеллектуального корпоративного поиска главным решением становится выбор парадигмы интеграции: облачные вычисления по подписке (API/SaaS) или создание собственного локального контура (On-Premise / Self-Hosted) на базе открытых моделей.

Экономика API

Использование коммерческих API (таких как Cohere или Voyage AI) переносит всю операционную тяжесть (вычислительные мощности, охлаждение, масштабирование, обновления версий) на плечи провайдера. Для стартапов это минимизирует начальные капитальные затраты (CapEx). Стоимость прозрачна и опирается на операционные расходы (OpEx) — вы платите ровно столько токенов, сколько потребила система (в среднем от $0.02 до $0.12 за 1 миллион токенов).22 Однако этот подход несет фатальные риски в корпоративном и государственном секторах: передача конфиденциальных документов (юридические договоры, финансовая отчетность, персональные данные граждан) на серверы третьих лиц в иностранные юрисдикции часто напрямую нарушает политику информационной безопасности (ISO 27001) и требования регуляторов по защите данных (GDPR, локальные законы о персональных данных).

Локальное развертывание: Борьба за VRAM

Для реализации стратегии On-Premise с использованием мощных открытых моделей (таких как Qwen3-Reranker-8B) критическим узким местом инфраструктуры становится объем видеопамяти графического ускорителя (VRAM).53 Процессоры (CPU) физически не способны обеспечить приемлемую скорость матричных вычислений для кросс-энкодеров, поэтому наличие GPU обязательно.

  • Стандартная точность (FP16): Модель Qwen3-Reranker с 8 миллиардами параметров в стандартном формате 16-битной плавающей запятой (torch.float16) требует около 16 ГБ VRAM только для загрузки своих статических весов.53 Дополнительная память резервируется под KV Cache (Key-Value кэширование) для обслуживания контекстного окна.53 Таким образом, для стабильной работы одной копии модели в продакшене потребуется профессиональная видеокарта уровня NVIDIA RTX 3090 / 4090 (24 ГБ VRAM) или серверные решения вроде NVIDIA A10 / RTX A6000 (48 ГБ).65 Архитектура Apple Silicon с их унифицированной памятью (Unified Memory) позволяет использовать процессоры Apple M2/M3 Max (32 ГБ+) с высокой эффективностью.65
  • Квантование (Quantization): Для запуска моделей на более слабом оборудовании инженеры применяют методы алгоритмического сжатия весов — квантование (например, алгоритмы GGUF, AWQ, GPTQ). Уменьшение точности чисел с 16 бит до 8 бит (INT8) или даже 4 бит (INT4) позволяет сжать Qwen3-8B до 5.38 ГБ — 9.54 ГБ VRAM.65 Это дает возможность развернуть передовой ИИ-реранкер на стандартной потребительской видеокарте уровня NVIDIA RTX 3060 (12 ГБ VRAM).65 Квантование (особенно продвинутое, как Unsloth Dynamic 2.0) приводит лишь к маргинальному падению точности (доли процента на бенчмарках), сохраняя при этом огромную вычислительную выгоду.67 Облегченные модели, такие как Qwen3-0.6B, Jina-v3 (0.6B) или BAAI bge-reranker-base, свободно функционируют на GPU начального уровня (от 4 ГБ VRAM).53
image

Правовой комплаенс и геополитические риски: Фокус на Республику Беларусь

Начиная с 2022 года и с эскалацией в 2025–2026 годах, глобальный технологический ландшафт ИИ стал неразрывно связан с геополитикой и санкционным давлением. Для ИТ-компаний, инженеров, банковского сектора и государственных корпораций, физически находящихся или имеющих юридическую регистрацию в Республике Беларусь (РБ), выбор архитектуры переранжирования не может базироваться исключительно на показателях MTEB или стоимости API. Игнорирование правовой среды ведет к критическим бизнес-рискам, вплоть до полной остановки производственных конвейеров.

Экспортный контроль США (Регулирование BIS и OFAC)

Соединенные Штаты Америки применяют беспрецедентно жесткие меры экспортного контроля в отношении Российской Федерации и Республики Беларусь. Бюро промышленности и безопасности США (BIS) Министерства торговли, действуя в координации с Управлением по контролю за иностранными активами (OFAC) Министерства финансов, классифицирует передовые программные продукты, алгоритмы искусственного интеллекта, услуги облачных вычислений и квантовые технологии в рамках правил EAR (Export Administration Regulations).68

Согласно обновленным директивам (включая пакеты мер, принятые после саммита G7 в июне 2024 года и расширенные позднее), правительство США установило прямые запретительные требования на лицензирование и экспорт широкого спектра программного обеспечения (классифицируемого даже по базовой категории EAR99), ИТ-услуг, облачных сервисов (cloud-based services) и услуг технической поддержки для резидентов РФ и РБ.69

  • Риски для пользователей в Беларуси: Технологические корпорации, зарегистрированные в США (включая Voyage AI со штаб-квартирой в Калифорнии), обязаны неукоснительно соблюдать федеральное законодательство. В официальных юридических документах Voyage AI (Terms of Service, параграф «Export and Trade Controls») недвусмысленно прописан запрет на использование их ИИ-моделей и API-платформ физическими и юридическими лицами, находящимися под санкциями США, а также резидентами юрисдикций, на которые наложено всеобъемлющее эмбарго (что де-факто охватывает корпоративный сектор Беларуси).70 Любая попытка интеграции коммерческого API Voyage AI из Беларуси (особенно с использованием корпоративных кредитных карт, отслеживаемых через систему SWIFT, или белорусских IP-адресов) расценивается провайдером как нарушение (compliance violation). Это неминуемо приведет к автоматической теневой блокировке (shadowban) аккаунта или мгновенному аннулированию API-ключей (API cutoff) без возможности возврата средств и извлечения данных. Эти же строгие экстратерриториальные правила применимы и к канадской компании Cohere, так как страны G7, включая Канаду, тесно синхронизируют и координируют свои пакеты экспортных ограничений.69 Доступ из санкционных юрисдикций активно подавляется.

Санкционный режим Европейского Союза (19-й пакет санкций)

Если ранее европейские ИИ-компании могли предоставлять свои облачные услуги в восточноевропейском регионе с меньшим уровнем правового контроля, то принятие 19-го пакета санкций ЕС (вступившего в полную силу к началу 2026 года с имплементацией через национальные регламенты, такие как постановления в Швейцарии и Германии) кардинально изменило правила игры.71

Европейский Союз ввел в текст санкционных регламентов беспрецедентно точные формулировки, касающиеся высокотехнологичных вычислений. Документ устанавливает прямой, недвусмысленный запрет европейским операторам предоставлять:

«…услуги в сфере искусственного интеллекта (artificial intelligence services), заключающиеся в предоставлении доступа к моделям (AI models) или платформам для их обучения (training), тонкой настройки (fine-tuning) и логического вывода (inference)».72

  • Юридические последствия (Impact): Это законодательное требование наносит прямой удар по использованию европейских ИИ-решений. Штаб-квартиры компаний Jina AI и Mixedbread AI расположены в Берлине, Германия (Европейский Союз).37 Следовательно, они находятся в юрисдикции ЕС и несут уголовную и финансовую ответственность за нарушение санкционного режима. Предоставление услуги «логического вывода» (inference API), то есть обработка пользовательских запросов на переранжирование через серверы Jina AI или Mixedbread для резидентов Республики Беларусь, классифицируется властями ЕС как прямое нарушение санкций.72 Даже использование бесплатных тестовых API-ключей (freemium tier) Jina AI через белорусские IP-адреса создает колоссальный инфраструктурный риск. Облачные провайдеры усилили системы KYC (Know Your Customer) и автоматизированный комплаенс-контроль, что означает, что «заморозка» инфраструктуры, построенной на европейских облачных реранкерах, может произойти в любой момент без предварительного уведомления.

Стратегические решения для достижения цифрового суверенитета

Для минимизации правовых, финансовых и операционных рисков при проектировании критически важных систем RAG на территории Республики Беларусь необходимо придерживаться стратегии строгого «цифрового суверенитета». Эта стратегия базируется на двух аксиомах:

  1. Полный отказ от использования облачных API-решений юрисдикций «Коллективного Запада» (США, ЕС, Канада, Великобритания). Архитектурная зависимость (vendor lock-in) от API сервисов Cohere, Voyage AI, Jina API или Mixedbread Search API для белорусской компании означает наличие 100% постоянного риска внезапной дисфункции системы (compliance cutoff risk).
  2. Безусловный переход на ИИ-модели с открытыми весами (Open-Weights) из дружественных или геополитически нейтральных юрисдикций с последующим локальным развертыванием.
  • Китайские государственные и частные лаборатории (такие как Alibaba Cloud, BAAI, DeepSeek) не имплементируют в свои лицензионные соглашения западные санкционные директивы, касающиеся запрета на экспорт открытого программного обеспечения в Беларусь или Россию.74
  • Передовые ИИ-модели, такие как Qwen3-Reranker (Alibaba Cloud) и BGE-Reranker-v2.5 (BAAI), свободно распространяются по максимально пермиссивным открытым лицензиям (соответственно Apache 2.0 и MIT).56 Эти лицензии юридически разрешают свободное коммерческое использование, модификацию и распространение программного кода.
  • Физическая загрузка весов нейросетевых моделей с международных платформ (Hugging Face) или их китайских аналогов (ModelScope) и их последующий запуск на собственных (On-Premise) или арендованных белорусских/российских физических серверах является абсолютно легальной операцией. Такой контур развертывания полностью изолирован от внешних сетевых триггеров (air-gapped) и принципиально не подвержен риску санкционного отключения.
  • Технологическим бонусом данного подхода является тот факт, что китайские корпорации уделяют колоссальное внимание качественной мультиязычности своих систем. Глубокое понимание русскоязычного контекста моделями Qwen3 и BGE (многократно подтвержденное лидирующими позициями на бенчмарках ruMTEB) полностью снимает лингвистический барьер при вынужденной миграции с высокоточных западных коммерческих решений.12 Дополнительно развиваются совместные инициативы Союзного государства по созданию суверенных доверенных ИИ-систем, однако пока они уступают по качеству доступным open-source решениям мирового уровня.74

Стратегическое заключение

Индустрия искусственного интеллекта в 2025–2026 годах совершила качественный скачок в архитектурах интеллектуального поиска. Внедрение моделей переранжирования (Cross-Encoders) окончательно доказало свою безальтернативную способность радикально повышать релевантность информационной выдачи корпоративных RAG-систем, извлекая сложные логические смыслы там, где стандартный векторный поиск на базе Bi-Encoders терпит неудачу из-за семантической уплотненности текстовых массивов.

Анализ показывает, что на рынке коммерческого API продолжают доминировать решения североамериканских гигантов (Cohere Rerank 4 и Voyage AI rerank-2.5), предлагая клиентам потрясающую точность (доказанную в слепых тестированиях Arena AI) и способность переваривать гигантские контекстные окна (до 32 000 токенов). Однако взрывной рост качества открытого исходного кода полностью нивелировал монополию проприетарных систем. Инновационные архитектурные решения — такие как глубокие плотные сети Qwen3-8B или механизмы послойного сжатия BGE v2.5 — позволяют достигать сопоставимого или даже превосходящего качества при грамотном локальном запуске на графических ускорителях.

Для инженеров и корпоративного сектора (в том числе функционирующего в сложной правовой среде Республики Беларусь) можно сформулировать три ключевых архитектурных принципа на 2026 год:

  1. Отказ от средних метрик. При выборе модели переранжирования категорически нельзя полагаться на «общий средний балл» бенчмарка MTEB. Решение должно приниматься исключительно на основе фильтрации по категории Reranking/Retrieval и обязательной верификации на русскоязычном сегменте (ruMTEB), где модели, такие как GigaEmbeddings или Qwen3, раскрывают свой истинный потенциал.
  2. Оптимизация каскада. Гибридный конвейер должен быть откалиброван. Используйте сверхбыстрые легковесные эмбеддинги для извлечения 100–200 первичных кандидатов, а ресурсоемкий Reranker применяйте только к усеченной выборке (например, top_k=10) перед финальной отправкой контекста в LLM. Это позволит сохранить общую задержку системы (latency) в рамках суб-500 миллисекунд даже на локальном оборудовании.
  3. Бескомпромиссное управление рисками. Использование западных облачных API (США, ЕС, Канада) из санкционных юрисдикций несет критические, неконтролируемые риски внезапного паралича ИТ-инфраструктуры из-за пакетов экспортного контроля (включая 19-й пакет санкций ЕС).

В свете вышеизложенного, абсолютным оптимумом для внедрения систем переранжирования в СНГ в 2026 году является использование модели Qwen3-Reranker-8B от Alibaba Cloud. Обладая производительностью уровня State-of-the-Art (SOTA), непревзойденной многоязычностью и распространяясь по свободной лицензии, она полностью исключает правовые риски при локальном On-Premise развертывании. Ее запуск может быть эффективно обеспечен на доступном серверном оборудовании (например, один GPU NVIDIA RTX 4090 / A6000) с применением алгоритмов квантования. Для менее ресурсообеспеченных систем идеальной альтернативой выступает ультрабыстрая модель BGE-Reranker-v2.5.

Источники

  1. Rerankers and Two-Stage Retrieval — Pinecone, дата последнего обращения: марта 7, 2026, https://www.pinecone.io/learn/series/rag/rerankers/
  2. How to Implement Bi-Encoder Re-Ranking — OneUptime, дата последнего обращения: марта 7, 2026, https://oneuptime.com/blog/post/2026-01-30-rag-bi-encoder-reranking/view
  3. Cohere’s Embed Models (Details and Application), дата последнего обращения: марта 7, 2026, https://docs.cohere.com/docs/cohere-embed
  4. Encoders, Bi-Encoders, and Cross-Encoders/Rerankers Explained (Funny Video) : r/learnmachinelearning — Reddit, дата последнего обращения: марта 7, 2026, https://www.reddit.com/r/learnmachinelearning/comments/1navibp/encoders_biencoders_and_crossencodersrerankers/
  5. Retrieve & Re-Rank — Sentence Transformers documentation, дата последнего обращения: марта 7, 2026, https://sbert.net/examples/sentence_transformer/applications/retrieve_rerank/README.html
  6. Sentence Embeddings. Cross-encoders and Re-ranking – hackerllama — GitHub Pages, дата последнего обращения: марта 7, 2026, https://osanseviero.github.io/hackerllama/blog/posts/sentence_embeddings2/
  7. jinaai/jina-reranker-v3 — Hugging Face, дата последнего обращения: марта 7, 2026, https://huggingface.co/jinaai/jina-reranker-v3
  8. Reranker Benchmark: Top 8 Models Compared — AIMultiple, дата последнего обращения: марта 7, 2026, https://research.aimultiple.com/rerankers/
  9. Top embedding models on the MTEB leaderboard — Modal, дата последнего обращения: марта 7, 2026, https://modal.com/blog/mteb-leaderboard-article
  10. mteb (Massive Text Embedding Benchmark) — Hugging Face, дата последнего обращения: марта 7, 2026, https://huggingface.co/mteb
  11. MTEB Leaderboard — a Hugging Face Space by mteb, дата последнего обращения: марта 7, 2026, https://huggingface.co/spaces/mteb/leaderboard
  12. The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design — ACL Anthology, дата последнего обращения: марта 7, 2026, https://aclanthology.org/2025.naacl-long.12/
  13. [2408.12503] The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design — arXiv.org, дата последнего обращения: марта 7, 2026, https://arxiv.org/abs/2408.12503
  14. mteb/RuBQReranking · Datasets at Hugging Face, дата последнего обращения: марта 7, 2026, https://huggingface.co/datasets/mteb/RuBQReranking
  15. Building Russian Benchmark for Evaluation of Information Retrieval Models — international conference, дата последнего обращения: марта 7, 2026, https://dialogue-conf.org/wp-content/uploads/2025/04/KovalevGetal.046.pdf
  16. The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design — ResearchGate, дата последнего обращения: марта 7, 2026, https://www.researchgate.net/publication/392503425_The_Russian-focused_embedders’_exploration_ruMTEB_benchmark_and_Russian_embedding_model_design
  17. GigaEmbeddings — Efficient Russian Language Embedding Model — arXiv, дата последнего обращения: марта 7, 2026, https://arxiv.org/html/2510.22369v1
  18. We built a blind-vote arena to rank AI image models. Need your votes — Reddit, дата последнего обращения: марта 7, 2026, https://www.reddit.com/r/generativeAI/comments/1qxyy5r/we_built_a_blindvote_arena_to_rank_ai_image/
  19. I built a leaderboard for Rerankers : r/LocalLLaMA — Reddit, дата последнего обращения: марта 7, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1ooi8lk/i_built_a_leaderboard_for_rerankers/
  20. agentset-ai/reranker-eval: Benchmarking rerankers in a RAG pipeline, evaluating accuracy (nDCG, Recall), latency, and LLM preferences. — GitHub, дата последнего обращения: марта 7, 2026, https://github.com/agentset-ai/reranker-eval
  21. Voyage AI Rerank 2.5 vs Cohere Rerank 4 Fast — Agentset, дата последнего обращения: марта 7, 2026, https://agentset.ai/rerankers/compare/voyage-ai-rerank-25-vs-cohere-rerank-4-fast
  22. Cohere Rerank 4 Pro vs Voyage AI Rerank 2.5 Lite — Agentset, дата последнего обращения: марта 7, 2026, https://agentset.ai/rerankers/compare/cohere-rerank-4-pro-vs-voyage-ai-rerank-25-lite
  23. Introducing Cohere Rerank 4.0 in Microsoft Foundry | Microsoft Community Hub, дата последнего обращения: марта 7, 2026, https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/introducing-cohere-rerank-4-0-in-microsoft-foundry/4477076
  24. Cohere Introduces Rerank 4 — BigDATAwire — Data Science • AI • Advanced Analytics, дата последнего обращения: марта 7, 2026, https://www.hpcwire.com/bigdatawire/this-just-in/cohere-introduces-rerank-4/
  25. дата последнего обращения: декабря 31, 1969, https://cohere.com/terms-of-service
  26. AWS Marketplace: Cohere Rerank 3 Model — Multilingual — Amazon.com, дата последнего обращения: марта 7, 2026, https://aws.amazon.com/marketplace/pp/prodview-ydysc72qticsw
  27. AWS Marketplace: Cohere Rerank v4.0 Pro, дата последнего обращения: марта 7, 2026, https://aws.amazon.com/marketplace/pp/prodview-du2svpomxs5vw
  28. Cohere Rerank 3.5 — AI Model Catalog | Microsoft Foundry Models, дата последнего обращения: марта 7, 2026, https://ai.azure.com/catalog/models/Cohere-rerank-v3.5
  29. Pricing — Introduction — Voyage AI, дата последнего обращения: марта 7, 2026, https://docs.voyageai.com/docs/pricing
  30. rerank-2.5 and rerank-2.5-lite: instruction-following rerankers — Voyage AI, дата последнего обращения: марта 7, 2026, https://blog.voyageai.com/2025/08/11/rerank-2-5/
  31. Models Overview — Voyage AI by MongoDB, дата последнего обращения: марта 7, 2026, https://www.mongodb.com/docs/voyageai/models/
  32. Rerankers — Introduction — Voyage AI, дата последнего обращения: марта 7, 2026, https://docs.voyageai.com/docs/reranker
  33. Rerankers — Voyage AI, дата последнего обращения: марта 7, 2026, https://docs.voyageai.com/reference/reranker-api
  34. Voyage AI: Explore the Latest Embedding Models & Rerankers | MongoDB, дата последнего обращения: марта 7, 2026, https://www.mongodb.com/products/platform/ai-search-and-retrieval/models
  35. Announcing New Models and Expanded Availability — Voyage AI, дата последнего обращения: марта 7, 2026, https://blog.voyageai.com/2026/01/15/new-models-and-expanded-availability/
  36. MongoDB Sets a New Standard for Retrieval Accuracy with Voyage 4 Models for Production-Ready AI Applications — Stock Titan, дата последнего обращения: марта 7, 2026, https://www.stocktitan.net/news/MDB/mongo-db-sets-a-new-standard-for-retrieval-accuracy-with-voyage-4-2vctlhg76106.html
  37. jina-reranker-v2-base-multilingual — Search Foundation Models, дата последнего обращения: марта 7, 2026, https://jina.ai/models/jina-reranker-v2-base-multilingual/
  38. Reranker API — Jina AI, дата последнего обращения: марта 7, 2026, https://jina.ai/reranker/
  39. jina-reranker-v3 — Search Foundation Models, дата последнего обращения: марта 7, 2026, https://jina.ai/models/jina-reranker-v3/
  40. Embedding API — Jina AI, дата последнего обращения: марта 7, 2026, https://jina.ai/embeddings/
  41. AWS Marketplace: Jina Reranker v2 Base — Multilingual — Amazon.com, дата последнего обращения: марта 7, 2026, https://aws.amazon.com/marketplace/pp/prodview-uencv3yyikiyu
  42. Use Jina AI models with the open inference API — Elasticsearch Labs, дата последнего обращения: марта 7, 2026, https://www.elastic.co/search-labs/blog/jina-ai-embeddings-rerank-model-open-inference-api
  43. Jina Reranker V2 Base Multilingual Pricing & Specs | AI Models — CloudPrice, дата последнего обращения: марта 7, 2026, https://cloudprice.net/models/jina-reranker-v2-base-multilingual
  44. Elastic Adds High-Precision Multilingual Reranking to Elastic Inference Service with Jina Models, дата последнего обращения: марта 7, 2026, https://ir.elastic.co/news/news-details/2026/Elastic-Adds-High-Precision-Multilingual-Reranking-to-Elastic-Inference-Service-with-Jina-Models/default.aspx
  45. Mixedbread 2026 Company Profile: Valuation, Funding & Investors | PitchBook, дата последнего обращения: марта 7, 2026, https://pitchbook.com/profiles/company/596394-91
  46. Mixedbread — 2026 Company Profile & Competitors — Tracxn, дата последнего обращения: марта 7, 2026, https://tracxn.com/d/companies/mixedbread/__cqjH5v63LUQs-9qtxDgfi50GQxvle62J8clm7xmiZoU
  47. Mxbai Rerank Large V2 API — Together AI, дата последнего обращения: марта 7, 2026, https://www.together.ai/models/mxbai-rerank-large-v2
  48. mixedbread-ai/mxbai-rerank-base-v1 — Hugging Face, дата последнего обращения: марта 7, 2026, https://huggingface.co/mixedbread-ai/mxbai-rerank-base-v1
  49. Boost Your Search With The Crispy Mixedbread Rerank Models, дата последнего обращения: марта 7, 2026, https://www.mixedbread.com/blog/mxbai-rerank-v1
  50. Introducing Mixedbread Search, дата последнего обращения: марта 7, 2026, https://www.mixedbread.com/blog/mixedbread-search
  51. Pricing — Mixedbread, дата последнего обращения: марта 7, 2026, https://www.mixedbread.com/pricing
  52. Mastering Text Embedding and Reranker with Qwen3 — Alibaba Cloud Community, дата последнего обращения: марта 7, 2026, https://www.alibabacloud.com/blog/mastering-text-embedding-and-reranker-with-qwen3_602308
  53. QwenLM/Qwen3-Embedding · GitHub — GitHub, дата последнего обращения: марта 7, 2026, https://github.com/QwenLM/Qwen3-Embedding
  54. Qwen/Qwen3-Reranker-8B — Hugging Face, дата последнего обращения: марта 7, 2026, https://huggingface.co/Qwen/Qwen3-Reranker-8B
  55. Alibaba Launches Qwen3.5 AI Model With 60% Lower Costs, 8x Throughput — eWeek, дата последнего обращения: марта 7, 2026, https://www.eweek.com/news/alibaba-qwen35-ai-model-launch/
  56. Qwen3.5-27B: Specifications and GPU VRAM Requirements — ApX Machine Learning, дата последнего обращения: марта 7, 2026, https://apxml.com/models/qwen35-27b
  57. Qwen — Alibaba Cloud, дата последнего обращения: марта 7, 2026, https://www.alibabacloud.com/en/solutions/generative-ai/qwen?_p_lc=1
  58. Alibaba Cloud Model Studio:Model list, дата последнего обращения: марта 7, 2026, https://www.alibabacloud.com/help/en/model-studio/models
  59. Deploying Qwen3-Reranker-8B with vLLM: Instruction-Aware Reranking for Next-Generation Retrieval Systems | by Doil Kim | Medium, дата последнего обращения: марта 7, 2026, https://medium.com/@kimdoil1211/deploying-qwen3-reranker-8b-with-vllm-instruction-aware-reranking-for-next-generation-retrieval-c35a57c9f0a6
  60. Qwen3 is the large language model series developed by Qwen team, Alibaba Cloud. — GitHub, дата последнего обращения: марта 7, 2026, https://github.com/QwenLM/Qwen3
  61. BGE-Reranker-v2 — BGE documentation — BGE Models, дата последнего обращения: марта 7, 2026, https://bge-model.com/bge/bge_reranker_v2.html
  62. BAAI/bge-reranker-v2.5-gemma2-lightweight · Hugging Face, дата последнего обращения: марта 7, 2026, https://huggingface.co/BAAI/bge-reranker-v2.5-gemma2-lightweight
  63. BGE Reranker — BGE documentation — BGE Models, дата последнего обращения: марта 7, 2026, https://bge-model.com/tutorial/5_Reranking/5.2.html
  64. BAAI/bge-reranker-v2-m3 — Azion Documentation, дата последнего обращения: марта 7, 2026, https://www.azion.com/en/documentation/products/ai/ai-inference/models/baai-bge-reranker-v2-m3/
  65. Qwen3-8B: Specifications and GPU VRAM Requirements — ApX Machine Learning, дата последнего обращения: марта 7, 2026, https://apxml.com/models/qwen3-8b
  66. VRAM requirements for all Qwen3 models (0.6B–32B) – what fits on your GPU? — Reddit, дата последнего обращения: марта 7, 2026, https://www.reddit.com/r/LocalLLaMA/comments/1kfvba4/vram_requirements_for_all_qwen3_models_06b32b/
  67. Qwen3.5 — How to Run Locally Guide | Unsloth Documentation, дата последнего обращения: марта 7, 2026, https://unsloth.ai/docs/models/qwen3.5
  68. Department of Commerce Implements Additional Export Controls against Russia and Belarus and Refines Existing Controls, дата последнего обращения: марта 7, 2026, https://sanctionsnews.bakermckenzie.com/department-of-commerce-implements-additional-export-controls-against-russia-and-belarus-and-refines-existing-controls/
  69. Biden Administration Further Expands Export Controls and Sanctions on Russia and Belarus | Wilson Sonsini Goodrich & Rosati — JD Supra, дата последнего обращения: марта 7, 2026, https://www.jdsupra.com/legalnews/biden-administration-further-expands-7621420/
  70. Home — Voyage AI, дата последнего обращения: марта 7, 2026, https://www.voyageai.com/tos
  71. Switzerland Implements Remainder of EU’s 19th Sanctions Package Against Russia, дата последнего обращения: марта 7, 2026, https://sanctionsnews.bakermckenzie.com/switzerland-implements-remainder-of-eus-19th-sanctions-package-against-russia/
  72. EU adopts its 19th sanctions package against Russia and additional restrictive measures against Belarus — Curtis, Mallet-Prevost, Colt & Mosle LLP, дата последнего обращения: марта 7, 2026, https://www.curtis.com/our-firm/news/eu-adopts-its-19th-sanctions-package-against-russia-and-additional-restrictive-measures-against-belarus
  73. EU Adopts 19th Russia Sanctions Package Alongside New Sanctions Being Imposed by US and UK | Skadden, Arps, Slate, Meagher & Flom LLP, дата последнего обращения: марта 7, 2026, https://www.skadden.com/insights/publications/2025/11/eu-adopts-19th-sanctions-package
  74. Russia and Belarus to Develop AI Rooted in ‘Traditional Values’ — The Moscow Times, дата последнего обращения: марта 7, 2026, https://www.themoscowtimes.com/2025/07/11/russia-and-belarus-to-develop-ai-rooted-in-traditional-values-a89790
  75. FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs — GitHub, дата последнего обращения: марта 7, 2026, https://github.com/FlagOpen/FlagEmbedding

Issue 45, September 7, 2022 — CNA.org., дата последнего обращения: марта 7, 2026, https://www.cna.org/our-media/newsletters/ai-and-autonomy-in-russia/issue-45