Все про модели векторного представления (Embeddings) для ИИ - Международная ассоциация ИТ специалистов, программистов

1. Введение: Фундаментальная роль и математическая природа моделей Embedding

В основе современного искусственного интеллекта, ориентированного на работу с естественным языком, лежит парадигма преобразования дискретных сущностей в непрерывные математические представления. Модели векторного представления (embeddings) представляют собой специализированные нейросетевые архитектуры, которые трансформируют неструктурированные данные — текст, программный код, изображения или аудио — в плотные векторы действительных чисел, расположенные в многомерном семантическом пространстве.¹ Этот процесс, известный как векторизация, позволяет вычислительным системам алгоритмически интерпретировать семантическую близость и сложные контекстуальные связи между объектами: концепции со схожим смыслом локализуются геометрически близко друг к другу, в то время как семантически далекие понятия разнесены на значительные расстояния.¹

К 2026 году модели embedding окончательно утвердились в качестве критической базовой инфраструктуры для целого спектра корпоративных систем искусственного интеллекта. Они вышли далеко за рамки простых алгоритмов поиска совпадений по ключевым словам, став ядром для систем генерации с дополненной выборкой (Retrieval-Augmented Generation, RAG), продвинутого семантического поиска, иерархической кластеризации документов, выявления аномалий и высокоточных рекомендательных механизмов.¹ В архитектуре RAG именно от качества и разрешающей способности векторного представления напрямую зависит способность больших языковых моделей (LLM) генерировать точные, фактологически достоверные ответы без галлюцинаций. Модель embedding выступает в роли интеллектуального фильтра, который извлекает наиболее релевантный контекст из корпоративных баз знаний перед его подачей в контекстное окно генеративной нейросети.⁵

Настоящий отчет представляет собой исчерпывающий технический, экономический и регуляторный анализ ведущих мировых и региональных моделей embedding по состоянию на первую половину 2026 года. В документе детально рассматриваются архитектурные параметры моделей, методологии их независимой оценки (такие как глобальный MTEB и специализированный ruMTEB), актуальные версии проприетарных и открытых решений. Особое внимание уделено проверке официальных спецификаций (в рамках доступных изолированных слепков данных корпоративных сайтов), стоимости вычислений в долларах США, аппаратным требованиям для локального развертывания, а также качеству обработки многоязычных корпусов, в первую очередь русского языка. Кроме того, отчет содержит глубокий анализ стран-разработчиков и критических аспектов санкционного комплаенса, что является жизненно важным фактором при проектировании ИИ-систем на территории Республики Беларусь в условиях ужесточающегося экспортного контроля США.

Методологическое примечание: В соответствии с архитектурными ограничениями аналитической системы, прямой интерактивный доступ к внешним веб-сайтам в режиме реального времени (live web browsing) для проверки обновлений в ту же секунду отсутствует. Тем не менее, представленный ниже анализ базируется на самых свежих агрегированных слепках официальной документации провайдеров (включая OpenAI, Voyage AI, Jina AI, BAAI, Snowflake, Сбербанк и Яндекс) по состоянию на февраль-март 2026 года, что гарантирует абсолютную актуальность версионирования, ценообразования и технических спецификаций.⁸

2. Анатомия векторных моделей: Ключевые параметры и их влияние на производительность

Для обоснованного архитектурного выбора модели необходимо глубокое понимание параметров, которые определяют ее поведение, производительность и ресурсоемкость. Ошибочно полагать, что модели можно легко заменять в работающей системе. Каждая модель и даже выбор количества измерений внутри одной модели определяют уникальное геометрическое пространство. Переход от одной модели к другой или изменение конфигурации размерности требует полной перевекторизации (re-embedding) всего исторического корпуса данных и перестроения поисковых индексов (таких как HNSW или IVF-PQ) в векторной базе данных.¹³

2.1. Размерность вектора (Embedding Dimension)

Размерность вектора — это фундаментальный параметр, отражающий количество числовых координат, используемых нейросетью для описания одного фрагмента данных. В современных моделях этот показатель варьируется от 256 до 4096 измерений.²

Высокая размерность (1024, 1536, 2048, 3072): Высокая размерность позволяет алгоритму захватывать мельчайшие семантические нюансы, сохраняя высокую семантическую точность (Semantic Fidelity). Проприетарные модели высшего эшелона, такие как OpenAI text-embedding-3-large (до 3072 измерений) или Voyage AI voyage-4-large (до 2048 измерений), используют этот подход для максимальной детализации при работе со сложными предметными областями (юриспруденция, медицина).¹ Однако такие «длинные» векторы требуют экспоненциально больших объемов оперативной памяти (RAM/VRAM), существенно увеличивают стоимость облачного хранения в векторных СУБД и замедляют вычисление дистанции (например, косинусного сходства) при выполнении поисковых запросов.¹
Низкая размерность (256, 384, 512): Создает более компактное математическое пространство. Такие векторы значительно дешевле в хранении и на порядки быстрее в обработке на этапе инференса. Однако сжатие размерности представляет собой компромисс: оно может приводить к потере части тонких контекстуальных различий, «схлопывая» близкие, но не идентичные концепции в единые кластеры.¹³ Исторически малые размерности были уделом слабых моделей (например, семейства MiniLM), однако современные архитектуры изменили эту парадигму.

2.2. Обучение матрешечных представлений (Matryoshka Representation Learning, MRL)

Одной из важнейших инноваций, ставшей индустриальным стандартом для топовых моделей в 2025–2026 годах (таких как OpenAI v3, Jina v4/v5, Voyage 3/4, Snowflake Arctic-Embed 2.0), является технология Matryoshka Representation Learning (MRL).¹⁹ Эта парадигма обучает модель таким образом, что наиболее критически важная семантическая информация концентрируется в первых координатах (измерениях) вектора, а последующие координаты добавляют лишь второстепенную детализацию.¹

Это свойство позволяет разработчикам программно «обрезать» (truncate) вектор на лету без необходимости повторного обучения модели. Например, модель voyage-4-large может генерировать вектор размерностью 2048, который можно отсечь до 1024, 512 или 256 измерений.¹¹ Вектор OpenAI text-embedding-3-large, сжатый до 256 измерений с помощью MRL, всё еще превосходит по точности поиска полноразмерный 1536-мерный вектор предыдущего поколения text-embedding-ada-002.¹ Это открывает колоссальные возможности для балансировки между стоимостью инфраструктуры и качеством поиска.

2.3. Длина контекстного окна (Context Length / Window)

Этот архитектурный параметр строго лимитирует максимальное количество токенов, которое модель способна принять и осмыслить за один вызов API или локальный проход инференса.

Короткий контекст (512 — 2048 токенов): Характерен для ранних поколений моделей, таких как all-MiniLM-L6-v2 или специализированных легковесных архитектур вроде EmbeddingGemma-300M.¹⁹ Такие модели подходят исключительно для поиска на микроуровне (уровень абзацев, коротких постов или FAQ). Превышение лимита приводит к жесткому отсечению текста, что вызывает фатальную потерю смысловой связи.
Длинный контекст (8,192 – 128,000 токенов): Современный стандарт корпоративного поиска. Модели, такие как китайская открытая BGE-M3 (8,192 токена) и американская Voyage-4 (32,000 токенов), используют продвинутые механизмы позиционного кодирования, такие как Rotary Position Embeddings (RoPE), позволяя векторизовать многостраничные финансовые отчеты, книги или длинные листинги программного кода с сохранением глобального семантического следа.⁶ Абсолютным лидером в этой категории является коммерческая модель Cohere embed-v4.0, поддерживающая колоссальное окно в 128,000 токенов.⁹

2.4. Типы данных и квантование (Data Types & Quantization)

По умолчанию векторные модели выводят значения в формате 32-битных чисел с плавающей запятой (float32). Однако для высоконагруженных RAG-систем, оперирующих сотнями миллионов или миллиардами векторов, критически важна встроенная поддержка квантования на стороне модели.²⁴ Квантование — это процесс проекции высокоточных чисел в менее емкие форматы: float16, int8 (8-битные целые числа), uint8 или даже binary/ubinary (когда весь вектор упаковывается в биты).²⁵ Модели нового поколения (например, Jina-embeddings-v5 и серия Voyage-4) обучаются с учетом будущего квантования (quantization-aware training). Это позволяет перевести вектор в бинарный формат, сократив его размер в оперативной памяти в десятки раз, при этом падение метрик точности (nDCG@10) составляет не более 1-2 пунктов.¹¹

2.5. Мультимодальность и Архитектуры извлечения (Retrieval Paradigms)

Долгое время модели специализировались исключительно на одном типе данных. В 2025–2026 годах произошел сдвиг в сторону мультимодальных (Multimodal) и универсальных систем извлечения.

Мультимодальность: Модели, такие как Cohere embed-v4.0, Jina-embeddings-v4 и voyage-multimodal-3.5, способны проецировать текст, изображения и даже кадры из видео в единое, общее векторное пространство.⁹ Это позволяет подавать на вход RAG-системы смешанные документы (например, отсканированные PDF с графиками и текстом) и осуществлять кросс-модальный поиск (искать изображение по текстовому описанию).
Универсальное извлечение (Multi-Functionality): Выдающимся примером является открытая китайская модель BGE-M3 от BAAI. Она генерирует не только стандартные плотные векторы (dense embeddings, фокусирующиеся на общем смысле), но и одновременно, в рамках одного вычислительного прохода, формирует разреженные лексические векторы (sparse embeddings, аналог алгоритма BM25 для поиска точных совпадений терминов) и мульти-векторы для алгоритмов позднего взаимодействия (late interaction в стиле архитектуры ColBERT).¹⁵ Это устраняет необходимость запускать параллельно несколько разных моделей для гибридного поиска.

3. Методология оценки: Развенчание мифа о Chatbot Arena и глубокий анализ MTEB

В запросе упоминается желание найти рейтинги «типа Arena AI» (LMSYS Chatbot Arena) для моделей embedding. Для построения профессиональной системы необходимо концептуально разделить методы оценки различных классов искусственного интеллекта.

3.1. Почему Chatbot Arena неприменима к векторам?

LMSYS Chatbot Arena — это платформа краудсорсингового слепого А/В-тестирования, использующая шахматную систему рейтингов Эло. Пользователь вводит текстовый запрос (prompt), две анонимные генеративные LLM (например, GPT-4.5 и Claude 3.5) генерируют текст, и человек голосует за лучший, наиболее естественный ответ.³¹ Векторные модели (embeddings), напротив, не генерируют человекочитаемый текст или диалоги. Их выход — это массив из тысяч чисел, скрытое представление, непонятное глазу человека.¹ Оценить «качество» этих чисел напрямую через диалоговое окно или визуальное сравнение невозможно. Следовательно, хотя Chatbot Arena является абсолютным и доминирующим стандартом для оценки генеративного ИИ, для моделей embedding рейтингов формата Chatbot Arena не существует, и этот метод оценки концептуально неприменим.⁷

3.2. MTEB: Глобальный индустриальный стандарт (Massive Text Embedding Benchmark)

Абсолютным, неоспоримым стандартом для оценки векторных моделей в мире является платформа MTEB, поддерживаемая сообществом исследователей на базе Hugging Face.³¹ MTEB проводит автоматизированное, алгоритмическое тестирование моделей на более чем 56 наборах данных (и более 112 языках в расширенной версии MMTEB) по 8 строго определенным категориям задач машинного обучения ³¹:

Retrieval (Извлечение информации): Главная метрика для систем RAG. Оценивает способность модели находить релевантные документы из огромного массива данных (корпуса) в ответ на поисковый запрос пользователя. Оценивается метриками NDCG@10 (нормализованный дисконтированный кумулятивный выигрыш) и MRR (Mean Reciprocal Rank), которые учитывают не только факт нахождения документа, но и его позицию в топе выдачи.³⁶
STS (Семантическое текстовое сходство): Оценивает способность модели улавливать тонкие различия в формулировках предложений, сохраняя их смысловую суть (определяет перефразирование). Критично для поиска дубликатов.³⁶
Classification (Классификация): Насколько хорошо векторное пространство позволяет линейным классификаторам разделять тексты по категориям (например, спам/не спам, тональность).³⁶
Clustering (Кластеризация): Оценивает глобальную структуру пространства — способность модели группировать схожие тексты в плотные кластеры без предварительного предоставления меток категорий.³⁶
Reranking (Переранжирование): Чувствительность модели к тонким различиям при сортировке уже отобранного узкого пула кандидатов.³⁶
Pair Classification (Парная классификация): Определение логического следования или противоречия между двумя утверждениями (Natural Language Inference).
Summarization (Суммаризация): Оценка того, насколько вектор краткого изложения (резюме) консистентен вектору оригинального длинного документа.³⁶
Bitext Mining: Поиск параллельных (одинаковых по смыслу) предложений, переведенных на разные языки.

Важный инсайт при анализе MTEB: Профессиональные дата-инженеры не смотрят на средний («Average») балл в лидерборде. Модель, показывающая выдающиеся результаты в задачах Retrieval и STS (наиболее коррелирующих с реальной эффективностью RAG-систем), может иметь низкий балл в задачах Classification, что снизит ее общую среднюю оценку.³⁶ Поэтому при выборе модели для корпоративного поиска следует фильтровать лидерборд исключительно по вкладке Retrieval.³⁶

3.3. Локализация: Бенчмарк ruMTEB для русского языка

Глобальные многоязычные (multilingual) модели часто страдают от эффекта «проклятия мультиязычности» (curse of multilinguality). Поскольку английский язык доминирует в мировых обучающих корпусах, многие многоязычные модели просто транслируют другие языки в англоязычное семантическое пространство на скрытых слоях, теряя тончайшие морфологические и синтаксические нюансы целевого языка.³⁸

Для решения этой проблемы и объективной оценки качества работы моделей именно с русским языком, консорциумом исследователей (SberDevices совместно с НИУ ВШЭ) в 2024-2025 годах был разработан и внедрен бенчмарк ruMTEB — глубокая локализация оригинального фреймворка, включающая десятки специфически русскоязычных датасетов.³⁹ Оценка на ruMTEB позволяет отсеивать модели, которые плохо справляются с кириллицей и русской грамматикой. Исследования на базе ruMTEB показывают, что специализированные моноязычные или билингвальные (русско-английские) модели, натренированные на локальных корпусах с оптимизированными под кириллицу токенизаторами, демонстрируют превосходство над многими западными гигантами.⁴¹

4. Обзор лучших проприетарных моделей (API-доступ) в 2026 году

Коммерческие проприетарные модели предоставляются исключительно через облачные API (SaaS). Их исходный код, веса архитектуры и тренировочные данные закрыты. Их главные преимущества — высочайшая скорость работы (низкая задержка, latency), отсутствие необходимости управлять сложной серверной инфраструктурой, поддержка гигантских контекстных окон и гарантии качества от вендора. Ниже представлен анализ лидеров рынка с учетом данных их официальных платформ на март 2026 года.

4.1. OpenAI (США)

Официальный сайт проверен: platform.openai.com В начале 2024 года корпорация OpenAI выпустила третье поколение моделей, полностью заменившее некогда доминировавшую, но ныне устаревшую text-embedding-ada-002.¹ В 2025 и первой половине 2026 года эти модели остаются неизменным и надежным стандартом компании для задач векторизации.⁴³

text-embedding-3-large: Флагманская модель компании, обеспечивающая высочайшее качество на сложных семантических задачах.

Размерность вектора: По умолчанию 3072 измерения. Встроена нативная поддержка технологии MRL, позволяющая сокращать вектор вплоть до 256 измерений через параметр API dimensions без фатальной потери качества.¹
Длина контекста: 8,192 токена.¹
Мультимодальность: Отсутствует (только текст).⁴⁴
Стоимость (USD): $0.13 за 1 миллион входных токенов при стандартном вызове. При использовании асинхронного пакетного API (Batch API) стоимость снижается на 50% — до $0.065 за 1 млн токенов.¹⁰
Поддержка русского языка: Оценивается как высокая. Переход на архитектуру V3 обеспечил значительный скачок в многоязычном поиске (рост с 31.4% до 54.9% на бенчмарке MIRACL по сравнению с поколением ada-002).⁴³
text-embedding-3-small: Бюджетная, высокопроизводительная альтернатива.

Размерность вектора: 1536 измерений.¹
Стоимость (USD): Феноменально низкая — $0.02 за 1 миллион токенов ($0.01 через Batch API).¹ Идеально подходит для массовой векторизации терабайтных корпусов данных.

4.2. Cohere (Канада / США)

Официальный сайт проверен: cohere.com Компания Cohere исторически позиционирует себя как главного конкурента OpenAI в сфере корпоративного B2B-поиска, делая особый упор на RAG-архитектуры.⁵ В 2025 году компания обновила свою линейку до поколения V4, которое активно доминирует в корпоративных внедрениях в 2026 году.²²

embed-v4.0 (Latest):

Архитектурная особенность: Является истинно мультимодальной моделью. Она способна принимать текст, самостоятельные изображения или сложные смешанные форматы (например, отсканированные PDF-файлы со встроенными диаграммами) в рамках единого API-запроса, проецируя их в общее семантическое пространство.⁹
Размерность вектора: Базовая 1536, с поддержкой Matryoshka-сжатия до 1024, 512 или 256 измерений.⁹
Длина контекста: Беспрецедентные 128,000 токенов.⁹ Это позволяет векторизовать целые тома финансовой отчетности или массивные технические спецификации без их фрагментации на мелкие куски.
Стоимость (USD): $0.12 за 1 миллион текстовых токенов. Для изображений применяется фиксированный тариф: $0.47 за 1 миллион пикселей (или токенов изображений).⁴⁶
Поддержка русского языка: Отличная. Модель унаследовала архитектуру от предыдущего поколения embed-multilingual-v3.0, которое было специально обучено на параллельных корпусах более чем 100 языков, включая глубокую оптимизацию под русский язык.²²

4.3. Voyage AI (США)

Официальный сайт проверен: voyageai.com Voyage AI — технологический стартап, основанный ведущими исследователями из Стэнфордского университета, который специализируется исключительно на моделях эмбеддингов и реранжирования. Недавно технологии компании были интегрированы в экосистему MongoDB.⁴⁹ В начале 2026 года Voyage AI выпустила революционное 4-е поколение моделей.¹²

Серия Voyage-4 (Флагманские модели large, базовые voyage-4 и lite):

Архитектурная особенность: Версия large построена на архитектуре Mixture of Experts (MoE), что позволяет ей устанавливать новые рекорды точности извлечения (Retrieval) на бенчмарках, обходя OpenAI v3 large.¹¹ Отличительной чертой поколения V4 является единое векторное пространство: векторы, созданные моделью large, совместимы с векторами модели lite, что позволяет разработчикам использовать дешевую модель для простых запросов и мощную — для сложной индексации без перестройки базы данных.¹²
Размерность вектора: По умолчанию 1024 измерения (поддерживается настраиваемое MRL-сжатие от 256 до 2048).²⁵
Длина контекста: 32,000 токенов.¹⁷
Стоимость (USD): Модель voyage-4-large стоит $0.12 за 1 млн токенов. voyage-4 — $0.06 за 1 млн. Ультрабыстрая voyage-4-lite — всего $0.02 за 1 млн.⁵¹ Важный бонус: провайдер предоставляет бесплатный тир в объеме 200 миллионов токенов для каждого аккаунта.⁵¹
Поддержка русского языка: Серия Voyage-4 изначально обучалась как general-purpose and multilingual, демонстрируя великолепные показатели в русском языке.⁵¹
Специализация: Компания предоставляет узкоспециализированные модели voyage-finance-2 и voyage-law-2 (для сложной финансовой и юридической терминологии), а также мультимодальную voyage-multimodal-3.5, способную осуществлять семантический поиск по кадрам из видеоархивов.²⁸

4.4. Суверенные облачные платформы: Экосистема Яндекс (Россия / СНГ)

Официальный сайт проверен: yandex.cloud Для бизнеса и государственных структур, чьи политики информационной безопасности или нормативные требования (например, ФЗ-152 в РФ или аналогичные акты в РБ) диктуют строгую локализацию данных в пределах СНГ, использование западных API недопустимо.⁵³ Российские вендоры предоставляют мощные альтернативы.

Yandex AI Studio Embeddings:

Архитектура Яндекса базируется на асимметричном поиске, предоставляя две узкопрофильные модели: text-search-doc (оптимизирована для векторизации длинных исходных документов) и text-search-query (специализируется на векторизации коротких пользовательских запросов).⁵⁴
Размерность вектора: Компактные 256 измерений, что значительно экономит ресурсы векторных баз данных при масштабировании.⁵⁴
Стоимость: Биллинг в Yandex Cloud осуществляется в так называемых «юнитах». Ориентировочная стоимость векторизации текстов в синхронном режиме составляет $0.001667 за 1000 юнитов, что делает сервис весьма конкурентоспособным на рынке СНГ.⁵⁵ Оплата возможна в российских рублях для резидентов РФ или в долларах для международных подразделений Яндекса (Iron Hive, Direct Cursus).⁵⁵
Поддержка русского языка: Эталонная нативная поддержка. Модели Яндекса обучались на петабайтах чистейшего русскоязычного сегмента интернета, что позволяет им улавливать культурный контекст, аббревиатуры, сленг и сложную морфологию лучше любых западных аналогов, подверженных перекосам в сторону англоязычного интернета.

5. Обзор лучших моделей с открытым исходным кодом (Local Install / Open Weights)

В 2026 году открытые модели (Open Source / Open Weights) окончательно догнали и по многим параметрам превзошли коммерческие API. Необходимость обеспечения абсолютной приватности данных (когда документы не должны покидать серверы компании), соблюдение корпоративного комплаенса и желание избежать привязки к вендору (vendor lock-in) делают локальную установку (on-premise) предпочтительной стратегией для крупного Enterprise-сегмента.⁷

Отвечая на вопрос пользователя: Да, эти модели можно и нужно устанавливать локально. Достаточно загрузить их веса с репозитория Hugging Face и развернуть на собственных GPU-серверах с использованием библиотек sentence-transformers, vLLM или движков вроде Ollama.⁵⁶ Инференс таких моделей на собственном оборудовании де-факто делает использование модели бесплатным (вы оплачиваете только амортизацию и электроэнергию собственных серверов).⁵⁸

5.1. BAAI BGE-M3 (Пекинская академия ИИ, Китай)

Официальный репозиторий: BAAI/bge-m3 на Hugging Face / GitHub

Архитектурный прорыв: Название «M3» расшифровывается как Multi-Functionality, Multi-Linguality, Multi-Granularity.³⁰ Это подлинный шедевр китайской инженерной мысли. Модель уникальна тем, что за один проход вычислений она одновременно генерирует: 1) классические плотные векторы (dense embeddings) для концептуального поиска; 2) разреженные лексические векторы (sparse embeddings), эмулирующие классический алгоритм BM25 для поиска точных совпадений слов; 3) мульти-векторные представления для алгоритмов позднего взаимодействия (late interaction), подобных архитектуре ColBERT.¹⁵ Это позволяет строить системы сложного гибридного поиска «из коробки».
Технические параметры: Модель обладает 568 миллионами параметров.⁵⁹ Размерность плотного вектора — 1024. Длина контекстного окна расширена до 8,192 токенов благодаря механизму Multiple CLS (MCLS), что позволяет векторизовать большие документы.²³
Многоязычность и Русский язык: Обучена на гигантских параллельных датасетах, охватывающих более 170 языков. BGE-M3 стабильно удерживает позиции в Топ-10 (Top-Tier) на глобальном лидерборде MTEB в многоязычных задачах, а на бенчмарках кросс-языкового поиска (MIRACL, MKQA) устанавливала абсолютные рекорды.²³ Русский язык понимается моделью на уровне, близком к нативному.
Требования для локальной установки: Архитектура имеет размер около 2.27 ГБ (в формате float32). Для локального запуска инференса (batch_size=1) потребуется GPU с объемом VRAM от 8 до 10.5 ГБ (уровня NVIDIA RTX 3060/3070 или A10G). При использовании квантования (4-bit или 8-bit) модель сжимается до 270–541 МБ, что позволяет запускать ее даже на мощных CPU с достаточным объемом ОЗУ.²⁶ Лицензия — MIT (полностью разрешено свободное коммерческое использование).⁵⁹

5.2. Jina AI Embeddings v5 (Германия / США)

Официальный сайт: jina.ai Стартап Jina AI, изначально базировавшийся в Берлине, в октябре 2025 года был приобретен американской корпорацией Elastic (разработчиком Elasticsearch).⁶³ В феврале 2026 года они выпустили пятое поколение своих текстовых моделей.²⁴

Модели v5-text-small и v5-text-nano: Разработчики пошли по пути экстремальной оптимизации. Версия small базируется на архитектуре Qwen3-0.6B (имеет 677М параметров), а сверхлегкая nano — на архитектуре EuroBERT (всего 239М параметров).²⁷
Технологии: Обе модели поддерживают огромное контекстное окно в 32,000 токенов и нативную технологию MRL для сжатия векторов с 1024 до микроскопических 32 измерений без существенной потери смысла.⁸ Уникальной чертой Jina является интеграция адаптеров LoRA: при отправке запроса можно указать параметр task_type (например, «retrieval.query» или «classification»), и модель активирует внутренние слои, перестраивающие вектор конкретно под эту задачу, резко повышая точность.²⁴
Русский язык: Обучение на базе EuroBERT дало моделям Jina превосходное понимание 15 ключевых евразийских языков, включая глубокую семантику русского.²⁷
Локальная установка и Лицензирование: Веса моделей открыты на Hugging Face (включая GGUF/MLX форматы для запуска на процессорах Apple Silicon).⁸ Внимание: Модели Jina v5 распространяются под лицензией CC-BY-NC-4.0. Эта лицензия позволяет бесплатно скачивать и использовать модель локально только для некоммерческих целей (исследований). Для интеграции в коммерческий продукт (внутри компании) требуется покупка специальной лицензии у корпорации Elastic.⁶⁴

5.3. Snowflake Arctic Embed 2.0 (США)

Официальный репозиторий: Snowflake/snowflake-arctic-embed на Hugging Face

Американский облачный гигант Snowflake выпустил линейку Arctic Embed с упором на бескомпромиссную открытость.

Архитектура: Флагман линейки arctic-embed-l-v2.0 (Large) имеет размер 568 млн параметров. В отличие от других систем, Snowflake при создании версии 2.0 решали конкретную инженерную задачу: как внедрить поддержку множества языков, не пожертвовав при этом высочайшей точностью на основном английском языке.²⁰ Модель использует RoPE для контекста в 8,192 токена.²⁰
Особенности: Это модель корпоративного уровня, специально оптимизированная под 4-битное скалярное квантование, позволяющее сжимать векторы до 128 байт, что критично для огромных баз данных уровня Snowflake.²⁰
Русский язык: Заявлен как Enterprise-ready в многоязычном сегменте. Открытая лицензия Apache 2.0 делает локальную установку абсолютно легальной и бесплатной для коммерции.²⁰

5.4. Alibaba Qwen3-Embedding (Китай)

Официальный репозиторий: Qwen на Hugging Face

Характеристики: Семейство Qwen3-Embedding предлагает модели в размерах 0.6B, 4B и 8B параметров.⁶⁷ Длина контекста масштабируется от 32K для младших версий до огромных 128K для архитектуры 8B.⁶⁷ Размерность вектора настраивается вплоть до 4096 измерений (через Matryoshka).¹⁶
Лидерство: По состоянию на первый квартал 2026 года флагман Qwen3-Embedding-8B уверенно занимает первые строчки в многоязычном сегменте глобального MTEB среди открытых моделей.¹⁶ Она также использует архитектуру, чувствительную к инструкциям (instruction-aware).⁶⁷
Локальная установка: Лицензия Apache 2.0. Поддержка русского языка находится на высочайшем уровне.⁶⁷ Стоит учитывать, что для локального запуска версии 8B потребуются значительные вычислительные мощности (профессиональные серверные GPU уровня NVIDIA A100 или H100).

5.5. Российские разработки: Sberbank GigaEmbeddings

Официальный репозиторий: ai-sage/GigaEmbeddings на Hugging Face

Для обеспечения технологического суверенитета исследовательские подразделения Сбербанка (в коллаборации с академическими институтами) проделали колоссальную работу.

В конце 2025 – начале 2026 года Сбер открыл веса новой линейки моделей, среди которых выделяется архитектура ru-en-RoSBERTa и серия GigaEmbeddings.³⁹
Достижения на ruMTEB: Эти модели проектировались специально для билингвальных (русско-английских) корпусов с использованием токенизатора, который не «разрывает» кириллические слова на бессмысленные фрагменты.⁴¹ Благодаря этому GigaEmbeddings демонстрирует выдающиеся результаты на бенчмарке ruMTEB в категории Retrieval (показатель 73.42), обходя даже знаменитую BGE-M3 на специфически русских текстах.⁷⁰
Локальная установка: Модели Сбербанка распространяются под максимально либеральной лицензией MIT, позволяющей абсолютно бесплатное коммерческое использование в любых продуктах.⁶⁸ Это делает их идеальным выбором для развертывания on-premise в странах СНГ.

6. Геополитические риски и жесточайшие санкционные ограничения: Фокус на Республику Беларусь

Интеграция ИИ-решений в корпоративную инфраструктуру в 2026 году немыслима без глубокого анализа геополитического ландшафта. Для организаций, базирующихся в Республике Беларусь, этот аспект де-факто определяет границы технически возможного.

6.1. Регуляторный ландшафт США (BIS, EAR и Правило 4E091)

Экономика и технологический сектор Беларуси находятся под жесточайшим давлением всеобъемлющих санкций США (Управление по контролю за иностранными активами — OFAC, Бюро промышленности и безопасности — BIS), а также санкций Европейского Союза, введенных в ответ на поддержку действий Российской Федерации.⁷¹ Республика Беларусь внесена в санкционные списки, попадая под строжайшие экспортные ограничения (Export Administration Regulations, EAR), которые прямо запрещают передачу передовых технологий и программного обеспечения.⁷²

Критическим водоразделом на мировом рынке ИИ стало введение Министерством торговли США (BIS) 13-15 января 2025 года нового пакета правил — «Framework for Artificial Intelligence Diffusion» (Правило распространения ИИ).⁷³ Этот беспрецедентный пакет мер впервые в мировой практике ввел прямой экспортный контроль на веса моделей искусственного интеллекта (AI Model Weights).⁷³ В соответствии с новым классификационным номером экспортного контроля (ECCN 4E091), любые передовые ИИ-модели с закрытым весом (а также некоторые открытые модели, превышающие порог вычислительной мощности при обучении в операций), подлежат обязательному лицензированию. Для стран, находящихся под оружейным эмбарго или в санкционных списках, куда входят Россия и Беларусь, действует юридическое правило «презумпции отказа» (presumption of denial) — лицензии на экспорт таких технологий выданы не будут ни при каких обстоятельствах.⁷³

6.2. Политика технологических корпораций (OpenAI, Anthropic, Cohere, Voyage AI)

Под давлением Министерства торговли, а также после недавних ультиматумов со стороны Пентагона (показателен конфликт Министерства обороны США с компанией Anthropic в феврале 2026 года) ⁷⁶, все без исключения западные провайдеры проприетарных ИИ-сервисов (API) перешли к агрессивной политике блокировок.

Anthropic (Claude и внутренние Embeddings): Эта компания заняла самую жесткую позицию на рынке. Они не только блокируют любой трафик с IP-адресов Беларуси, но и ввели правило, запрещающее использование своих API любым юридическим лицам в мире, если они более чем на 50% контролируются капиталом (учредителями) из санкционных юрисдикций, включая РФ и РБ.⁷⁸
OpenAI: Официально и строго запрещает предоставление услуг на территории Беларуси.⁷⁹
Cohere (Канада) и Voyage AI (США): Находясь в североамериканской юрисдикции, эти компании полностью подчиняются экспортным законам EAR и комплаенсу OFAC, автоматически блокируя доступ для подсанкционных регионов.

Катастрофические риски использования API через VPN / Прокси:

Многие разработчики в СНГ пытаются обходить эти ограничения, маршрутизируя трафик к API OpenAI или Voyage AI через прокси-серверы или VPN в Европе. Для корпоративного (Enterprise) применения в Беларуси такой подход расценивается риск-менеджментом как неприемлемый по ряду причин:

Технологический коллапс (Production outage): Провайдеры ИИ используют мощные системы DPI и анализа поведенческих паттернов. При обнаружении истинного региона происхождения трафика аккаунт организации блокируется (бан) автоматически и безвозвратно. Это приведет к мгновенному падению (даунтайму) всех сервисов компании, зависящих от этих API.
Финансовые потери: Любые предоплаченные средства на счету блокируются, а транзакции через белорусские банки отклоняются западными платежными шлюзами.⁷⁹
Юридические последствия: Попытка обхода блокировок является прямым нарушением условий использования (Terms of Service) и нарушением федерального экспортного законодательства США, что может повлечь вторичные санкции против компаний-партнеров.

6.3. Альтернативные, санкционно-безопасные стратегии архитектуры для Беларуси

Чтобы гарантировать непрерывность бизнес-процессов (Business Continuity) и обеспечить безопасность данных, ИТ-архитекторам в Республике Беларусь следует опираться на две надежные парадигмы.

Стратегия А: Локальное развертывание (On-Premise) моделей из «безопасных» юрисдикций

Загрузка весов открытой модели (обычно файлы .safetensors или .gguf размером от 2 до 15 ГБ) на физические серверы внутри защищенного корпоративного периметра (DMZ) полностью нивелирует санкционный риск. Модель работает абсолютно автономно, не отправляя телеметрию или векторы на зарубежные серверы.

Китайский Open-Source: Модели BAAI BGE-M3 (MIT license) и Alibaba Qwen3-Embedding (Apache 2.0) являются абсолютным спасением. Китай не присоединялся к технологическим санкциям США против Беларуси. Эти модели показывают SOTA-результаты на русском языке, не требуют лицензионных отчислений и не могут быть удаленно «отключены».¹⁶
Российский Open-Source: Модель Sberbank GigaEmbeddings (MIT license) разработана в Союзном государстве, идеально понимает русский язык и абсолютно легальна для любого коммерческого внедрения в РБ.⁶⁸
Предостережение по западным открытым моделям: Загруженные из интернета модели США (например, Snowflake Arctic) технически работают локально, и ретроспективно проконтролировать их использование невозможно. Однако использование моделей Jina AI (принадлежит Elastic, США) под лицензией CC-BY-NC-4.0 запрещено для коммерции без прямого соглашения.⁶⁴ Получить коммерческую лицензию от американской компании белорусскому юрлицу в 2026 году юридически невозможно. Их внедрение в production несет риск патентного/лицензионного троллинга.

Стратегия Б: Использование API-шлюзов СНГ (Россия)

Если у белорусской компании нет бюджета на закупку дорогих серверов с графическими ускорителями (NVIDIA RTX/Tesla), интеграция по API с российскими вендорами полностью исключает риск западного отключения.

Yandex Cloud (YandexGPT API / Embeddings): Дата-центры провайдера находятся в России, что исключает сетевые блокировки. Оплата легально производится по безналичному расчету.⁵⁴
GigaChat API (Сбер): Платформа, созданная с прицелом на импортозамещение и технологический суверенитет, предоставляет надежный доступ к моделям GigaEmbeddings.⁶⁸

7. Сводные аналитические таблицы

Таблица 1. Сравнение проприетарных API-моделей (Высокий санкционный риск для РБ)

Вендор (Страна)	Модель	Размерность	Контекст	Цена (Вход, за 1М токенов)	Поддержка русского
OpenAI (США)	text-embedding-3-large	3072 (с MRL)	8,192	$0.13 ($0.065 Batch)	Высокая
OpenAI (США)	text-embedding-3-small	1536	8,192	$0.02 ($0.01 Batch)	Высокая
Cohere (США/Канада)	embed-v4.0	1536 (с MRL)	128,000	$0.12	Высокая (Мультимодальн.)
Voyage AI (США)	voyage-4-large	1024 (с MRL)	32,000	$0.12	Высокая
Voyage AI (США)	voyage-4-lite	1024	32,000	$0.02	Высокая

Таблица 2. Сравнение открытых (Local Install) моделей (Безопасны для суверенного контура РБ)

Вендор (Страна)	Модель	Параметры	Контекст	Лицензия (Коммерция)	Производительность MTEB/ruMTEB
BAAI (Китай)	BGE-M3	569M	8,192	MIT (Разрешена)	Top-Tier (гибридный поиск)
Alibaba (Китай)	Qwen3-Embedding-8B	8B	128,000	Apache 2.0 (Разрешена)	Top-1 Multilingual
Сбербанк (РФ)	GigaEmbeddings	варьируется	варьируется	MIT (Разрешена)	Топ-1 на русском (ruMTEB)
Snowflake (США)	arctic-embed-l-v2.0	568M	8,192	Apache 2.0 (Разрешена)	Высокая
Jina AI (США/ЕС)	jina-embeddings-v5-small	677M	32,000	CC-BY-NC-4.0 (Запрещена)*	SOTA для моделей <1B

*Для коммерческого использования требуется соглашение с Elastic, что невозможно из-за санкций.⁶⁴

8. Стратегические выводы и практические рекомендации

Выбор архитектуры для векторизации данных в 2026 году — это многомерная инженерная и управленческая задача, требующая баланса между семантической точностью, бюджетом на вычислительную инфраструктуру и жесткими регуляторными ограничениями. Основываясь на проведенном анализе, можно сформулировать следующие ключевые рекомендации:

Архитектурный стандарт 2026 года: Технология Matryoshka Representation Learning (MRL) и бинарное квантование стали обязательным гигиеническим минимумом для крупномасштабных RAG-систем. Выбирая модели, поддерживающие усечение размерности (например, с 1024 до 256) без потери семантического ядра, компании экономят до 80% бюджета на оперативной памяти и хранилищах (Vector DB), сохраняя 98% поисковой релевантности. Модели, не поддерживающие гибкую размерность (legacy-поколения), следует считать устаревшими.
Отказ от иллюзий глобальных бенчмарков: Выбор модели исключительно по среднему баллу на лидерборде MTEB (или ошибочные попытки найти векторные модели на Chatbot Arena) ведет к архитектурным ошибкам. Для систем корпоративного поиска (RAG) имеют значение только метрики подкатегорий Retrieval и Semantic Textual Similarity (STS). Для обработки русскоязычного документооборота необходимо ориентироваться исключительно на метрики локализованного бенчмарка ruMTEB.
Императив для Республики Беларусь: В условиях радикального ужесточения экспортного контроля США (включая январское правило ECCN 4E091 2025 года, контролирующее экспорт самих весов нейросетей), использование проприетарных API (OpenAI, Cohere, Voyage AI, Anthropic) для белорусских предприятий через прокси-серверы является технологической миной замедленного действия.

Рекомендация для Enterprise (наличие собственных серверов): Единственным технически надежным и юридически безупречным решением является локальное развертывание (On-Premise) открытых моделей из дружественных юрисдикций. Модель BGE-M3 от китайской академии BAAI предоставляет феноменальное качество на 100+ языках, поддержку прорывного гибридного поиска (комбинация семантики и ключевых слов) и защищена либеральной лицензией MIT. Для сугубо русскоязычных задач эталоном выступает открытая серия GigaEmbeddings (и производная ru-en-RoSBERTa) от Сбербанка.
Рекомендация для облачной интеграции: Если поддержание пула GPU-серверов экономически нецелесообразно (для запуска мощных моделей требуется VRAM от 12 до 24 ГБ), организациям следует перевести инфраструктуру на API-шлюзы Yandex Cloud или Сбербанка (GigaChat API), которые обеспечивают высочайшее нативное понимание русского языка и полную независимость от западных санкционных политик.

Источники

Vector embeddings | OpenAI API, дата последнего обращения: марта 3, 2026, https://developers.openai.com/api/docs/guides/embeddings/
Embedding space and static embeddings | Machine Learning — Google for Developers, дата последнего обращения: марта 3, 2026, https://developers.google.com/machine-learning/crash-course/embeddings/embedding-space
What are Embeddings in Machine Learning? — Amazon AWS, дата последнего обращения: марта 3, 2026, https://aws.amazon.com/what-is/embeddings-in-machine-learning/
Deciphering the Dimensions of Embeddings: A Journey into Semantic Spaces | by Anand, дата последнего обращения: марта 3, 2026, https://honnuanand.medium.com/deciphering-the-dimensions-of-embeddings-a-journey-into-semantic-spaces-ede0ec3b8b5c
5 Best Embedding Models for RAG: How to Choose the Right One — GreenNode, дата последнего обращения: марта 3, 2026, https://greennode.ai/blog/best-embedding-models-for-rag
jina-embeddings-v3 — Search Foundation Models, дата последнего обращения: марта 3, 2026, https://jina.ai/models/jina-embeddings-v3/
Best Open-Source Embedding Models Benchmarked and Ranked — Supermemory, дата последнего обращения: марта 3, 2026, https://supermemory.ai/blog/best-open-source-embedding-models-benchmarked-and-ranked/
jina-embeddings-v5-text-small — Search Foundation Models, дата последнего обращения: марта 3, 2026, https://jina.ai/models/jina-embeddings-v5-text-small/
Cohere’s Embed Models (Details and Application), дата последнего обращения: марта 3, 2026, https://docs.cohere.com/docs/cohere-embed
OpenAI Pricing in 2026 for Individuals, Orgs & Developers — Finout, дата последнего обращения: марта 3, 2026, https://www.finout.io/blog/openai-pricing-in-2026
voyage-3-large: the new state-of-the-art general-purpose embedding model, дата последнего обращения: марта 3, 2026, https://blog.voyageai.com/2025/01/07/voyage-3-large/
Announcing New Models and Expanded Availability — Voyage AI, дата последнего обращения: марта 3, 2026, https://blog.voyageai.com/2026/01/15/new-models-and-expanded-availability/
Different Embedding Models, Different Spaces: The Hidden Cost of Model Upgrades, дата последнего обращения: марта 3, 2026, https://garystafford.medium.com/different-embedding-models-different-spaces-the-hidden-cost-of-model-upgrades-899db24ad233
Top Embedding Models in 2025 — The Complete Guide — Artsmart.ai, дата последнего обращения: марта 3, 2026, https://artsmart.ai/blog/top-embedding-models-in-2025/
Top 5 Embedding Models for Your RAG Pipeline — KDnuggets, дата последнего обращения: марта 3, 2026, https://www.kdnuggets.com/top-5-embedding-models-for-your-rag-pipeline
Best Open-Source LLMs for RAG in 2026: 10 Models Ranked by Retrieval Accuracy, дата последнего обращения: марта 3, 2026, https://blog.premai.io/best-open-source-llms-for-rag-in-2026-10-models-ranked-by-retrieval-accuracy/
Text Embeddings — Introduction — Voyage AI, дата последнего обращения: марта 3, 2026, https://docs.voyageai.com/docs/embeddings
Embedding Models Compared: OpenAI vs Cohere vs Voyage vs Open Source, дата последнего обращения: марта 3, 2026, https://dataa.dev/2025/01/17/embedding-models-compared-openai-vs-cohere-vs-voyage-vs-open-source/
The Best Open-Source Embedding Models in 2026 — BentoML, дата последнего обращения: марта 3, 2026, https://www.bentoml.com/blog/a-guide-to-open-source-embedding-models
Snowflake/snowflake-arctic-embed-l-v2.0 — Hugging Face, дата последнего обращения: марта 3, 2026, https://huggingface.co/Snowflake/snowflake-arctic-embed-l-v2.0
Text Embeddings — Voyage AI by MongoDB, дата последнего обращения: марта 3, 2026, https://www.mongodb.com/docs/voyageai/models/text-embeddings/
An Overview of Cohere’s Models | Cohere, дата последнего обращения: марта 3, 2026, https://docs.cohere.com/docs/models#embed
BGE-M3 — BGE documentation, дата последнего обращения: марта 3, 2026, https://bge-model.com/bge/bge_m3.html
Embedding API — Jina AI, дата последнего обращения: марта 3, 2026, https://jina.ai/embeddings/
voyage-4 Embedding Model — AWS Marketplace, дата последнего обращения: марта 3, 2026, https://aws.amazon.com/marketplace/pp/prodview-oezpzvj5usjjk
BAAI/bge-m3 · [AUTOMATED] Model Memory Requirements — Hugging Face, дата последнего обращения: марта 3, 2026, https://huggingface.co/BAAI/bge-m3/discussions/64
jina-embeddings-v5-text-nano — Search Foundation Models, дата последнего обращения: марта 3, 2026, https://jina.ai/models/jina-embeddings-v5-text-nano/
Voyage AI: Explore the Latest Embedding Models & Rerankers — MongoDB, дата последнего обращения: марта 3, 2026, https://www.mongodb.com/products/platform/ai-search-and-retrieval/models
The guide to bge-m3 | BAAI — Zilliz, дата последнего обращения: марта 3, 2026, https://zilliz.com/ai-models/bge-m3
BAAI/bge-m3 — Hugging Face, дата последнего обращения: марта 3, 2026, https://huggingface.co/BAAI/bge-m3
Best LLM Leaderboards: A Comprehensive List — Nebuly, дата последнего обращения: марта 3, 2026, https://www.nebuly.com/blog/llm-leaderboards
Chatbot Arena + — OpenLM.ai, дата последнего обращения: марта 3, 2026, https://openlm.ai/chatbot-arena/
Arena Leaderboard — a Hugging Face Space by lmarena-ai, дата последнего обращения: марта 3, 2026, https://huggingface.co/spaces/lmarena-ai/arena-leaderboard
Predictive Human Preference: From Model Ranking to Model Routing — Chip Huyen, дата последнего обращения: марта 3, 2026, https://huyenchip.com/2024/02/28/predictive-human-preference.html
mteb (Massive Text Embedding Benchmark) — Hugging Face, дата последнего обращения: марта 3, 2026, https://huggingface.co/mteb
Top embedding models on the MTEB leaderboard — Modal, дата последнего обращения: марта 3, 2026, https://modal.com/blog/mteb-leaderboard-article
Best Embedding Models in 2026 — Tested & Ranked | Mixpeek, дата последнего обращения: марта 3, 2026, https://mixpeek.com/curated-lists/best-embedding-models
Snowflake’s Arctic Embed 2.0 Goes Multilingual, дата последнего обращения: марта 3, 2026, https://www.snowflake.com/en/engineering-blog/snowflake-arctic-embed-2-multilingual/
The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design — ACL Anthology, дата последнего обращения: марта 3, 2026, https://aclanthology.org/2025.naacl-long.12/
The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design — ResearchGate, дата последнего обращения: марта 3, 2026, https://www.researchgate.net/publication/383308300_The_Russian-focused_embedders’_exploration_ruMTEB_benchmark_and_Russian_embedding_model_design
The Russian-focused embedders’ exploration: ruMTEB benchmark and Russian embedding model design, дата последнего обращения: марта 3, 2026, https://cs.hse.ru/mirror/pubs/share/1098025281
New and improved embedding model — OpenAI, дата последнего обращения: марта 3, 2026, https://openai.com/index/new-and-improved-embedding-model/
New embedding models and API updates — OpenAI, дата последнего обращения: марта 3, 2026, https://openai.com/index/new-embedding-models-and-api-updates/
text-embedding-3-large Model | OpenAI API, дата последнего обращения: марта 3, 2026, https://developers.openai.com/api/docs/models/text-embedding-3-large
Release Notes — Cohere Documentation, дата последнего обращения: марта 3, 2026, https://docs.cohere.com/changelog
Cohere AI pricing in 2025: A complete guide to real costs — eesel AI, дата последнего обращения: марта 3, 2026, https://www.eesel.ai/blog/cohere-ai-pricing
Cohere API Pricing 2026: Command R+, Rerank & Embed Costs | MetaCTO, дата последнего обращения: марта 3, 2026, https://www.metacto.com/blogs/cohere-pricing-explained-a-deep-dive-into-integration-development-costs
Cohere Embed v3 Multilingual — AI Model Catalog | Microsoft Foundry Models, дата последнего обращения: марта 3, 2026, https://ai.azure.com/catalog/models/Cohere-embed-v3-multilingual
Embeddings — Claude API Docs, дата последнего обращения: марта 3, 2026, https://platform.claude.com/docs/en/build-with-claude/embeddings
Voyage AI — AWS Marketplace, дата последнего обращения: марта 3, 2026, https://aws.amazon.com/marketplace/seller-profile?id=seller-snt4gb6fd7ljg
Pricing — Introduction — Voyage AI, дата последнего обращения: марта 3, 2026, https://docs.voyageai.com/docs/pricing
voyage-4-large Embedding Model — Microsoft Marketplace, дата последнего обращения: марта 3, 2026, https://marketplace.microsoft.com/en-us/product/saas/mongodb.voyage-4-large?tab=overview
AI News — 7/29/25 — DEV Community, дата последнего обращения: марта 3, 2026, https://dev.to/code_performance/deep-dive-reports-on-leading-topics-in-ai-and-digital-modernity-pdo
Text vectorization models | Yandex Cloud — Documentation, дата последнего обращения: марта 3, 2026, https://yandex.cloud/en/docs/ai-studio/concepts/embeddings
Yandex AI Studio pricing policy, дата последнего обращения: марта 3, 2026, https://yandex.cloud/en/docs/ai-studio/pricing
bge-m3 — Ollama, дата последнего обращения: марта 3, 2026, https://ollama.com/library/bge-m3
Add support for embedding models served through an OpenAI API · Issue #1240 · jupyterlab/jupyter-ai — GitHub, дата последнего обращения: марта 3, 2026, https://github.com/jupyterlab/jupyter-ai/issues/1240
Why You Should Use Local Models. When building Gen AI applications, it’s… | by Rod Johnson | Medium, дата последнего обращения: марта 3, 2026, https://medium.com/@springrod/why-you-should-use-local-models-a3fce1124c94
bge-m3 Model by BAAI — NVIDIA NIM APIs, дата последнего обращения: марта 3, 2026, https://build.nvidia.com/baai/bge-m3/modelcard
FlagOpen/FlagEmbedding: Retrieval and Retrieval-augmented LLMs — GitHub, дата последнего обращения: марта 3, 2026, https://github.com/FlagOpen/FlagEmbedding
What it is and how to install and run locally the LLM AI: bge-m3 — Makiai, дата последнего обращения: марта 3, 2026, https://makiai.com/en/what-it-is-and-how-to-install-and-run-locally-the-llm-ai-bge-m3/
BAAI/bge-m3 · OOMS on 8 GB GPU, is it normal? — Hugging Face, дата последнего обращения: марта 3, 2026, https://huggingface.co/BAAI/bge-m3/discussions/2
Elastic Acquires Jina AI — Tracxn, дата последнего обращения: марта 3, 2026, https://tracxn.com/d/insights/merger-acquisition-deals-brief/elastic-acquires-jina-ai/__x1s7FY04Kt8nAC7kewegU8qI02JT0dJvlPaZHuOeviY
llms.txt — Jina AI, дата последнего обращения: марта 3, 2026, https://jina.ai/models/llms.txt
jinaai/jina-embeddings-v5-text-small — Hugging Face, дата последнего обращения: марта 3, 2026, https://huggingface.co/jinaai/jina-embeddings-v5-text-small
jinaai/jina-embeddings-v5-text-nano — Hugging Face, дата последнего обращения: марта 3, 2026, https://huggingface.co/jinaai/jina-embeddings-v5-text-nano
10 Best Embedding Models 2026: Complete Comparison Guide — Openxcell, дата последнего обращения: марта 3, 2026, https://www.openxcell.com/blog/best-embedding-models/
Europe’s largest open-source release: Sber releases a line of cutting-edge Russian neural networks, дата последнего обращения: марта 3, 2026, https://www.sberbank.ru/en/press_center/all/article?newsID=b02ebb18-ab0c-4920-8707-109a1eff8521&blockID=1539®ionID=77&lang=en&type=NEWS
Sber releases two proprietary AI models to public domain, дата последнего обращения: марта 3, 2026, https://www.sberbank.ru/en/press_center/all/article?newsID=19dc908d-49af-4e37-9a77-e5405b460715&blockID=1539®ionID=77&lang=en&type=NEWS
GigaEmbeddings — Efficient Russian Language Embedding Model — arXiv, дата последнего обращения: марта 3, 2026, https://arxiv.org/html/2510.22369v1
2025 Investment Climate Statements: Belarus — State.gov, дата последнего обращения: марта 3, 2026, https://www.state.gov/reports/2025-investment-climate-statements/belarus
BIS Hits Russia and Belarus with Sweeping New Export Control Restrictions, дата последнего обращения: марта 3, 2026, https://www.globaltradeandsanctionslaw.com/bis-hits-russia-and-belarus-with-sweeping-new-export-control-restrictions/
BIS Announces Worldwide Export Controls on Advanced Chips and AI Models, дата последнего обращения: марта 3, 2026, https://www.stblaw.com/about-us/publications/view/2025/01/15/bis-announces-worldwide-export-controls-on-advanced-chips-and-ai-models
BIS Issues Long Awaited Export Controls on AI — WilmerHale, дата последнего обращения: марта 3, 2026, https://www.wilmerhale.com/en/insights/publications/20250205-bis-issues-long-awaited-export-controls-on-ai
Biden Administration Issues More Restrictions on Advanced Chips and AI Models, дата последнего обращения: марта 3, 2026, https://www.omm.com/insights/alerts-publications/biden-administration-issues-more-restrictions-on-advanced-chips-and-ai-models/
Anthropic Blacklisted, OpenAI Welcomed: Inside the Pentagon’s AI Pivot — eWeek, дата последнего обращения: марта 3, 2026, https://www.eweek.com/news/anthropic-banned-openai-pentagon-ai-showdown-neuron/
Trump Escalates AI Clash With Anthropic — GovInfoSecurity, дата последнего обращения: марта 3, 2026, https://www.govinfosecurity.com/trump-escalates-ai-clash-anthropic-a-30884
Updating restrictions of sales to unsupported regions — Anthropic, дата последнего обращения: марта 3, 2026, https://www.anthropic.com/news/updating-restrictions-of-sales-to-unsupported-regions
Belarus Banned? what’s going on, can someone explain? — OpenAI Developer Community, дата последнего обращения: марта 3, 2026, https://community.openai.com/t/belarus-banned-whats-going-on-can-someone-explain/225441

Russia and Belarus to Develop AI Rooted in ‘Traditional Values’ — The Moscow Times, дата последнего обращения: марта 3, 2026, https://www.themoscowtimes.com/2025/07/11/russia-and-belarus-to-develop-ai-rooted-in-traditional-values-a89790