Месяц открытого исходного кода VAST | TripoSG и TripoSF — новый SOTA в 3D-генерации

В марте 2024 года VAST и Stability AI совместно выпустили в открытый исходный код крупномасштабную 3D-модель TripoSR. Благодаря своей революционной способности генерировать 3D-модель из одного изображения всего за 0,5 секунды, она быстро стала незаменимым инструментом для 3D-создателей по всему миру.
В том же году проекты с открытым исходным кодом продолжали расширять границы индустрии ИИ, стимулируя быстрый рост как в академических исследованиях, так и в коммерческих приложениях.
VAST продолжила развивать свою серию Tripo, выпустив Tripo 2.0 в сентябре 2024 года и Tripo 2.5 в январе 2025 года. Обученные на десятках миллионов высококачественных нативных 3D-активов, эти итерации последовательно устанавливали новые стандарты в скорости генерации, точности моделей и общей успешности — каждая с необычайной геометрической точностью, которая переопределила границы создания 3D-моделей.
В нашем глобальном стремлении к технологическому прогрессу мы понимаем, что прорывные инновации в базовых архитектурах и прорывы в возможностях моделей необходимы для команд, занимающихся фундаментальными моделями. Хотя мы постоянно совершенствуем Tripo до все более "идеального решения" в закрытой среде, мы считаем, что еще важнее превратиться в "фундаментальный строительный блок" в экосистеме открытого исходного кода. Открытая техническая экосистема имеет гораздо большую долгосрочную ценность, чем закрытая система.
С учетом этого, в марте 2025 года мы запустили нашу инициативу "Месяц открытого исходного кода".
Мы планируем последовательно выпустить в открытый исходный код восемь крупных проектов, охватывающих всю техническую цепочку — от базовых генеративных моделей и основных функциональных компонентов до исследований инновационных идей. Наша цель — создать первую в мире сквозную систему генерации 3D-объектов с открытым исходным кодом, и мы искренне надеемся, что исследователи и разработчики в области 3D-генерации найдут нашу работу вдохновляющей и ценной.

Сейчас VAST выпускает две фундаментальные 3D-модели генерации:

TripoSG и TripoSF.


Значительное обновление TripoSG: первая архитектура MoE Transformer в 3D-генерации

TripoSG — это фундаментальная 3D-модель генерации, построенная на архитектуре MoE Transformer на основе Rectified Flow (RF). В этом релизе мы открываем веса и код инференса для модели TripoSG с 1,5 миллиардами параметров, которую вы можете попробовать с помощью интерактивной демонстрации на HuggingFace.
Тесты показали, что качество выходных данных TripoSG сопоставимо с Tripo 2.0 — превосходя все существующие проекты 3D-генерации с открытым исходным кодом. Его выдающиеся преимущества включают превосходную обобщающую способность и высокую стабильность при генерации сложных составных объектов.

Соблюдение Закона масштабирования, использование более качественных данных и более крупных моделей остаются ключевыми факторами успеха TripoSG. Вот четыре ключевых нововведения в области эффективного обучения, архитектурного проектирования и управления данными:

1. Пионерское использование RF-Based Transformer для генерации 3D-форм

С самого начала разработки Tripo 2.0 мы обнаружили, что по сравнению с традиционными диффузионными моделями Rectified Flow предлагает более простой линейный путь между шумом и данными. Это приводит к более стабильному и эффективному обучению, а в сочетании с DiT значительно повышает стабильность модели.

2. Представление первого MoE Transformer в 3D для лучшего масштабирования

Хотя MoE Transformers использовались в языковых, графических и видеомоделях, TripoSG отмечает первое эффективное применение в 3D-области. Этот подход значительно увеличивает емкость параметров модели — особенно в более глубоких, более критичных слоях — без значительного увеличения стоимости инференса. Кроме того, построенный на фреймворке Transformer, TripoSG включает ключевые улучшения, такие как skip-connections для улучшения слияния признаков между слоями. Независимый механизм кросс-внимания также эффективно вводит глобальные (CLIP) и локальные (DINOv2) признаки изображения, обеспечивая точное выравнивание между входными 2D-изображениями и сгенерированными 3D-формами.

3. Улучшение геометрического представления с помощью высококачественного VAE и инновационного геометрического надзора

Мы постоянно стремились к лучшим геометрическим представлениям. В TripoSG мы приняли VAE, который использует Signed Distance Functions (SDFs) для геометрического кодирования, что обеспечивает более высокую точность, чем ранее популярные сетки занятости. Более того, архитектура VAE на основе Transformer исключительно хорошо обобщает по разрешениям, обрабатывая входные данные высокого разрешения без необходимости переобучения.

4. Акцент на управление данными с помощью комплексного конвейера построения данных

Качество и количество данных имеют решающее значение. VAST обладает крупнейшей в мире коллекцией высококачественных нативных 3D-данных и разработала сквозной конвейер управления данными для сообщества с открытым исходным кодом.
Процесс включает: Оценка качества → Фильтрация данных → Исправление и увеличение → Производство SDF

Используя этот конвейер, мы создали набор данных из 2 миллионов высококачественных обучающих пар "изображение-SDF". Абляционные исследования ясно демонстрируют, что модели, обученные на этом уточненном наборе данных, значительно превосходят те, которые обучены на более крупных, неотфильтрованных исходных наборах данных.

TripoSF открывает генерацию внутренней 3D-структуры: прорывной токенизатор достигает нового SOTA в 3D-генерации

TripoSF — это фундаментальная 3D-модель, разработанная VAST на основе нового 3D-представления под названием SparseFlex.
Тестирование показывает, что ее результаты превосходят все существующие работы с открытым и закрытым исходным кодом. Мы открываем предварительно обученную модель VAE и соответствующий код инференса для TripoSF, а полная, "всеохватывающая" версия будет представлена в Tripo 3.0.

TripoSF переопределяет "верхний предел качества модели". Впервые модель может генерировать не только "заднюю часть" объекта, но и его "внутреннюю структуру" (как видно на примерах сидений автобуса и кабины водителя).

Кроме того, в то время как предыдущие работы имели тенденцию генерировать одежду или лепестки со слишком толстой геометрией, TripoSF с исключительной тонкостью обрабатывает объекты с открытыми поверхностями.

Его богатая детализация в других категориях моделей беспрецедентна.

Основная цель разработки TripoSF заключалась в преодолении традиционных узких мест в 3D-моделировании, связанных с детализацией, сложными структурами и масштабируемостью. Прошлые методы часто страдали от потери деталей во время предварительной обработки, неадекватного выражения сложных геометрий или непомерных затрат памяти и вычислений при высоких разрешениях. Наш поиск токенизатора, который может расширить пределы 3D-генерации, привел к разработке SparseFlex — значительному шагу вперед.
SparseFlex использует сильные стороны Flexicubes, которые могут дифференцируемо извлекать сетки с острыми гранями, одновременно инновационно вводя разреженную воксельную структуру, которая хранит и вычисляет информацию о вокселях только вблизи поверхностей объектов. Преимущества значительны:

  • Значительное снижение потребления памяти: Позволяет TripoSF обучать и выполнять инференс при высоком разрешении 1024³.
  • Нативная поддержка произвольных топологий: Опуская воксели в пустых областях, он естественным образом представляет открытые поверхности (такие как ткани и листья), эффективно захватывая внутренние структуры.
  • Прямая оптимизация через потерю рендеринга: SparseFlex дифференцируем, что позволяет TripoSF использовать потерю рендеринга для сквозного обучения и избегать ухудшения деталей, вызванного преобразованием данных (например, корректировки водонепроницаемости).

Экспериментальные результаты показывают, что TripoSF устанавливает новый уровень качества. По нескольким стандартным бенчмаркам TripoSF добился примерно 82% сокращения расстояния Хаусдорфа (Chamfer Distance) и 88% улучшения F-score по сравнению с предыдущими методами.

Ресурсы

【TripoSG 】

【 TripoSF 】

Дальнейшие обновления и улучшения наших проектов с открытым исходным кодом будут оперативно публиковаться на официальных страницах VAST AI Research в GitHub, HuggingFace и X (ранее Twitter):

В дополнение к этим проектам с открытым исходным кодом, инструменты, доступные на Tripo Web и наш экономичный API, предлагают беспрепятственный доступ к новейшим модельным сервисам, предоставляемым VAST.
По любым техническим или академическим предложениям и вопросам сотрудничества, пожалуйста, обращайтесь к нам по адресу research@vastai3d.com.
Сканер не может запечатлеть каждую трещину на обратной стороне Луны, но в глуши всегда найдутся те, кто трудится в шахтах. Звук кирок, ударяющих о землю, непрерывно разносится, пока однажды все это не сольется воедино — громкое свидетельство того, что открытый исходный код подобен кирке, ударяющей о землю, ведь на обратной стороне Луны, где нет карты, всегда есть что открывать.

Узнать больше


Advancing 3D generation to new heights

moving at the speed of creativity, achieving the depths of imagination.

Создавайте что угодно в 3D
Текст и изображения в 3D-моделиТекст и изображения в 3D-модели
Бесплатные кредиты ежемесячноБесплатные кредиты ежемесячно
Максимальная детализацияМаксимальная детализация