LLMs+: Десять важных тенденций в мире искусственного интеллекта

Появление экспериментального прототипа ChatGPT в конце 2022 года ознаменовало новую эру в развитии искусственного интеллекта. Чат-бот OpenAI быстро стал незаменимым инструментом для сотен миллионов пользователей, а технологии больших языковых моделей (LLM) захватили внимание всей технологической индустрии. Компании активно взялись за разработку собственных аналогов, но уже сейчас возникает вопрос: что дальше? Эксперты сходятся во мнении, что будущее за более совершенными и эффективными LLM, которые можно назвать LLM+.

Решение сложных задач и повышение эффективности

Основная задача для нового поколения LLM — научить их самостоятельно справляться со сложными, многоступенчатыми проблемами, решение которых у человека может занять дни или недели. Для того чтобы эти системы могли решать самые трудные вызовы, как заявляют ведущие лаборатории, им необходимо функционировать автономно в течение длительного времени.

Для достижения этих целей ключевым аспектом является повышение эффективности и снижение стоимости эксплуатации LLM. В этом направлении уже достигнуты значительные успехи. Один из подходов — "смесь экспертов" (mixture-of-experts). Он предполагает разделение большой языковой модели на более мелкие компоненты, каждый из которых специализируется на определенном типе задач. Таким образом, в каждый момент времени активны только те части модели, которые необходимы для выполнения текущей задачи.

Другой способ повысить эффективность LLM — отойти от архитектуры трансформеров, на которой основано большинство современных моделей, в пользу диффузионных моделей. Последние обычно используются для генерации изображений и видео, но могут найти применение и здесь. Существуют и более экспериментальные методы: так, в прошлом году китайская ИИ-компания DeepSeek продемонстрировала способ кодирования текста в изображениях, что позволило значительно сократить вычислительные затраты.

Расширение контекста и надежность

Важным направлением прогресса также является улучшение "окна контекста" LLM — объема текста или видео, который модель может обрабатывать за один раз, что эквивалентно её оперативной памяти. Еще несколько лет назад LLM могли обрабатывать несколько тысяч токенов (отдельных слов или их частей), что соответствовало нескольким десяткам страниц текста. Современные модели способны работать с контекстом объемом до миллиона токенов, что сравнимо с целой стопкой книг. Однако с увеличением окна контекста и усложнением задачи возрастает вероятность, что модель отклонится от цели или забудет часть информации.

И здесь также наблюдаются прорывные решения. Недавняя работа исследователей из MIT CSAIL представила концепцию рекурсивных LLM. Вместо обработки огромного окна контекста целиком, эти модели разбивают входные данные на фрагменты и отправляют каждый фрагмент копии самой себя. Эта копия, в свою очередь, может далее делить фрагменты и передавать результаты другим копиям. Множество LLM, обрабатывающих небольшие части информации, демонстрируют значительно большую надежность при решении длительных и сложных задач, формируя совершенно новый тип большой языковой модели.

Дополнительные направления развития и ключевые события

  • Компания OpenAI активно работает над созданием полностью автоматизированного исследователя, о чем сообщил главный научный сотрудник Якуб Пахоцкий.
  • Проект, связанный с игрой Pokémon Go, способствует улучшению систем навигации для роботов-доставщиков. Отдельное подразделение Niantic тренирует новую модель мира, используя миллиарды изображений городских объектов, собранных от игроков.
  • Согласно индексу ИИ 2026 года от Стэнфордского университета, темпы развития искусственного интеллекта настолько стремительны, что человечество с трудом успевает за ними.
  • Стартап Axiom Math разрабатывает мощный инструмент на основе ИИ, призванный изменить подход к математическим исследованиям, предлагая его бесплатно.

Понравилась запись? Поделись с друзьями и поддержи сайт: