Статьи
Недавно я публиковал новость о том, что стартап Advanced Machine Intelligence Labs под руководством Яна ЛеКуна привлёк 1,03 миллиарда долларов посевных инвестиций. Он планирует развивать радикально иной подход к искусственному интеллекту, и в сегодняшней статье я хочу подробнее рассказать, в чем заключается суть этого подхода.
Итак, что на сегодняшний день умеют ChatGPT, Gemini или Grok? Они могут написать симфонию, сдать экзамен на адвоката и создать код для сложного сайта за секунды. Кажется, что искусственный интеллект уже всемогущ. Но если вы попросите нейросеть управлять роботизированной рукой, чтобы пожарить яичницу, она, скорее всего, раздавит яйцо, сожжет сковородку и устроит пожар.
Почему? Потому что современные языковые модели (LLM) гениально жонглируют словами, но абсолютно не понимают, как устроен физический мир. Они не знают, что стекло бьется, вода течет вниз, а если положить предмет в коробку, он никуда не исчезнет.
Чтобы решить эту проблему и создать настоящий сильный ИИ (AGI), ученые обратились к совершенно новому классу архитектур. Знакомьтесь: World Models (Модели Мира).
Архитектура на которой работают ChatGPT, Claude, Gemini основана на авторегрессии — предсказании следующего токена (слова или пикселя) на основе огромной базы статистики. Например, если нейросеть пишет: «Уронил стакан на пол, и он…», то она дописывает «разбился», потому что в обучающих ее текстах эти слова часто стоят рядом. Однако нейронка не понимает гравитации. Она не видит осколков. Она просто статистический попугай с гигантской памятью.
Из-за этого LLM страдают галлюцинациями. Они не умеют логически планировать на 10 шагов вперед и не обладают «здравым смыслом». Чтобы ИИ перестал быть просто генератором текста и смог управлять роботами, машинами и сложными процессами, ему нужна внутренняя симуляция реальности.
Термин «World Model» был популяризирован Дэвидом Ха и Юргеном Шмидхубером в 2018 году, а сегодня главным евангелистом этого подхода является Ян ЛеКун (вице-президент и главный ИИ-ученый в команде Цукерберга).
World Model — это архитектура ИИ, которая строит внутреннее представление об окружающей среде, чтобы понимать причинно-следственные связи и предсказывать будущее.
Как это работает у людей? Представьте, что вы едете на велосипеде и видите впереди яму. Ваш мозг мгновенно прокручивает симуляцию: «Если я поеду прямо — колесо попадет в яму, я упаду и разобью колено. Если я поверну руль влево — я объеду яму и сохраню равновесие». Вы еще ничего не сделали, но ваш мозг уже «сгенерировал» будущее в безопасной внутренней песочнице.
World Models пытаются дать нейросетям точно такую же «песочницу» в их цифровых мозгах.
В отличие от LLM, которые просто переводят текст в текст, классическая Модель Мира состоит из трех главных компонентов:
Главный прорыв подхода Яна ЛеКуна заключается в том, что ИИ предсказывает будущее не попиксельно (что требует гигантских вычислительных мощностей), а концептуально. Модель учится игнорировать неважное (как колышется трава) и концентрироваться на физике (куда летит мяч).
Мы находимся на самом пороге внедрения этих технологий, но результаты уже поражают:
Текстовые данные в интернете заканчиваются. По оценкам ученых, LLM скоро прочитают все существующие книги и статьи. Но наши дети не учатся по Википедии. Они учатся, бросая игрушки на пол, трогая горячее, падая и наблюдая за физикой.
World Models позволяют ИИ обучаться так же: через наблюдение за видео (миллионы часов на YouTube) и через взаимодействие со средой.
Переход от LLM к World Models — это эволюционный скачок. Мы переходим от ИИ, который умеет «красиво говорить», к ИИ, который умеет «понимать, планировать и действовать». И именно этот класс архитектур, скорее всего, подарит нам надежных домашних роботов, полностью автономные автомобили и научные открытия, о которых мы сегодня даже не можем мечтать.