State of AI: Откуда мы пришли, кто мы и куда мы идём?

Уже два года мы живём в эпоху больших языковых моделей (large language models, LLM). За пределы академического сообщества эти новости вышли после появления ChatGPT от OpenAI, а затем появилось много разных моделей, либо созданных на основе ChatGPT, либо продолжающих и развивающих её идеи. Например, главные новости последних месяцев — это большие рассуждающие модели (large reasoning models, LRM), сначала появившиеся у OpenAI в виде семейства o1, а затем внедрённые практически во все ведущие LLM, в том числе [полу]открытые. Начиная с весны 2023 года, буквально каждую неделю появляются новости, которые раньше считались бы революционными, и скорость прогресса никак не хочет уменьшаться.

В первой части я постараюсь рассказать о том, как искусственный интеллект дошёл до такой жизни. Мы поговорим о том, что такое нейросети в целом, как произошла сначала революция глубокого обучения, потом внутри неё революция трансформеров, а потом, внутри неё, — революция больших языковых моделей. Обсудим самые последние новости и сформулируем несколько направлений, которые прямо сейчас являются предметом активных исследований. DeepSeek-R1 тоже обсудим, разумеется. Кое-какие технические детали, возможно, рассказать будет уместно, но я постараюсь сделать рассказ максимально доступным для непрофессионалов.