Наступним великим проривом у ШІ стануть зображення, а не слова, — дослідження
Sora та подібні відеомоделі, як-от Veo 3 від Google здатні розв’язувати широкий спектр візуальних і просторових завдань без будь-якого спеціального навчання.

Про це йдеться у дослідженні Google DeepMind, пише The Economist.
Відеомоделі працюють, починаючи з випадково згенерованого візуального шуму, який поступово «очищується» — тобто хаос упорядковується. На кожному етапі модель запитує себе: «Що зробить це зображення більш схожим на той запит, який я отримала?» Якщо запит описує контент, яким можна поділитися, модель створить саме його. Якщо ж запит стосується візуального завдання — наприклад, редагування зображень чи розв’язання реальних просторових задач — виявляється, що новітнє покоління відеомоделей здатне впоратися і з цим.
Якщо дати моделі зображення папуги на дереві та запит «створи відео, де всі кольори й деталі поступово зникають, залишаючи лише контури», — вона слухняно виконає завдання, успішно здійснивши виявлення контурів — процес, який раніше вимагав спеціалізованих систем. Якщо ж надати незавершену судоку та запит на відео, де головоломка розв’язується — і вона це зробить. А фото роботизованих рук, що тримають банку, може бути розширене до повного відео з рухами, потрібними для того, щоб її відкрити.
Широкий спектр завдань, які можуть виконувати такі моделі, дозволяє дослідникам назвати їх «zero-shot reasoners» — тобто системами, здатними до міркування без попереднього навчання. «Zero-shot» — бо моделі розв’язують задачі, яких раніше не бачили і для яких не були спеціально натреновані. «Reasoners» — бо іноді вони демонструють здатність до так званого «візуального міркування через ланцюг кадрів», розв’язуючи задачі типу «знайди вихід з лабіринту» крок за кроком.
Обнадійливо, що нові системи, як зазначається у дослідженні, значно перевершують моделі попереднього покоління у розв'язанні узагальнених задач. Автори припускають, що відеомоделі незабаром стануть «універсальними базовими моделями для візуальних завдань», здатними вирішувати будь-які візуальні виклики без спеціального навчання.
«Це смілива заява, але вона має історичний відгомін: у 2022 році команда дослідників з Google та Токійського університету опублікувала статтю, в якій зазначила, що «великі мовні моделі — це zero-shot reasoners», і що на той момент у сфері LLM залишалося багато невивчених і недооцінених фундаментальних можливостей.
Через пів року з’явився ChatGPT — і почався бум ШІ. Є надія, що відеомоделі дозріють у подібній хвилі захоплення — і що «шумова» фаза Sora виявиться лише цікавим епізодом у їхньому розвитку, а не суттю справи», — підсумовує The Economist.