Перейти до основного вмісту

🖼️ Написання запитів для створення зображень

Інженерія запитів для перетворення тексту в зображення у таких моделях, як DALLE і Stable Diffusion!

📄️ 🟢 Вступ

Написати якомога кращий запит для створення ідеального зображення – є насправді складним завданням. На відміну від запитів, які зосереджені на створенні тексту, методи написання запитів для генерування зображень все ще не достатньо вивчені та сформовані. Причиною цього можуть бути постійні труднощі під час створення об’єктів, які є переважно суб’єктивними та часто не мають критеріїв, за якими їх можна було б оцінити. Однак не лякайтеся, оскільки спільнота, яка займається написанням запитів для створення зображень, (@parsons2022dalleprompt) провела кілька експериментів, у яких дослідила, як правильно робити запити в певних моделях, щоб отримати гарний результат (@rombach2021highresolution) (@ramesh2022hierarchical).

📄️ 🟢 Модифікатори стилю

Модифікатори стилю — це звичайні дескриптори, які послідовно створюють певні стилі (наприклад, «червоного кольору», «зроблено зі скла», «зарендерено на платформі Unity») (@oppenlaender2022taxonomy). Їх можна комбінувати, щоб створювати точніші стилі. Вони можуть «містити інформацію про періоди мистецтва, школи та стилі, а також художні матеріали, форми, техніки та художників» (@oppenlaender2022taxonomy).

📄️ 🟢 Підсилювачі якості

Підсилювачі якості (@oppenlaender2022taxonomy) – це слова, які додають до запиту для покращення певних властивостей згенерованого зображення, що не залежать від конкретного стилю. Наприклад, «чудовий», «красивий» і «хорошої якості» – це підсилювачі якості, які можна використовувати для покращення якості створеного зображення.

📄️ 🟢 Терміни із заданою значущістю

Деякі моделі (Stable Diffusion, Midjourney тощо) дозволяють задавати значущість терміну в запиті. Це можна використовувати для акценту на певних словах або фразах в отриманому зображенні. Його також можна використовувати, щоб зменшити акцент на певних словах або фразах в отриманому зображенні. Розглянемо простий приклад:

📄️ 🟢 Виправлення деформацій у зображеннях

У деформованих зображеннях, особливо вигляд частин людського тіла, наприклад, рук, ніг є типовою проблемою багатьох моделей. З цим можна впоратися певною мірою за допомогою гарно написаних негативних запитів (@blake2022with). Наступний приклад взято з цієї публікації на сайті Reddit.

📄️ 🟢 Midjourney

Midjourney – це генератор зображень на основі ШІ, який працює через інтерфейс бота в Discord або вебдодаток (планується також API-версія Midjourney). Процес створення зображень, використовуючи Midjourney, відбувається за тими самими основними принципами, що й лежать в основі інших генераторів ШІ, включно з написанням запитів для керування процесом створення.