跳到主要内容

文生图

1. 什么是文生图任务?

文生图(Text-to-Image Generation)是通过大模型推理,根据输入的文本提示(Prompt)生成符合描述的图像内容的一种任务。此任务结合了自然语言处理与计算机视觉技术,广泛应用于创意设计、广告制作、游戏开发等多个场景。

2. 典型应用场景

  • 创意设计:根据描述生成独特的图像,如插画、艺术作品、海报等。
  • 广告制作:快速生成符合品牌特征的营销图像,提升设计效率。
  • 产品原型:辅助工业设计,生成产品样式或概念图。
  • 娱乐内容:生成动画角色或场景设计,支持影视和游戏制作。
  • 教育与科研:创建可视化图像内容以辅助教学或论文研究。

3. 影响生成效果的关键因素

img

模型选择

不同模型在生成图像的细腻程度、风格一致性等方面有所差异,应根据实际需求选择合适的生成模型。

参数调整

以下是影响文生图效果的关键参数:

高度(Height)与宽度(Width)

  • 图像的尺寸大小,分别以像素为单位定义图像的高度和宽度。
  • 应用场景:应用在不同场景中时可以自定义图像比例,例如适配移动端(竖图)或网页横幅(横图)设计。
  • 注意:过高的分辨率可能增加生成时间与资源消耗。

推理步数(Num. Inference Steps)

  • 决定生成图像时模型逐步优化的次数。更多的推理步数通常会提高图像的质量,但同时会增加生成时间。
  • 应用场景:在追求高质量图像时可使用较高的步数,而快速生成草图时使用较低的步数。

指导系数(Guidance Scale)

  • 控制模型生成结果对输入文本提示(Prompt)的依赖程度。
    • 较高的指导系数让生成结果更贴近文本描述,但可能牺牲创意和细节变化。
    • 较低的指导系数更具创造性,但可能偏离预期的描述。
  • 应用场景:生成高度精准的场景时可使用较高的指导系数,而生成更具发散性的创意内容时可适当降低。

负面提示(Negative Prompt)

  • 用于限制模型生成某些不希望出现的元素。例如,在生成人物图像时可以用负面提示去除“模糊”或“失真”的特性。
  • 应用场景:当需要避免特定细节或不符合需求的元素出现时,合理设置负面提示可以提升生成结果的准确性。

随机种子(Seed)

  • 控制生成过程中的随机性。当设置相同种子时,输入相同 Prompt 会生成一致的输出内容;不同种子则会产生多样化结果。
  • 应用场景:在调整参数时希望复现某个特定图像时,可以固定随机种子;生成多样化的图像时可随机调整种子值。

4. 代码示例

import requests
import requests
import json
import re
url = "https://xxxxxxxxxxxx.space.opencsg-stg.com" #endpoint url
headers = {
'Content-Type': 'application/json'
}
data = {
"inputs": "your image messages",
"parameters": {}
}
response = requests.post(url=url, json=data, headers=headers, stream=True)
response.raise_for_status()