CogView:基于 Transformer 的文本生成图像模型
CogView 是一款拥有 40 亿参数的开源预训练转换器,旨在将通用领域的文字描述精准转化为高质量图像。
该模型基于 SwissArmyTransformer (v0.2) 库实现。在版本迭代中,最新的 CogView 已扩展至支持英文输入,但在实际操作中,将提示词翻译为 中文 通常能获得更出色的生成效果。
使用注意事项
- 语言选择: 虽然支持英文,但建议优先尝试中文指令以提升图像质量。
- 生成随机性: 受限于 AI 模型的特性,部分复杂场景可能会出现图像畸变或不符合预期的结果(即“翻车”现象),建议多次尝试不同描述词。
资源链接
CogView 在线体验 / 模型地址: https://models.aminer.cn/CogView/
正文完
