Open API 开发者文档
概览
复制页面
Open API 开发者文档
默认模块
API文档
图像接口(jimeng)
即梦 4.0
生成图片
即梦 3.1
创建图像(jimeng)
即梦 2.1
创建图像(jimeng)
Fal.ai
upscale 视频
elevenlabs 语音
pixverse 视频
flux 图片
kling 视频
veo3 视频
seedance 即梦视频
hunyuan 视频
vidu 视频
Vidu 视频生成 (通用入口)
获取视频生成任务状态
获取视频生成任务结果
pika 视频
luma 视频
minimax 海螺视频
minimax 语音克隆
ideogram 图片
recraft 图片
获取任务状态
获取任务结果
WAN 2.5 视频
创建 text-to-video 视频任务
创建 image-to-video 视频任务
视频接口(Doubao-Seedance)
创建即梦视频任务
获取即梦视频任务详情
快速开发指南
产品更新动态
发出请求
常见问题汇总
如何获取调用密钥KEY
如何用代码调用
用量及历史调用查询
PPT API 文档
文多多(官方格式)
PPT 接口调用说明
创建接口token
分页查询 PPT 模板
更换PPT模板
修改大纲
解析文件内容
生成大纲
生成大纲内容
随机获取PPT模板
生成PPT
获取PPT列表
加载PPT数据
下载PPT
更新PPT属性
保存PPT
删除PPT
查询异步生成 PPT 信息
JSON转PPT
PPT转JSON
韦尼克(官方格式)
申请PPT生成任务(PPT描述/主题一键生成)
通过描述生成PPT标题大纲(逐步生成PPT)
根据标题生成封面预览图(模版封面图预览)
根据标题以及封面预览信息生成不同主题色的预览(设置主题色)
通过task_id增加PPT单页(PPT中插入单页)
短文本文件生成PPT(文件内容解析)
基于当前模板生成(基于当前模版生成)
获取PPT生成状态和预览页(文件内容解析)
获取PPT生成状态和预览页(文件内容解析)
更换模版(更换模版)
通过文件生成PPT(文件内容解析)
申请PPT生成任务(逐步生成PPT)
获取PPT生成状态和预览页(逐步生成PPT)
获取PPT生成状态和预览页(PPT描述/主题一键生成)
生成PPT备注(演讲稿备注)
获取PPT下载链接(获取下载链接)
聊天接口(Chat)
图像
创建聊天补全(SeedEdit)
gpt-4o编辑或扩展图像
聊天接口
gpts
gemini-pro
gpt-4-all(分析图片)
gpt-4-vision-preview
kling可灵视频图片接口
建议直接看官方文档
建议直接看官方文档
图像v2(包含v1模型&兼容更多参数&同步接口)
虚拟换衣 v2
虚拟换衣
获取虚拟换衣任务
文生图
图生图
文生视频
图生视频
获取图片生成任务
获取文生视频任务
获取图生视频任务
图像接口(Images)
生成图片
gpt-4-all(生成图片)
创建图像(gpt-image-1和 gpt-4o-image)
向量生成接口(Embeddings)
创建嵌入
音频接口(Audio)
创建转录
创建翻译
TTS文本转语音
图像接口(Recraft V3)
创建图像(Recraftv3)
Suno音乐接口
GoAmzAI格式
v3.5
生成音乐
获取音乐
v3.0
生成音乐
获取音乐
官网原生格式(v2)
官网格式
所有接口
音乐链接转成suno(upload)
音乐生成(generations)
查询任务(feed)
场景1 生成自定义音乐(带歌词)
音乐生成(generations)
查询任务(feed)
场景 2 通过提示词直接生成音乐(带歌词)
音乐生成(generations)
查询任务(feed)
场景 4 通过提示词直接生成音乐(纯音乐)
音乐生成(generations)
查询任务(feed)
场景3 生成自定义音乐(纯音乐)
音乐生成(generations)
查询任务(feed)
场景 5 上传自定义音频并续写
续写自定义音频步骤介绍
音乐链接转成suno(upload)
音乐生成(generations)
查询任务(feed)
生成歌词
获取歌词
生成歌词
视频接口(veo3/veo3.1)
Chat 格式同步请求(文生视频)
veo3.1/sora2 异步生成视频(官方格式)
veo3.1/sora2 查询视频任务状态(官方格式)
Chat 格式同步请求(图生视频)
VEO3 异步接口 (创建任务)
视频接口(Sora-2)
异步请求(sora-2 文生视频)
异步请求(sora-2 图生视频)
Chat 格式同步请求(文生视频)
Chat 格式同步请求(图生视频)
Luma视频接口
GoAmzAI格式
付费版
生成视频
获取视频
免费版
生成视频
获取视频
官网原生格式(v2)
提交生成视频任务
查询单个任务
扩展视频
获取视频无水印链接
视频接口(混元视频API)
官方格式
创建任务
获取任务
海螺Hailuo AI视频接口
创建视频生成任务
获取视频生成任务
佐糖API
创建抠图任务
获取图片压缩结果
获取抠图结果
创建图片变清晰任务
获取图片变清晰结果
创建图像修复任务
获取图像修复结果
创建背景生成任务
获取背景生成结果
创建证件照制作任务
获取证件照制作结果
创建图像上色任务
获取黑白图像上色结果
创建图片压缩任务
创建OCR任务
获取OCR结果
创建图片智能切边任务
获取图片智能切边结果
MewXAI星月熊开放API
生成图片融合示例
8.不同版本(艺术二维码调用示例)
3.艺术字调用 - 使用模版(AI艺术字调用示例)
校验接口(MX绘画)
计算点数(MX绘画)
融合模型示例-多个融合模型(MX绘画-生成类接口-MX-生成示例(必看))
模型列表(MX绘画-MX)
融合模型列表(MX绘画-MX)
生成图片接口(MX绘画-Cute)
融合模型列表(MX绘画-Cute)
回调演示
查询详情
余额查询
获取模板列表
获取模型列表
反词 - 追加反词(MX绘画-生成类接口-Cute-生成示例(必看))
自动补全接口(Completions)
deepseek-ocr 接口
内容补全接口
图像接口(Midjourney)
补充 - 其他参数以及回调
InsightFace任务提交
提交swap_face任务
任务提交
执行动作
提交Blend任务
提交Describe任务
提交Modal
提交Shorten任务
任务查询
查询所 有任务
根据ID列表查询任务
分页查询任务
查询任务队列
取消任务
获取任务图片的seed(需设置mj或niji的私信ID)
图像接口(Stable Diffusion)
创建图像(StableDiffusion)
图像接口 (Ideogram)
Generate(文生图)
Remix(混合图)
Upscale(放大高清)
Describe(描述)
图像接口(Flux)
创建图像(Flux)
Elevenlabs 语音
文本转语音生成
文本转语音生成(带时间戳)
语音转文本
Claude
入门
IP 地址白名单
版本控制
错误和速率限制
提示验证
客户端 SDK
选择模型
数据流
支持地区
生成文本补全
创建对话
Google Gemini
获取 API 密钥
API 版本说明
安全设置
安全指导
下载内容
在Google Cloud上运行Gemini
概览
概览
文本和图片输入
POST
纯文字输入
POST
多轮对话(聊天)
POST
流式传输
POST
模型
概览
Gemini
PaLM 2 型号
帮助中心
常见问题及解决办法
文件处理
PPT生成
语音克隆
创建语音克隆模型
语音合成
数字人
数字人简介
生成数字人视频
获取任务详情
查询默认voice列表(免费)
图像接口(Nano Banana)
Nano-Banana图片编辑与生成
Nano-Banana 图像生成 与编辑接口文档 | 生成图像 (chat 格式)
常见软件设置
dify添加模型
图像接口(BLF)
Flux Image
生成图片
创建图像(jimeng) Copy
POST
生成视频
POST
chatgptten Images API
生成图片 Copy
生成图片
概览
复制页面
概览
借助 Gemini API,您可以使用 Google 提供的最新生成模型。熟悉了该 API 提供的一般功能后,请尝试根据所选语言快速入门,开始进行开发。
注意
:如果您刚开始接触生成式 AI 模型,请访问
概念指南
,或开始在
Google AI Studio
中对提示进行原型设计。
模型
#
Gemini 是 Google 开发的一系列多模态生成式 AI 模型。Gemini 模型可以接受提示中的文本和图片(具体取决于您选择的模型变体),并输出文本响应。旧版 PaLM 模型接受纯文本和输出文本响应。
如需获取更详细的模型信息,请参阅
模型
页面。您还可以使用
list_models
方法列出所有可用的模型,然后使用
get_model
方法获取特定模型的元数据。
提示数据和设计
#
特定的 Gemini 模型同时接受图片和文本数据作为输入。此功能为生成内容、分析数据和解决问题提供了许多其他的可能性。您需要考虑一些限制和要求,包括您所用模型的一般输入令牌限制。如需了解特定模型的令牌限制,请参阅
Gemini 模型
。
提示的图片要求
#
使用图片数据的提示受到以下限制和要求的约束:
图片必须采用以下任一图片数据
MIME 类型 :
PNG - 图片/png
JPEG - image/jpeg
WEBP - image/webp
HEIC - 图片/heic
HEIF - image/heif
最多 16 张图片
整个提示(包括图片和文本)不得超过 4MB
对图像中的像素数没有具体限制;但是,较大的图像会缩小以适应最大分辨率 (3072 x 3072),同时保持其原始宽高比。
在提示中使用图片时,请遵循以下建议以获得最佳效果:
包含一张图片的提示往往能产生更好的结果。
提示设计和文本输入
#
创建有效的提示(即提示工程)是艺术与科学的结合。如需了解有关如何提示的指导,请参阅
提示指南
;如需了解不同的提示方法,请参阅
提示 101
指南。
生成内容
#
借助 Gemini API,您可以使用文本和图片数据进行提示,具体取决于您使用的模型变体。例如,您可以通过
gemini-pro
模型使用文本提示生成文本,并使用文本和图片数据向
gemini-pro-vision
模型发出提示。本部分给出了每种方法的简单代码示例。 如需查看涵盖所有参数的详细示例,请参阅
generateGenerate
API 参考文档。
Embeddings
#
Gemini API 中的嵌入服务可为字词、短语和句子生成先进的嵌入。生成的嵌入随后可用于 NLP 任务,例如语义搜索、文本分类和聚类等等。请参阅
嵌入指南
,了解什么是嵌入以及嵌入服务的一些关键用例,以帮助您入门。
后续步骤
#
参阅
Google AI Studio 快速入门
,开始使用 Google AI Studio 界面。
查看
Python
、
Go
或
Node.js
快速入门,试用 Gemini API 的服务器端访问方式。
参考
Web 快速入门
,开始构建 Web 应用。
按照
Swift 快速入门
或
Android 快速入门
开始构建移动应用。
如果您已是 Google Cloud 用户(或者希望在 Vertex 上使用 Gemini 以利用强大的 Google Cloud 生态系统),请参阅
Vertex AI 上的生成式 AI
了解详情。
修改于
2024-09-12 03:51:46
上一页
在Google Cloud上运行Gemini
下一页
文本和图片输入