Open API 开发者文档
  1. 概览
Open API 开发者文档
  • 默认模块
    • API文档
      • 快速开发指南
        • 产品更新动态
        • 发出请求
        • 常见问题汇总
        • 如何获取调用密钥KEY
        • 如何用代码调用
        • 用量及历史调用查询
      • PPT API 文档
        • 文多多(官方格式)
          • PPT 接口调用说明
          • 创建接口token
          • 分页查询 PPT 模板
          • 更换PPT模板
          • 修改大纲
          • 解析文件内容
          • 生成大纲
          • 生成大纲内容
          • 随机获取PPT模板
          • 生成PPT
          • 获取PPT列表
          • 加载PPT数据
          • 下载PPT
          • 更新PPT属性
          • 保存PPT
          • 删除PPT
          • 查询异步生成 PPT 信息
          • JSON转PPT
          • PPT转JSON
        • 韦尼克(官方格式)
          • 申请PPT生成任务(PPT描述/主题一键生成)
          • 通过描述生成PPT标题大纲(逐步生成PPT)
          • 根据标题生成封面预览图(模版封面图预览)
          • 根据标题以及封面预览信息生成不同主题色的预览(设置主题色)
          • 通过task_id增加PPT单页(PPT中插入单页)
          • 短文本文件生成PPT(文件内容解析)
          • 基于当前模板生成(基于当前模版生成)
          • 获取PPT生成状态和预览页(文件内容解析)
          • 获取PPT生成状态和预览页(文件内容解析)
          • 更换模版(更换模版)
          • 通过文件生成PPT(文件内容解析)
          • 申请PPT生成任务(逐步生成PPT)
          • 获取PPT生成状态和预览页(逐步生成PPT)
          • 获取PPT生成状态和预览页(PPT描述/主题一键生成)
          • 生成PPT备注(演讲稿备注)
          • 获取PPT下载链接(获取下载链接)
      • kling可灵视频图片接口
        • 建议直接看官方文档
          • 建议直接看官方文档
        • 图像v2(包含v1模型&兼容更多参数&同步接口)
          • 虚拟换衣 v2
        • 虚拟换衣
        • 获取虚拟换衣任务
        • 文生图
        • 图生图
        • 文生视频
        • 图生视频
        • 获取图片生成任务
        • 获取文生视频任务
        • 获取图生视频任务
      • 聊天接口(Chat)
        • 图像
        • 创建聊天补全(SeedEdit)
        • gpt-4o编辑或扩展图像
        • 聊天接口
        • gpts
        • gemini-pro
        • gpt-4-all(分析图片)
        • gpt-4-vision-preview
      • 自动补全接口(Completions)
        • 内容补全接口
      • 图像接口(Images)
        • 生成图片
        • gpt-4-all(生成图片)
      • 向量生成接口(Embeddings)
        • 创建嵌入
      • 音频接口(Audio)
        • 创建转录
        • 创建翻译
        • TTS文本转语音
      • 图像接口(Midjourney)
        • 补充 - 其他参数以及回调
        • InsightFace任务提交
          • 提交swap_face任务
        • 任务提交
          • 执行动作
          • 提交Blend任务
          • 提交Describe任务
          • 提交Modal
          • 提交Shorten任务
        • 任务查询
          • 查询所有任务
          • 根据ID列表查询任务
          • 分页查询任务
          • 查询任务队列
          • 取消任务
          • 获取任务图片的seed(需设置mj或niji的私信ID)
      • 图像接口(Recraft V3)
        • 创建图像(Recraftv3)
      • 图像接口 (Ideogram)
        • Generate(文生图)
        • Remix(混合图)
        • Upscale(放大高清)
        • Describe(描述)
      • Suno音乐接口
        • GoAmzAI格式
          • v3.5
            • 生成音乐
            • 获取音乐
          • v3.0
            • 生成音乐
            • 获取音乐
        • 官网原生格式(v2)
          • 官网格式
          • 所有接口
            • 音乐链接转成suno(upload)
            • 音乐生成(generations)
            • 查询任务(feed)
          • 场景1 生成自定义音乐(带歌词)
            • 音乐生成(generations)
            • 查询任务(feed)
          • 场景 2 通过提示词直接生成音乐(带歌词)
            • 音乐生成(generations)
            • 查询任务(feed)
          • 场景 4 通过提示词直接生成音乐(纯音乐)
            • 音乐生成(generations)
            • 查询任务(feed)
          • 场景3 生成自定义音乐(纯音乐)
            • 音乐生成(generations)
            • 查询任务(feed)
          • 场景 5 上传自定义音频并续写
            • 续写自定义音频步骤介绍
            • 音乐链接转成suno(upload)
            • 音乐生成(generations)
            • 查询任务(feed)
        • 生成歌词
          • 获取歌词
          • 生成歌词
      • 图像接口(Flux)
        • 创建图像(Flux)
      • 图像接口(jimeng)
        • 即梦 4.0
          • 生成图片
        • 即梦 3.1
          • 创建图像(jimeng)
      • 图像接口(Stable Diffusion)
        • 创建图像(StableDiffusion)
      • Luma视频接口
        • GoAmzAI格式
          • 付费版
            • 生成视频
            • 获取视频
          • 免费版
            • 生成视频
            • 获取视频
        • 官网原生格式(v2)
          • 提交生成视频任务
          • 查询单个任务
          • 扩展视频
          • 获取视频无水印链接
      • 视频接口(混元视频API)
        • 官方格式
          • 创建任务
          • 获取任务
      • 海螺Hailuo AI视频接口
        • 创建视频生成任务
        • 获取视频生成任务
      • 佐糖API
        • 创建抠图任务
        • 获取图片压缩结果
        • 获取抠图结果
        • 创建图片变清晰任务
        • 获取图片变清晰结果
        • 创建图像修复任务
        • 获取图像修复结果
        • 创建背景生成任务
        • 获取背景生成结果
        • 创建证件照制作任务
        • 获取证件照制作结果
        • 创建图像上色任务
        • 获取黑白图像上色结果
        • 创建图片压缩任务
        • 创建OCR任务
        • 获取OCR结果
        • 创建图片智能切边任务
        • 获取图片智能切边结果
      • MewXAI星月熊开放API
        • 生成图片融合示例
        • 8.不同版本(艺术二维码调用示例)
        • 3.艺术字调用 - 使用模版(AI艺术字调用示例)
        • 校验接口(MX绘画)
        • 计算点数(MX绘画)
        • 融合模型示例-多个融合模型(MX绘画-生成类接口-MX-生成示例(必看))
        • 模型列表(MX绘画-MX)
        • 融合模型列表(MX绘画-MX)
        • 生成图片接口(MX绘画-Cute)
        • 融合模型列表(MX绘画-Cute)
        • 回调演示
        • 查询详情
        • 余额查询
        • 获取模板列表
        • 获取模型列表
        • 反词 - 追加反词(MX绘画-生成类接口-Cute-生成示例(必看))
      • Elevenlabs 语音
        • 文本转语音生成
        • 文本转语音生成(带时间戳)
        • 语音转文本
      • Fal.ai
        • upscale 视频
        • elevenlabs 语音
        • pixverse 视频
        • flux 图片
        • kling 视频
        • veo3 视频
        • seedance 即梦视频
        • hunyuan 视频
        • vidu 视频
          • Vidu 视频生成 (通用入口)
          • 获取视频生成任务状态
          • 获取视频生成任务结果
        • pika 视频
        • luma 视频
        • minimax 海螺视频
        • minimax 语音克隆
        • ideogram 图片
        • recraft 图片
        • 获取任务状态
        • 获取任务结果
      • 视频接口(Doubao-Seedance)
        • 创建即梦视频任务
        • 获取即梦视频任务详情
      • Claude
        • 入门
        • IP 地址白名单
        • 版本控制
        • 错误和速率限制
        • 提示验证
        • 客户端 SDK
        • 选择模型
        • 数据流
        • 支持地区
        • 生成文本补全
        • 创建对话
      • Google Gemini
        • 获取 API 密钥
        • API 版本说明
        • 安全设置
        • 安全指导
        • 下载内容
        • 在Google Cloud上运行Gemini
        • 概览
          • 概览
          • 文本和图片输入
            POST
          • 纯文字输入
            POST
          • 多轮对话(聊天)
            POST
          • 流式传输
            POST
        • 模型
          • 概览
          • Gemini
          • PaLM 2 型号
      • 帮助中心
        • 常见问题及解决办法
        • 文件处理
        • PPT生成
      • 语音克隆
        • 创建语音克隆模型
        • 语音合成
      • 数字人
        • 数字人简介
        • 生成数字人视频
        • 获取任务详情
        • 查询默认voice列表(免费)
      • 视频接口(veo3)
        • chat 格式同步接口
      • 图像接口(Nano Banana)
        • nano-banana 图像生成与编辑接口文档 | 生成图像 (chat 格式)
      • 常见软件设置
        • dify添加模型
  • chatgptten Images API
    • 生成图片 Copy
    • 生成图片
  1. 概览

概览

借助 Gemini API,您可以使用 Google 提供的最新生成模型。熟悉了该 API 提供的一般功能后,请尝试根据所选语言快速入门,开始进行开发。
注意 :如果您刚开始接触生成式 AI 模型,请访问概念指南,或开始在 Google AI Studio 中对提示进行原型设计。

模型#

Gemini 是 Google 开发的一系列多模态生成式 AI 模型。Gemini 模型可以接受提示中的文本和图片(具体取决于您选择的模型变体),并输出文本响应。旧版 PaLM 模型接受纯文本和输出文本响应。
如需获取更详细的模型信息,请参阅模型页面。您还可以使用 list_models 方法列出所有可用的模型,然后使用 get_model 方法获取特定模型的元数据。

提示数据和设计#

特定的 Gemini 模型同时接受图片和文本数据作为输入。此功能为生成内容、分析数据和解决问题提供了许多其他的可能性。您需要考虑一些限制和要求,包括您所用模型的一般输入令牌限制。如需了解特定模型的令牌限制,请参阅 Gemini 模型。

提示的图片要求#

使用图片数据的提示受到以下限制和要求的约束:
图片必须采用以下任一图片数据
MIME 类型 :
PNG - 图片/png
JPEG - image/jpeg
WEBP - image/webp
HEIC - 图片/heic
HEIF - image/heif
最多 16 张图片
整个提示(包括图片和文本)不得超过 4MB
对图像中的像素数没有具体限制;但是,较大的图像会缩小以适应最大分辨率 (3072 x 3072),同时保持其原始宽高比。
在提示中使用图片时,请遵循以下建议以获得最佳效果:
包含一张图片的提示往往能产生更好的结果。

提示设计和文本输入#

创建有效的提示(即提示工程)是艺术与科学的结合。如需了解有关如何提示的指导,请参阅提示指南;如需了解不同的提示方法,请参阅提示 101 指南。

生成内容#

借助 Gemini API,您可以使用文本和图片数据进行提示,具体取决于您使用的模型变体。例如,您可以通过 gemini-pro 模型使用文本提示生成文本,并使用文本和图片数据向 gemini-pro-vision 模型发出提示。本部分给出了每种方法的简单代码示例。 如需查看涵盖所有参数的详细示例,请参阅 generateGenerate API 参考文档。

Embeddings#

Gemini API 中的嵌入服务可为字词、短语和句子生成先进的嵌入。生成的嵌入随后可用于 NLP 任务,例如语义搜索、文本分类和聚类等等。请参阅嵌入指南,了解什么是嵌入以及嵌入服务的一些关键用例,以帮助您入门。

后续步骤#

参阅 Google AI Studio 快速入门,开始使用 Google AI Studio 界面。
查看 Python、Go 或 Node.js 快速入门,试用 Gemini API 的服务器端访问方式。
参考 Web 快速入门,开始构建 Web 应用。
按照 Swift 快速入门或 Android 快速入门开始构建移动应用。
如果您已是 Google Cloud 用户(或者希望在 Vertex 上使用 Gemini 以利用强大的 Google Cloud 生态系统),请参阅 Vertex AI 上的生成式 AI 了解详情。
修改于 2024-09-12 03:51:46
上一页
在Google Cloud上运行Gemini
下一页
文本和图片输入
Built with