百度做网站推广怎么样,做网站是自己公司做好还是外包好,wordpress 上传图片错误,wordpress php函数大全概述
到目前#xff0c;GPT只能去接收文本的输入#xff0c;但是在现实的生活当中#xff0c;会有语音的需求GPT也有相关的能力接入#xff0c;我们就需要一个能够将语音内容转换成文本的能力 当然其他第三方的软件或者接口也是支持这个功能在 Open AI 有一个语音转文本的…概述
到目前GPT只能去接收文本的输入但是在现实的生活当中会有语音的需求GPT也有相关的能力接入我们就需要一个能够将语音内容转换成文本的能力 当然其他第三方的软件或者接口也是支持这个功能在 Open AI 有一个语音转文本的模型叫做 whisper 在 Open AI 它的官方网站当中在左侧可以看到有一个 Audio 关于音频的API 文档: https://platform.openai.com/docs/api-reference/audio/create-transcription接口: https://api.openai.com/v1/audio/transcriptions 可以看到它的参数 file 参数必选file类型支持 mp3,mp4,mpeg,mpga,m4a,wav,or webm.model 参数必选string 类型目前仅支持 whisper-1prompt 参数可选string 类型response_format 参数可选string 类型temperature 参数可选number 类型 默认 0language 参数可选string 类型… 与其他的音频转文本的方法或者工具不同的是 Open AI 允许我们去输入 Prompt 这个 Prompt 就是对于我们音频的一个介绍举个例子我们的音频是计算机相关的论文或者法学医学相关的论文在这些论文当中可能会有很多的特有的专业的名词如果我们按照正常行的音频翻译的话有可能得到的并不是我们想要的结果但是 Open AI 不一样我们在进行 whisper 调用的时候可以去向它发送 Prompt这里 Prompt 就是对音频的介绍我们可以清晰的告诉 GPT我们的音频是哪个领域哪个方向然后研究是的是什么的内容等这样可辅助GPT对音频的内容进行分析转换成较准确的相关的文本提升转换的质量 response_format 是对于输出进行一个格式化默认是 Json这是和音频相关的接口
代码
whisper_example.py
# -*- coding: utf-8
import os
import openaiopenai.api_key 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
openai.proxyhttp://127.0.0.1:7890audio_file open(test.mp3, rb)
transcript openai.Audio.transcribe(whisper-1, audio_file, promptr这是一篇机器学习相关的公开课)print(transcript[text])
分析
比如test.mp3 内容是一段机器学习的英文教学章节整体的代码看上去非常的简单只需要两步就可以了接下来执行一下我们刚刚实现的python代码可以看到音频已经转换成了文本但是是英文有时候我们希望它是中文这里有几个方案 方案一通过其他的翻译软件去进行翻译方案二可以调用GPT的接口, 通过GBT3.5的模型, 对文章去做一个翻译 把这篇文章作为 Prompt 传递给它由GPT去做翻译 方案三利用 whisper 去做一个简单的处理 它的输入参数中有一个 language的输入参数这里指音频文件输入的语言这里并不代表我们设置之后会以对应的形式对我们进行输出我们想要去输出中文怎么办呢其实有一个非常简便的方法在调用 whisper 模型的时候可以去传入Prompt, 告诉它这是一篇机器学习相关的公开课我们通过中文的描述去构建了一个Prompt告诉whisper由于我们的 Prompt 是输入的中文的描述, 最终whisper给我们返回的结果也是中文的 以上是通过GPT的 whisper 模型将音频转换成文本的一个简单的示例代码