最近我有一个想法,因为看到GPT非常火爆,甚至GPT4已经能够实现语音对话的应用。但是在国内由于某些原因,我们无法使用GPT。即便通过特殊方式可以使用,GPT4的成本也相当高昂。
如果我们掌握了一些前后端编程技术,只要有一个GPT的API,我们就可以开发出GPT的应用。这样不仅可以实现语音转文字,还能帮助我们实现一些非常酷炫的功能。
(0) 引言
假设我们要开发一个基于GPT的语音对话机器人,其实现流程包括:前端录制语音 -> 发送语音至后端 -> 后端将语音转换成文本 -> 将文本发送至GPT API -> 接收GPT API的响应并将其转换成语音 -> 最后将语音反馈至前端。
关键步骤主要包括:
- 获取免费的GPT API接口及其使用方法
- 实现免费的文本到语音及语音到文本的转换功能
(1)免费的GPT API接口
openAI(不是,close AI)有提供API的文档,但是这个接口是需要付费的,而且是按照token进行付费。我们需要对API Key进行充值后才能使用,我想这不是我想要的,当然富豪随意。模型(Model) | OpenAI 官方帮助文档中文版 (xiniushu.com)这里我也给出链接,随意选取。
最后还是发现了这个API:GitHub - chatanywhere/GPT_API_free: Free ChatGPT API Key,免费ChatGPT API,支持GPT4 API(免费),ChatGPT国内可用免费转发API,直连无需代理。可以搭配ChatBox等软件/插件使用,极大降低接口使用成本。国内即可无限制畅快聊天。
免费API Key限制150请求/24小时。我觉得就是普通用户使用也算是足够了。如果你是商用肯定就是付费了,即使是付费内容,我认为也是较为亲民的。其使用方法和openai的API的使用方式是一样的。
给一个python的代码示例吧:
from openai import OpenAI
client = OpenAI(
# defaults to os.environ.get("OPENAI_API_KEY")
api_key="YOUR API KEY",
base_url="https://api.chatanywhere.tech/v1"
)
# 非流式响应
def gpt_35_api(messages: list):
"""为提供的对话消息创建新的回答
Args:
messages (list): 完整的对话消息
"""
completion = client.chat.completions.create(model="gpt-3.5-turbo", messages=messages)
print(completion.choices[0].message.content)
def gpt_35_api_stream(messages: list):
"""为提供的对话消息创建新的回答 (流式传输)
Args:
messages (list): 完整的对话消息
"""
stream = client.chat.completions.create(
model='gpt-3.5-turbo',
messages=messages,
stream=True,
)
for chunk in stream:
if chunk.choices[0].delta.content is not None:
print(chunk.choices[0].delta.content, end="")
if __name__ == '__main__':
messages = [{'role': 'user','content': '鲁迅和周树人的关系'},]
# 非流式调用
# gpt_35_api(messages)
# 流式调用
gpt_35_api_stream(messages)
这里有个小彩蛋:不愧是老外,会将鲁迅和周树人认为是两个人。
(2)免费的语音转文字服务
通常我们会需要语音转文字这个功能,那么这个功能,主要是两种方案:
- 方案一:使用云服务,将服务发送给云服务器(缺点是:可能需要科学上网、速度相对慢一些)
- 方案二:本地部署(有能力的自己写模型自己进行推理,也可以直接部署一些现成的模型)
方案一:使用云服务
我这里也是提供一个方案,其实有很多免费的服务,大家可以在评论区讨论
比如说使用SpeechRecognition库,(这个方法需要科学上网哈)
pip install SpeechRecognition
python 示例代码:
import speech_recognition as sr
# 创建一个Recognize实例
recognizer = sr.Recognizer()
# 读取语音文件
audio_file = sr.AudioFile("audio.wav")
with audio_file as source:
audio_data = recognizer.record(source)
# 使用Google语音识别引擎识别语音
text = recognizer.recognize_google(audio_data, language="en-US")
print("识别结果:", text)
方案二:本地部署
如果本地部署的话就相对方案一来说速度会更快。
可以参考:有什么开源的python汉语语音转文字项目?_语音转文字开源-CSDN博客
我这里也给一个例子:
使用vosk库VOSK Models (alphacephei.com)
pip install vosk
from vosk import Model, KaldiRecognizer
import sys
import os
import wave
if not os.path.exists("model"):
print("Please download the model from the Vosk website and unpack as 'model' in the current folder.")
exit(1)
wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
print("Audio file must be WAV format mono PCM.")
exit(1)
model = Model("model")
rec = KaldiRecognizer(model, wf.getframerate())
while True:
data = wf.readframes(4000)
if len(data) == 0:
break
if rec.AcceptWaveform(data):
print(rec.Result())
else:
print(rec.PartialResult())
print(rec.FinalResult())
当然你可能会遇到文件格式的问题,所以你可能还需要一个进行wav格式转换的库,例如:wave、pydub、scipy.io.wavefile等
(3)免费的文字转语音库
如果你想要你的GPT能够通过语音回答你,那么你可能又需要一个文字转语音的库。我发现目前很多博客提供的API都无法使用,但是现有的库的语音还是很机器人,我暂时没看到有比较好的免费、易用的API。
但是也有一些示例,勉强能用:
pip install edge_tts
import edge_tts
import asyncio
TEXT = "这里是您想要转换为语音的文本。"
voice = 'zh-CN-XiaoxiaoNeural' # 选择一个语音模型
output = 'output.mp3' # 输出文件的名称
rate = '-4%' # 语速调整
volume = '+0%' # 音量调整
async def text_to_speech():
tts = edge_tts.Communicate(text=TEXT, voice=voice, rate=rate, volume=volume)
await tts.save(output)
if __name__ == '__main__':
asyncio.run(text_to_speech())