动手自制一个GPT对话软件（免费的GPT API、免费的语音文字互转）

最近我有一个想法，因为看到GPT非常火爆，甚至GPT4已经能够实现语音对话的应用。但是在国内由于某些原因，我们无法使用GPT。即便通过特殊方式可以使用，GPT4的成本也相当高昂。
如果我们掌握了一些前后端编程技术，只要有一个GPT的API，我们就可以开发出GPT的应用。这样不仅可以实现语音转文字，还能帮助我们实现一些非常酷炫的功能。

（0）引言

假设我们要开发一个基于GPT的语音对话机器人，其实现流程包括：前端录制语音 -> 发送语音至后端 -> 后端将语音转换成文本 -> 将文本发送至GPT API -> 接收GPT API的响应并将其转换成语音 -> 最后将语音反馈至前端。
关键步骤主要包括：

获取免费的GPT API接口及其使用方法
实现免费的文本到语音及语音到文本的转换功能

（1）免费的GPT API接口

openAI（不是，close AI）有提供API的文档，但是这个接口是需要付费的，而且是按照token进行付费。我们需要对API Key进行充值后才能使用，我想这不是我想要的，当然富豪随意。模型（Model） | OpenAI 官方帮助文档中文版 (xiniushu.com)这里我也给出链接，随意选取。
最后还是发现了这个API：GitHub - chatanywhere/GPT_API_free: Free ChatGPT API Key，免费ChatGPT API，支持GPT4 API（免费），ChatGPT国内可用免费转发API，直连无需代理。可以搭配ChatBox等软件/插件使用，极大降低接口使用成本。国内即可无限制畅快聊天。
免费API Key限制150请求/24小时。我觉得就是普通用户使用也算是足够了。如果你是商用肯定就是付费了，即使是付费内容，我认为也是较为亲民的。其使用方法和openai的API的使用方式是一样的。

给一个python的代码示例吧：

from openai import OpenAI

client = OpenAI(
    # defaults to os.environ.get("OPENAI_API_KEY")
    api_key="YOUR API KEY",
    base_url="https://api.chatanywhere.tech/v1"
)



# 非流式响应
def gpt_35_api(messages: list):
    """为提供的对话消息创建新的回答

    Args:
        messages (list): 完整的对话消息
    """
    completion = client.chat.completions.create(model="gpt-3.5-turbo", messages=messages)
    print(completion.choices[0].message.content)

def gpt_35_api_stream(messages: list):
    """为提供的对话消息创建新的回答 (流式传输)

    Args:
        messages (list): 完整的对话消息
    """
    stream = client.chat.completions.create(
        model='gpt-3.5-turbo',
        messages=messages,
        stream=True,
    )
    for chunk in stream:
        if chunk.choices[0].delta.content is not None:
            print(chunk.choices[0].delta.content, end="")

if __name__ == '__main__':
    messages = [{'role': 'user','content': '鲁迅和周树人的关系'},]
    # 非流式调用
    # gpt_35_api(messages)
    # 流式调用
    gpt_35_api_stream(messages)

这里有个小彩蛋：不愧是老外，会将鲁迅和周树人认为是两个人。

（2）免费的语音转文字服务

通常我们会需要语音转文字这个功能，那么这个功能，主要是两种方案：

方案一：使用云服务，将服务发送给云服务器（缺点是：可能需要科学上网、速度相对慢一些）
方案二：本地部署（有能力的自己写模型自己进行推理，也可以直接部署一些现成的模型）

方案一：使用云服务

我这里也是提供一个方案，其实有很多免费的服务，大家可以在评论区讨论
比如说使用SpeechRecognition库，（这个方法需要科学上网哈）

pip install SpeechRecognition

python 示例代码：

import speech_recognition as sr

# 创建一个Recognize实例
recognizer = sr.Recognizer()

# 读取语音文件
audio_file = sr.AudioFile("audio.wav")
with audio_file as source:
    audio_data = recognizer.record(source)

# 使用Google语音识别引擎识别语音
text = recognizer.recognize_google(audio_data, language="en-US")
print("识别结果：", text)

方案二：本地部署

如果本地部署的话就相对方案一来说速度会更快。
可以参考：有什么开源的python汉语语音转文字项目？_语音转文字开源-CSDN博客

我这里也给一个例子：
使用vosk库VOSK Models (alphacephei.com)

pip install vosk

from vosk import Model, KaldiRecognizer
import sys
import os
import wave

if not os.path.exists("model"):
    print("Please download the model from the Vosk website and unpack as 'model' in the current folder.")
    exit(1)

wf = wave.open(sys.argv[1], "rb")
if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
    print("Audio file must be WAV format mono PCM.")
    exit(1)

model = Model("model")
rec = KaldiRecognizer(model, wf.getframerate())

while True:
    data = wf.readframes(4000)
    if len(data) == 0:
        break
    if rec.AcceptWaveform(data):
        print(rec.Result())
    else:
        print(rec.PartialResult())

print(rec.FinalResult())

当然你可能会遇到文件格式的问题，所以你可能还需要一个进行wav格式转换的库，例如：wave、pydub、scipy.io.wavefile等

（3）免费的文字转语音库

如果你想要你的GPT能够通过语音回答你，那么你可能又需要一个文字转语音的库。我发现目前很多博客提供的API都无法使用，但是现有的库的语音还是很机器人，我暂时没看到有比较好的免费、易用的API。
但是也有一些示例，勉强能用：

pip install edge_tts

import edge_tts
import asyncio

TEXT = "这里是您想要转换为语音的文本。"
voice = 'zh-CN-XiaoxiaoNeural'  # 选择一个语音模型
output = 'output.mp3'  # 输出文件的名称
rate = '-4%'  # 语速调整
volume = '+0%'  # 音量调整

async def text_to_speech():
    tts = edge_tts.Communicate(text=TEXT, voice=voice, rate=rate, volume=volume)
    await tts.save(output)

if __name__ == '__main__':
    asyncio.run(text_to_speech())

动手自制一个GPT对话软件（免费的GPT API、免费的语音文字互转）