Создаем голосовой помощник c GPT. ~ Nyukers Galaxy

Всем привет.

Мы уже пробовали использовать OpenAI для ответов на вопросы и извлечения текста из речи с помощью Whisper. Что, если мы теперь объединим эти и другие компоненты для создания голосового помощника на основе ИИ? Т.е. в отличие от предыдущего проекта будем ответы GPT не только читать, но и слушать.

Теперь наша цель – использовать базу знаний GPT, чтобы получить ответы на вопросы, которые мы можем задать. Создадим некое подобие голосового помощника Alexa. Но наш интеллектуальный голосовой помощник сможет ответить на более сложные вопросы и предоставить больше полезной информации.

Наш помощник будет работать по такому алгоритму:

• пользователь задает свой вопрос с помощью микрофона. Мы будем использовать Python SpeechRecognition (https://github.com/Uberi/speech_recognition);

• Whisper автоматически преобразует вопрос в текст;

• текст передается в конечные точки GPT;

• API OpenAI возвращает ответ;

• ответ сохраняется в файле mp3 и передается в Google Text to Speech (gTTS) для создания голосового ответа. Помощник проигрывает нам ответ в виде mp3.

Для голосового помощника на понадобяться три функции:

1. Запрос пользователя и запись его голоса - функция def record_audio для записи звука.

2. Расшифровка аудио з записью голоса пользователя - функция def transcribe_forever, которая использует OpenAI Whisper для расшифровки аудио.

3. Голосовой ответ на запрос пользователя - для ответа на запрос пользователя мы будем использовать функцию def reply дл ягенерации голосового ответа от GPT.

И самая главная функция main, которая вызывает три указанных функции в отдельном потоке.

Функция main будет определять функцию командной строки с использованием библиотеки click, которая принимает несколько параметров (таких как model, english, energy, wake_word и т. д.) в качестве аргументов командной строки. Затем она загружает соответствующую модель для распознавания речи, используя указанные параметры, создает очередь для хранения аудиоданных и запускает три потока для одновременного запуска функций record_audio, transcribe_forever и reply. Наконец, функция выводит на консоль текст ответа, полученный из result_queue:

from pydub import AudioSegment

from pydub.playback import play

import speech_recognition as sr

import whisper

import queue

import os

import threading

import torch

import numpy as np

import re

from gtts import gTTS

import openai

import click

def init_api():

with open(".env") as env:

for line in env:

key, value = line.strip().split("=")

os.environ[key] = value

openai.api_key = os.environ.get("API_KEY")

# чтение аргументов

@click.command()

@click.option("--model", default="base", help="Используемая модель", type=click.Choice(["tiny","base", "small","medium","large"]))

@click.option("--english", default=True, help="Использовать ли английскую модель",is_flag=True, type=bool)

@click.option("--energy", default=300, help="Уровень сигнала для обнаружения голоса", type=int)

@click.option("--pause", default=0.8, help="Длительность паузы перед окончанием", type=float)

@click.option("--dynamic_energy", default=False,is_flag=True, help="Флаг включения динамической энергии", type=bool)

@click.option("--wake_word", default="Hello", help="Команда пробуждения", type=str)

@click.option("--verbose", default=False, help="Печатать ли подробный вывод",is_flag=True, type=bool)

def main(model, english, energy, pause, dynamic_energy, wake_word, verbose):

# не существует английской модели с параметром large

if model != "large" and english:

model = model + ".en"

audio_model = whisper.load_model(model)

audio_queue = queue.Queue()

result_queue = queue.Queue()

threading.Thread(target=record_audio, args=(audio_queue, energy, pause, dynamic_energy,)).start()

threading.Thread(target=transcribe_forever, args=(audio_queue, result_queue, audio_model, english, wake_word, verbose,)).start()

threading.Thread(target=reply, args=(result_queue,)).start()

# while True:

print(result_queue.get())

# запись речи

def record_audio(audio_queue, energy, pause, dynamic_energy):

# загружаем систему распознавания речи и настраиваем пороговые значения речи и паузы

r = sr.Recognizer()

r.energy_threshold = energy

r.pause_threshold = pause

r.dynamic_energy_threshold = dynamic_energy

with sr.Microphone(sample_rate=16000) as source:

print("Tell me ...")

i = 0

while True:

# получаем запись и сохраняем ее в файл wav

audio = r.listen(source)

torch_audio = torch.from_numpy(np.frombuffer(audio.get_raw_data(), np.int16).flatten().astype(np.float32) / 32768.0)

audio_data = torch_audio

audio_queue.put_nowait(audio_data)

i += 1

# Расшифровка записи

def transcribe_forever(audio_queue, result_queue, audio_model, english, wake_word, verbose):

while True:

audio_data = audio_queue.get()

if english:

result = audio_model.transcribe(audio_data, language='english', fp16=False)

else:

result = audio_model.transcribe(audio_data, fp16=False)

predicted_text = result["text"]

if predicted_text.strip().lower().startswith(wake_word.strip().lower()):

pattern = re.compile(re.escape(wake_word), re.IGNORECASE)

predicted_text = pattern.sub("", predicted_text).strip()

punc = '''!()-[]{};:'"\,<>./?@#$%^&*_~'''

predicted_text.translate({ord(i): None for i in punc})

if verbose:

print("Вы произнесли команду пробуждения... Обработка {}...".format(predicted_text))

result_queue.put_nowait(predicted_text)

else:

if verbose:

print("Вы не произнесли команду пробуждения... Речь проигнорирована")

# Ответ пользователю

def reply(result_queue):

while True:

result = result_queue.get()

data = openai.Completion.create(

model="text-davinci-003",

prompt=result,

temperature=0.5,

max_tokens=150,

n=1,

stop=["\n"]

)

answer = data["choices"][0]["text"]

mp3_obj = gTTS(text=answer, lang="en", slow=False)

mp3_obj.save("reply.mp3")

reply_audio = AudioSegment.from_mp3("reply.mp3")

play(reply_audio)

os.remove("reply.mp3")

# Главная точка входа

init_api()

main()

Для создания некоторых элементов был использован следующий код:

• https://github.com/openai/whisper/blob/main/whisper/audio.py;

• https://github.com/mallorbc/whisper_mic/blob/main/mic.py.

Представленный выше пример будет работать в большинстве случаев, но иногда будет возвращать случайные ответы, не имеющие отношения к вопросу. У меня так и было). Чтобы улучшить качество ответов, предлагаю вам сперва начать общение с помощником на Английском языке, потому моя фраза пробуждения в коде указана "Hello". Далее полагайтесь на свое воображение и везение!

Успехов.

Nyukers Galaxy

Главная

А АMonday, 24 July 2023

Создаем голосовой помощник c GPT.

No comments:

Post a Comment

Версия на печать

Популярное