Script PHP - Conversor de texto para fala e fala para texto

Text & Speech permite transformar qualquer texto em fala realista , permitindo que você crie vários conteúdos de mídia, como livros de áudio, podcasts, conteúdo de voz e também aplicativos que falam, e crie categorias totalmente novas de produtos habilitados para fala e também permite que você transcreva áudio em texto em vários formatos , permitindo que você crie transcrições de qualquer conteúdo de áudio e voz , gravações, chamadas de atendimento ao cliente, etc., de maneira simples e eficiente . Serviços da Web , Microsoft Azure , Google Cloud Platform e IBM Cloudpara sintetizar a fala humana com som natural, você pode se registrar com qualquer um deles ou com todos eles de uma vez. Com mais de 900 vozes realistas diferentes em mais de 144 idiomas e dialetos para recurso de texto em fala, você também pode converter fala em texto de forma rápida e precisa com mais de 170 idiomas e dialetos . Além disso, você pode aproveitar o recurso de identificação de alto-falante da AWS e do GCP, que permite identificar até 5 alto-falantes no áudio. A AWS também permite que você use o recurso Live Transcribe em 12 idiomas diferentes.

Além das vozes TTS padrão, o Text & Speech oferece Neural Text-to-Speech (NTTS)vozes que fornecem melhorias avançadas na qualidade da fala por meio de uma nova abordagem de aprendizado de máquina. A maior parte da tecnologia Neural TTS também oferece suporte a estilos de fala exclusivos, dependendo do fornecedor da nuvem, que permitem que você corresponda melhor ao estilo de apresentação do locutor com o aplicativo: Exemplo: um estilo de leitura de apresentador (AWS/Azure) adaptado para casos de uso de narração de notícias , e um estilo de conversação (AWS/Azure) que é ideal para comunicação bidirecional, como aplicativos de telefonia.

Aproveite o uso conveniente de tags SSML para adicionar vários efeitos de voz, como ajuste de tom, volume, velocidade, ênfase, saídas de bipes de palavras ou frases, para citar alguns. A lista completa pode ser encontrada na demonstração ao selecionar as respectivas vozes.

Recursos de texto e fala

Suporte para mais de 144 idiomas e dialetos para conversão de texto em fala
Suporte para mais de 900 vozes e sotaques diferentes para conversão de texto em fala
Suporte para mais de 170 idiomas e dialetos para fala em texto
Suporte para 12 idiomas para transcrição ao vivo para fala em texto
Distribuído por:
- Amazon Web Services (TTS/STT)
- Microsoft Azure (TTS)
- Google Cloud Platform (TTS/STT)
- IBM Nuvem (TTS)
Vozes com som natural ( Neural TTS )
Vozes Google WaveNet
Várias combinações de efeitos de voz para vozes padrão
Várias combinações de efeitos de voz para vozes neurais
Estúdio de som poderoso
Use qualquer uma das +900 vozes em uma única tarefa de síntese de texto
Misture até 20 vozes em uma única tarefa de síntese de texto
Processe até 60.000 caracteres em uma única tarefa de síntese de texto
Vários formatos de saída de áudio (texto para fala) :
- MP3 (AWS/Azure/GCP/IBM)
- OGG (AWS/GCP/IBM/Azure)
- WAV (GCP/IBM)
- WEBM (Azure)
Armazene e redistribua a fala facilmente via mídia social
Síntese de texto quase em tempo real
Personalize e controle a saída de voz
Otimize sua transmissão de áudio
Ajustar estilos de fala (para vozes neurais)
Ajuste a velocidade da fala, o tom e o volume
Ajustar a ênfase da fala
Pronuncie dígitos/datas/palavras/abreviaturas corretamente
Adicionar efeito de substituição de trabalho/frase
Silenciar/bipar qualquer parte do texto/frase
Sintetize texto grande diretamente para o seu balde Amazon S3
Armazenar resultados de conversão de texto em fala em:
- servidor local
- Amazon S3
- Armazenamento Wasabi
Compartilhe convenientemente os resultados da síntese ou faça o download
Identificação de alto-falante até 5 pessoas
Transcrição instantânea do GCP para arquivos de áudio curtos
Múltiplos formatos de entrada de áudio ( fala para texto ):
- MP3 (AWS)
- OGG (AWS)
- WAV (AWS/GCP)
- WEBM (AWS)
- MP4 (AWS)
- FLAC (AWS/GCP)
Editar resultados ao vivo
Até 4 horas de duração de arquivo de áudio com AWS (áudio de 2 canais)
Até 8 horas de duração de arquivo de áudio com GCP (1 canal de áudio)
Até 2 GB de tamanho de arquivo de áudio com AWS
Tamanho de arquivo de áudio ilimitado com GCP
Sistema completo de afiliados/referências
Interface totalmente responsiva
Monitore de perto os gastos estimados para os serviços Cloud TTS e STT
Opção de atualização automática com um clique
Desenvolvido com PHP 8.1 e Laravel 9
Documentação detalhada e abrangente
6 meses de suporte incluso

Preços de texto para fala do fornecedor de nuvem

Preços de voz para texto do fornecedor de nuvem

Amazon Web Services
Google Cloud Platform

Notas

Observe que, para que o script funcione corretamente, você precisa ter contas válidas da AWS, GCP, Azure, IBM (você pode usar qualquer combinação de provedores de nuvem, mas pelo menos um provedor de nuvem é necessário. Somente idiomas e vozes de provedores de nuvem ativados estará disponível no script. Para fornecer acesso a todos os +144 idiomas e +909 vozes, você precisa se registrar com todos os 4 fornecedores de nuvem). Não é um aplicativo móvel.