Script PHP - Conversor de texto para fala e fala para texto
Text & Speech permite transformar qualquer texto em fala realista , permitindo que você crie vários conteúdos de mídia, como livros de áudio, podcasts, conteúdo de voz e também aplicativos que falam, e crie categorias totalmente novas de produtos habilitados para fala e também permite que você transcreva áudio em texto em vários formatos , permitindo que você crie transcrições de qualquer conteúdo de áudio e voz , gravações, chamadas de atendimento ao cliente, etc., de maneira simples e eficiente . Serviços da Web , Microsoft Azure , Google Cloud Platform e IBM Cloudpara sintetizar a fala humana com som natural, você pode se registrar com qualquer um deles ou com todos eles de uma vez. Com mais de 900 vozes realistas diferentes em mais de 144 idiomas e dialetos para recurso de texto em fala, você também pode converter fala em texto de forma rápida e precisa com mais de 170 idiomas e dialetos . Além disso, você pode aproveitar o recurso de identificação de alto-falante da AWS e do GCP, que permite identificar até 5 alto-falantes no áudio. A AWS também permite que você use o recurso Live Transcribe em 12 idiomas diferentes.
Além das vozes TTS padrão, o Text & Speech oferece Neural Text-to-Speech (NTTS)vozes que fornecem melhorias avançadas na qualidade da fala por meio de uma nova abordagem de aprendizado de máquina. A maior parte da tecnologia Neural TTS também oferece suporte a estilos de fala exclusivos, dependendo do fornecedor da nuvem, que permitem que você corresponda melhor ao estilo de apresentação do locutor com o aplicativo: Exemplo: um estilo de leitura de apresentador (AWS/Azure) adaptado para casos de uso de narração de notícias , e um estilo de conversação (AWS/Azure) que é ideal para comunicação bidirecional, como aplicativos de telefonia.
Aproveite o uso conveniente de tags SSML para adicionar vários efeitos de voz, como ajuste de tom, volume, velocidade, ênfase, saídas de bipes de palavras ou frases, para citar alguns. A lista completa pode ser encontrada na demonstração ao selecionar as respectivas vozes.
Recursos de texto e fala
- Suporte para mais de 144 idiomas e dialetos para conversão de texto em fala
- Suporte para mais de 900 vozes e sotaques diferentes para conversão de texto em fala
- Suporte para mais de 170 idiomas e dialetos para fala em texto
- Suporte para 12 idiomas para transcrição ao vivo para fala em texto
- Distribuído por:
- Amazon Web Services (TTS/STT)
- Microsoft Azure (TTS)
- Google Cloud Platform (TTS/STT)
- IBM Nuvem (TTS)
- Vozes com som natural ( Neural TTS )
- Vozes Google WaveNet
- Várias combinações de efeitos de voz para vozes padrão
- Várias combinações de efeitos de voz para vozes neurais
- Estúdio de som poderoso
- Use qualquer uma das +900 vozes em uma única tarefa de síntese de texto
- Misture até 20 vozes em uma única tarefa de síntese de texto
- Processe até 60.000 caracteres em uma única tarefa de síntese de texto
- Vários formatos de saída de áudio (texto para fala) :
- MP3 (AWS/Azure/GCP/IBM)
- OGG (AWS/GCP/IBM/Azure)
- WAV (GCP/IBM)
- WEBM (Azure)
- Armazene e redistribua a fala facilmente via mídia social
- Síntese de texto quase em tempo real
- Personalize e controle a saída de voz
- Otimize sua transmissão de áudio
- Ajustar estilos de fala (para vozes neurais)
- Ajuste a velocidade da fala, o tom e o volume
- Ajustar a ênfase da fala
- Pronuncie dígitos/datas/palavras/abreviaturas corretamente
- Adicionar efeito de substituição de trabalho/frase
- Silenciar/bipar qualquer parte do texto/frase
- Sintetize texto grande diretamente para o seu balde Amazon S3
- Armazenar resultados de conversão de texto em fala em:
- servidor local
- Amazon S3
- Armazenamento Wasabi
- Compartilhe convenientemente os resultados da síntese ou faça o download
- Identificação de alto-falante até 5 pessoas
- Transcrição instantânea do GCP para arquivos de áudio curtos
- Múltiplos formatos de entrada de áudio ( fala para texto ):
- MP3 (AWS)
- OGG (AWS)
- WAV (AWS/GCP)
- WEBM (AWS)
- MP4 (AWS)
- FLAC (AWS/GCP)
- Editar resultados ao vivo
- Até 4 horas de duração de arquivo de áudio com AWS (áudio de 2 canais)
- Até 8 horas de duração de arquivo de áudio com GCP (1 canal de áudio)
- Até 2 GB de tamanho de arquivo de áudio com AWS
- Tamanho de arquivo de áudio ilimitado com GCP
- Sistema completo de afiliados/referências
- Interface totalmente responsiva
- Monitore de perto os gastos estimados para os serviços Cloud TTS e STT
- Opção de atualização automática com um clique
- Desenvolvido com PHP 8.1 e Laravel 9
- Documentação detalhada e abrangente
- 6 meses de suporte incluso
Preços de texto para fala do fornecedor de nuvem
Preços de voz para texto do fornecedor de nuvem
Notas
Observe que, para que o script funcione corretamente, você precisa ter contas válidas da AWS, GCP, Azure, IBM (você pode usar qualquer combinação de provedores de nuvem, mas pelo menos um provedor de nuvem é necessário. Somente idiomas e vozes de provedores de nuvem ativados estará disponível no script. Para fornecer acesso a todos os +144 idiomas e +909 vozes, você precisa se registrar com todos os 4 fornecedores de nuvem). Não é um aplicativo móvel.