Inteligência

Atualizações do Microsoft AI inclui reconhecimento de voz personalizado, saída de voz e indexação de vídeo

1. Comece a criar seus próprios modelos personalizados de reconhecimento de fala sem código
A Microsoft está na vanguarda do reconhecimento de fala, tendo atingido a paridade humana no benchmark de pesquisa da Switchboard. Essa tecnologia é verdadeiramente capaz de transformar nosso cotidiano, como de fato já modifica, seja por meio de assistentes digitais, pela nossa capacidade de ditar e-mails e documentos, ou por meio de transcrições de palestras e reuniões. Esses cenários são possíveis graças a anos de pesquisa e a saltos tecnológicos possibilitados por redes neurais. Como parte da missão de capacitar os desenvolvedores com os mais recentes avanços de IA, agora a Microsoft oferece um espectro de APIs de Serviços Cognitivos, abordando uma série de cenários de desenvolvedores. Para aqueles que exigem o uso de vocabulários específicos de domínio ou a necessidade de navegar por condições acústicas complexas, é oferecido o serviço de fala personalizado que permite os desenvolvedores sintonizarem automaticamente os modelos de reconhecimento de fala de acordo com suas necessidades.

Como exemplo, uma universidade pode estar interessada em transcrever e digitalizar com precisão todas as suas palestras. Uma dada palestra de biologia pode incluir um termo como “Nerodia erythrogaster”. Embora extremamente específico, termos como estes são, no entanto, extremamente importantes para detectar com precisão, a fim de transcrever essas sessões corretamente. Também é importante personalizar modelos acústicos para garantir que o sistema de reconhecimento de fala permaneça preciso no ambiente específico em que será implantado. Por exemplo, um aplicativo habilitado para voz que será usado em um chão de fábrica deve ser capaz de funcionar com precisão, apesar do ruído de fundo persistente.

O Custom Speech Service permite adaptação do modelo acústico e de linguagem com codificação zero. A interface de usuário o guia por todo o processo, incluindo importação de dados, adaptação de modelos, avaliação e otimização, medindo as taxas de erro de palavras e aprimorando o rastreamento. Ele também guia através da implantação de modelos em escala, para que os modelos possam ser acessados ​​por seus aplicativos em execução em qualquer número de dispositivos. Criar, atualizar e implantar modelos leva apenas alguns minutos, facilitando a criação e melhorando o seu aplicativo de forma iterativa.

2. Use o Microsoft Text-to-Speech para saída de voz em 34 idiomas
Com a voz se tornando cada vez mais predominante como um modo de interação, a capacidade de fornecer saída de voz (ou Text-to-Speech, também conhecido como TTS), está se tornando uma tecnologia de suporte a cenários de IA. A Speech API, um Serviço Cognitivo da Microsoft, oferece agora seis idiomas TTS adicionais a todos os desenvolvedores: búlgaro, croata, malaio, esloveno, tâmil e vietnamita. Isso eleva o número total de idiomas disponíveis para 34. Com a mais avançada tecnologia de inteligência artificial, esses 34 idiomas estão disponíveis em 48 localidades e 78 fontes de voz.

3. Obtenha mais informações sobre suas gravações de vídeo
Há um equívoco de que a IA para vídeo é simplesmente extrair quadros e executar algoritmos de visão computacional em cada quadro de vídeo. Embora se possa certamente adotar essa abordagem, ela geralmente não nos ajuda a obter insights mais profundos e mais ricos. O vídeo apresenta um novo conjunto de desafios e oportunidades para otimização e insights que tornam esse espaço bastante diferente do processamento de uma sequência de imagens. A solução da Microsoft, o Video Indexer, implementa vários desses algoritmos específicos de vídeo.

Para dar um exemplo, analise a situação de detectar pessoas presentes em um vídeo. Essas pessoas apresentarão suas cabeças e rostos em poses diferentes e provavelmente também aparecerão sob diferentes condições de iluminação. Em uma abordagem baseada em quadros, acabaríamos com uma lista de possíveis correspondências de um banco de dados de rosto, mas com valores de confiança diferentes. Algumas dessas correspondências podem não ser as mesmas em toda a seqüência de quadros, mesmo quando a pessoa é a mesma no vídeo o tempo todo. Há uma necessidade de uma camada lógica adicional para rastrear uma pessoa nos quadros, avaliar as variações e determinar a face real correspondente. Há também uma oportunidade de otimização, através da qual podemos reduzir o número de consultas que fazemos selecionando um subconjunto de quadros apropriado para consultar o sistema de reconhecimento facial.

Em seguida, dê o exemplo de rastrear várias pessoas presentes em um vídeo e exibindo sua presença nesse vídeo (ou a falta dele) em uma visualização de linha do tempo. A detecção simples de rostos em cada quadro de vídeo não nos ajudará a ver a linha do tempo de quem esteve presente durante qual parte de determinado vídeo. A visualização da linha do tempo exige que rastreamos rostos em quadros, incluindo a contabilização de vistas laterais de rostos e outras variações. O Video Indexer faz esse tipo de rastreamento facial sofisticado e, como resultado, você pode ver visualizações de linha do tempo completas em um vídeo.

Da mesma forma, os vídeos oferecem uma oportunidade para extrair tópicos ou palavras-chave potencialmente relevantes por meio do reconhecimento óptico de caracteres. No entanto, se processarmos um vídeo como uma sequência de fotos, muitas vezes acabaremos com muitas palavras parciais, pois tais sinais / palavras podem ser parcialmente obscurecidos em quadros específicos. Extrair as palavras corretas na sequência de quadros requer que apliquemos algoritmos em cima de palavras parciais. Novamente, isso é algo que o Video Indexer faz, obtendo assim melhores insights.

Fonte