Geração de Linguagem Natural, ou Geração Automática de Texto, ou simplesmente NLG (Natural Language Generation, do inglês). É o campo do Processamento de Linguagem Natural (PLN) que tem como objetivo a criação de texto natural a partir de dados não linguísticos.
Imagine uma estação metereológica que conta com diversos sensores para captar diferentes características da atmosfera, e que necessita de um especialista em meteorologia para interpretar os dados coletados e criar por exemplo um enunciado que vai ser mostrado na tela do seu computador ou smartphone, ou o texto que vai ser lido no telejornal que você assiste. É o que comumente acontece. Mas imagine um software com inteligência artificial capaz de gerar um texto semântica e sintaticamente correto, capaz de ser lido por qualquer pessoa que domine determinado idioma. Isso tudo baseado apenas naqueles números coletados pelos sensores. Isso é o que NLG é capaz de fazer.
Existem outros vários exemplos sobre tal aplicação, inclusive os assistentes virtuais que estão nos nossos smartphones, o Ok Google e a Siri da Apple, que fazem pesquisas, coletam dados e, além de interpretar, também geram texto natural, mesmo que em sentenças simples.
O Google Duplex, novo assistente virtual do Google, é o exemplo mais impressionante do uso de NLG e de Inteligência Artificial como um todo, ele é capaz de fazer reservas em restaurantes para o usuário, conversando diretamente com o atendente do estabelecimento, e promete ser uma ferramenta poderosa para pequenas empresas e usuários comuns como eu e você. Veja o vídeo abaixo, lembre de ativar as legendas.
Atualmente, além de softwares e ferramentas comerciais como o Google Duplex, existem várias pesquisas realizadas com foco em NLG em várias universidades e centros de pesquisa do mundo inteiro. A universidade de Aberdeen na Escócia, em seu departamento de Linguistica e Geração de Linguagem Natural, se destaca com diversos trabalhos publicados em vários periódicos e conferências importantes.
O livro Building Natural Language Generation Systems (Construindo Sistemas de Geração de Linguagem Natural, tradução livre) do professor Ehud Reiter é quiçá a publicação mais relevante na área nos últimos anos, e é usado por pesquisadores e desenvolvedores do mundo inteiro como base para seus estudos e projetos em NLG.
Existem também uma série de conferências sobre o tema, nas quais são publicadas as tendências e novidades da área, tais conferências estão listadas e organizadas pela ACL CIGGEN, que na verdade é uma Wiki sobre NLG e conta com listas de Blogs, ferramentas, etc. todo o material relacionado a Geração de Linguagem Natural.
No próximo mini-artigo iremos mostrar como um Sistema de Geração de Texto Natural funciona e listar quais as principais técnicas usadas atualmente para este propósito.