Ola, irei falar um pouco sobre o Gensim, um kit de ferramentas robusto de modelagem de espaço vetorial e modelagem de tópico de código aberto, implementado em Python, projetado para extrair automaticamente os tópicos semânticos, da maneira mais eficiente (em termos de computador) e sem problemas (em termos humanos) quanto possível.
O Gensim usa NumPy, SciPy e, Cython para desempenho “opcional”. É um projeto especificamente para lidar com grandes coleções de texto digitais brutos e não estruturados, usando streaming de dados e algorítimos incrementais eficientes, como Análise Semântica Latente, Alocação de Dirichlet Latente e Projeções Aleatórias, descoberta da estrutura semântica dos documentos examinando padrões estáticos de ocorrência da palavras dentro de um corpus de documentos de treinamento.
Esses algorítimos não são supervisionados, o que significa que nenhuma entrada humana é necessária, necessitando apenas de um corpus de documentos de texto simples, o que o diferencia da maioria dos outros pacotes de software científicos que visam somente o processamento em lote de memória, Wikipedia, (2018).
Principais características
- Semântica Estática Escalável;
- Análise de documento de texto simples para estrutura semântica;
- Recuperar documento sematicamente semelhantes.
Outras características você pode conferir no site oficial.
Instalação
easy_install -U gensim ou pip install --upgrade gensim
Caso aconteça algum erro de dependência, veja o guia de instalação completo aqui.
Se você gostou, deixe seu comentário, no próximo post faremos algumas demostrações com essa ferramenta.
Até mais 🙂
[bestwebsoft_contact_form]