Modelos lógicos
Stemming
Modelos probabilísticos
Tokenización
Reconocimiento de entidades nombradas
Lematización
Normalización
Eliminación de ruido
Etiquetado gramatical
Modelo de bolsa de palabras
Recolecta palabras donde se realiza un seguimiento de recuperación de información para producir resultados cercanos a lo esperado.
Proceso por el cual se truncan las palabras, donde se elimina el afijo y permite la unión de varias palabras.
Técnica que procesa el texto fragmentado para que los algoritmos sean más comprendidos por la computadora.
Se escriben reglas que permiten reconocer patrones que recoja las esencias que son aplicadas entre la comunicación de máquinas y personas.
Técnica que elimina partes del documento que no es relevante para así extraer datos que pueden ser valiosos en otros formatos.