Clasificador automático de documentos con técnicas de procesamiento de lenguaje natural.
Abstract
Aunque actualmente sean tendencia y estén siendo muy utilizadas, las redes neuronales no tuvieron
un fuerte impacto cuando fueron inicialmente propuestas. Su estado de implantación actual se debe
principalmente al gran bene cio que aportan en multitud de problemas.
Su gran crecimiento en los últimos tiempos se ha debido a la conectividad y propagación de
las redes en torno a lo que hoy en día se conoce como Internet, que produce una cantidad de datos
masiva. Pero sobre todo se debe al desarrollo de la tecnología, y a la existencia de hardware con gran
capacidad de computo.
Esta combinación de avances informáticos, junto con la gran cantidad de datos disponibles, o que
se puedan minar, ha conseguido convertir a las redes neuronales en uno de los algoritmos de deep
learning más populares hasta la fecha.
Este proyecto en concreto, forma parte de un convenio entre la universidad y la compañía Indra,
empresa que en la actualidad está desarrollando una línea de investigación dentro del campo del
deep learning.
De alguna forma, el problema de Indra es relativo a la documentación, necesitan automatizar la
gestión documental relativa a facturas del departamento Imaging. Este departamento se encarga de
resolver problemas de una forma clásica, ya bien sea utilizando técnicas OCR en documentos estructurados,
o búsqueda de patrones estáticos en elementos que siempre son iguales en su identi cación.
El problema planteado por la empresa Indra Sistemas versa sobre la necesidad de construir un
clasi cador multiclase general para clasi car automáticamente documentos, utilizando técnicas de
machine learning, deep learning y natural lenguaje processing.
El siguiente documento, pretende exponer un sistema que incluye una serie de técnicas, modelos
y resultados que resuelven el problema proporcionado por Indra Sistemas Although currently trendy and widely used, neural networks did not have a strong impact when
initially proposed. Their current state of implementation is mainly due to the great bene t they bring
in a multitude of problems.
Their great growth in recent times has been due to the connectivity and spread of networks
around what is now known as the Internet, which produces a massive amount of data. But above
all it is due to the development of technology, and the existence of hardware with large computing
capacity.
This combination of computer advances, together with the large amount of data available, or
that can be texted, has managed to turn neural networks into one of the most popular deep learning
algorithms to date.
This speci c project is part of an agreement between the university and Indra, a company that is
currently developing a line of research in the eld of deep learning.
Somehow, Indra’s problem is related to documentation, they need to automate the document
management related to invoices of the Imaging department. This department is in charge of solving
problems in a classical way, either using OCR techniques in structured documents, or searching for
static patterns in elements that are always the same in their identi cation.
The problem raised by Indra Sistemas is the need to build a general multiclass classi er to automatically
classify documents, using machine learning, deep learning and natural language processing
techniques.
The following document aims to present a system that includes a series of techniques, models
and results that solve the problem provided by Indra, and integrate the system into a web application
written with the Django framework.
una aplicación web escrita con el framework Django.