Para que esse processo ocorra da melhor forma, sugerimos alguns requisitos básicos em relação aos documentos que passarão pelo processo, desde seu aspecto, formato salvo e processo de digitalização.
O Analista Contábil Digital utiliza a tecnologia OCR (Optical Character Recognition) para a leitura, acompanhada da inteligência artificial para a interpretação dos documentos. Para obtermos bons resultados na leitura e extração de dados dos documentos devemos:
Primeiramente dar preferência a documentos digitais originais, adquiridos diretamente do estabelecimento emissor, sem passar por um processo de digitalização, salvos em formato PDF Editável.
Existem 2 tipos de documentos em PDF, sendo subdivididos entre PDF Editável e PDF Não Editável. A solução efetua a leitura dos dois tipos, mas para a melhor utilização da ferramenta recomendamos a utilização de PDF Editável, que são PDFs passiveis de exportação em texto.
Configurar a impressora/scanner para resolução de no mínimo 300 DPI. DPI é uma sigla utilizada no mundo da tecnologia, que significa Dots Per inch, em português Pontos por Polegadas. Representa o número de pontos que podem ser encontrados em uma polegada de uma determinada imagem. É comum as pessoas se referirem ao DPI como resolução da imagem. Devemos observar que quanto mais pontos por polegadas (DPI), maior será o arquivo no processamento, por ter mais dados a serem lidos e interpretados.
Alguns fatores que podem ocasionar problemas na leitura do documento:
Documento manuscrito, a solução não consegue realizar a leitura e extração de dados, pelo fato do mesmo conter caligrafia irregular, sem padronização (tamanho da fonte, intensidade, cor, etc.);
As características visuais do documento, devem estar em perfeitas condições para a digitalização:
Estrutura do documento danificada: rasgos, furos, cortes, etc.
Manchas, sujeira, borrão, informação apagada, etc.
O equipamento estar com algum problema como: vidro da digitalizadora com riscos, manchas ou qualquer outro defeito que interfira na digitalização;
O equipamento deve possuir a capacidade de efetuar a digitalização em 300 DPI, essa opção já vem como padrão na grande maioria dos equipamentos;
Não recomendamos a digitalização de dois ou mais documentos na mesma página, pois podem ocorrer problemas na configuração de pesquisa. Os documentos deverão ser digitalizados individualmente.
Para melhor digitalização, sugerimos algumas configurações a serem utilizadas como padrão, quando for necessário escanear o documento:
Papel A4 Branco
O Papel A4 Branco tem uma maior qualidade, tornando mais fácil a leitura das informações do arquivo, se usadas as seguintes configurações:
A digitalização tem que ser em 300 DPI;
Texto ou Preto e Branco;
Monocromático;
Brilho Máximo;
A imagem deve estar na vertical, não podendo estar torta ou na diagonal.
Papel A4 Reciclável
A digitalização de documentos impressos em papel reciclado também exige maior cuidado, pois esse tipo de papel tem baixa qualidade. Para esse tipo de documento, recomenda-se:
Digitalizar em resolução 300 dpi;
Monocromático;
Brilho máximo para tornar a imagem mais clara;
A imagem deve estar na vertical, não podendo estar torta ou na diagonal;
Texto ou Preto e Branco.
Essas configurações propostas visam minimizar os problemas com a qualidade da imagem, que podem prejudicar o resultado do processamento do OCR.
Demais Papéis
Para os demais tipos, verificar o caso e testar a melhor configuração compatível com o seu equipamento. Exemplos: cupons fiscais, comprovantes de pagamentos bancários e documentos com autenticação de pagamento.
Ainda pode existir casos em que documentos visualizados perfeitamente pelo olho humano, não obtenham uma interpretação total pela ferramenta, pois a inteligência artificial pode equivocar-se, ocorrendo a troca de caracteres por similaridade. Isso ocorre por que o Analista Contábil Digital trabalha com inteligência artificial, existindo a possibilidade de uma margem mínima de erros, mesmo quando o documento está nos padrões citados anteriormente. Para esses casos temos diversas opções no sistema, tais como: lançamento direto, ou manutenção somente no dado não lido.