3-Heights™ PDF Extract

3-Heights™ PDF Extract

3-Heights™ PDF Extract – extraction de contenu, des ressources et des métadonnées

Lecture de contenus et de propriétés dans les documents PDF comme l'indexation ou les données d'entrée pour les analyses et plus encore.

 

Automatisez l'extraction de vos données

Java | .NET | C/C++ | COM | Command Line

Plus de détails

3-Heights™ PDF Extract est un module pour la lecture de contenus et de propriétés dans les documents PDF.

Ce module peut lire ces informations, que ce soit le contenu ou les propriétés du document, rapidement et efficacement. Les résultats peuvent p.ex. être enregistrés dans des banques de données, être utilisés pour des évaluations et des statistiques ou être archivées pour la sauvegarde des connaissances internes des entreprises.

 

PDF Extract - fonctionnalités

 

  • > Extrait texte :
    • > Mot par mot avec détection configurable des limites de mots
    • > Récupérer les attributs de texte tels que la position, la police et la taille de police caractères
    • > Appliquer automatiquement le décodage correct des caractères et produire une sortie Unicode
    • > Extraction des codes de caractères bruts
  • > Extraire les objets graphiques (chemins) :
    • > Comme chaînes de caractères contenant des opérateurs graphiques PDF
    • > Convertir les chemins extraits en images
  • > Extraire et enregistrer des images :
    • > Récupérer les attributs de l'image tels que le format de compression, la position et les masques de transparence
    • > Extraire et enregistrer les masques de transparence
    • > Extraire et enregistrer des images alternatives
    • > Functionality graphic 3-Heights™ PDF Extract
  • > Extraire des informations au niveau du document PDF:
    • > Nombre de pages
    • > Version PDF
    • > Page labels
    • > Date de création et de modification
    • > Information documentaire comme le titre, l'auteur, les sujets, etc.
    • > Contours (signets), y compris les destinations
  • > Extraire les informations de la page :
    • > Media box, crop box, trim box, bleed box and art box
    • > Rotation de page
    • > Annotations
  • > Les fichiers de polices caractères intégrés
  • > Récupérer des informations détaillées sur les polices de caractères
  • > Récupérer les informations et la visibilité (couches) du groupe de contenu facultatif (OCG)
  • > Extraire des objets
  • > Extrait des parties de document pour PDF/X ou PDF2.0
  • > Récupérer des informations détaillées sur l'espace colorimétrique, y compris des tables de recherche pour les espaces colorimétriques indexés
  • > Extraire et enregistrer des fichiers intégrés
  • > Spécifiez un mot de passe pour décrypter les fichiers PDF

Domaines d'application - extraire des informations de vos documents PDF

Entrée du courrier et traitement de documents

Des parties du contenu de fichiers PDF, p.ex. de formulaires ou de factures reçues et scannées sont extraites et préparées pour la caractérisation ou l’indexation.

Des informations importantes telles que des informations sur les produits, des données de clients ou des connaissances acquises par des entreprises sont conservées dans des documents PDF. Les méta-informations, telles que le créateur du document, la date de création ou la date de modification font partie intégrante d’un document PDF. Les documents PDF sont souvent employés comme « contenants » pour pouvoir transmettre des textes, images, vidéos et d’autres types de données à d’autres processus de travail indépendamment d’une plateforme spécifique.

 

Sortie du courrier

Les documents PDF sont déstructurés pour les préparer de manière optimale à l’intention d’autres groupes de destinataires. Les informations de traitement telles que les codes à barres, informations d’adresses ou formats de pages peuvent être lues et utilisées pour la commande des chaînes d’impression et d’emballage ou les processus de tri.

 

Archivage

Les textes ou des éléments de ceux-ci sont extraits pour un stockage séparé dans les métadonnées. L’indexation des documents peut ainsi être étendue selon les besoins.

 

Autres domaines d'application

> Conversion de PDF en fichiers texte

> Extrait d’informations telles que les adresses, données de factures, données de rapports provenant de documents pour la commande de processus

> Extrait d’informations pour la classification et l’indexation de documents

> Traitement de données de formulaires

> Extrait d’images pour le traitement ultérieur (images scannées, photos, etc.)

> Analyse et évaluation de contenus dans les documents PDF dans le traitement de masse

Conformité

  • - ISO 32000-1 (PDF 1.7)
  • - ISO 32000-2 (PDF 2.0)
  • - ISO 19005-1 (PDF/A-1)
  • - ISO 19005-2 (PDF/A-2)
  • - ISO 19005-3 (PDF/A-3)

Formats supportés

Formats d'entrée

  • - PDF 1.0 à 1.7
  • - PDF 2.0
  • - PDF/A-1, PDF/A-2, PDF/A-3

Systèmes d'exploitation

  • - Windows Client
  • - Windows Server
  • - Linux
  • - macOS