Conceptos

Introducción

A un nivel alto, el Debulker transformar un archivo entrante en elementos individuales en el almacén de componentes. Este proceso se inicia mediante la consulta del archivo o la recepción de una notificación de que un nuevo archivo está disponible para Debulking. El archivo puede ser transmitido y enviado a través del divisor apropiado que publicará un flujo de eventos que contiene fragmentos más pequeños (componentes) y se guardará en el almacenamiento a largo plazo (el Component Store).

Conceptos Clave

Los siguientes son conceptos clave que se exploran con más detalle en las secciones de características vinculadas. Se explican aquí para mostrar cómo estos conceptos y características se relacionan entre sí.

Debulking Configuración

Cada tipo de archivo masivo que se va a procesar requiere un específico configuración para informar al Debulker qué tipo de formato de archivo esperar (por ejemplo,XML, Json) y, crucialmente, una jerarquía de componentes que proporciona la estructura de árbol de ese tipo específico de archivo. Esto indica el Debulker cómo descomponer el archivo, para dividirlo, en sus partes componentes.

Notificación de Archivo

Existen dos maneras en que el Debulker puede aprender que hay un archivo listo para su procesamiento. El primero es a través de un notificación, una API se proporciona lo que es esencialmente un receive connector. El Debulker viene con un Kafka implementación de esto receive connector por lo que una implementación podría tener otro proceso o script que se ejecute para enviar un Kafka evento a un tema específico notificando que un nuevo archivo está listo para su procesamiento.

Sondeo de Archivos

La segunda forma en que un archivo puede ser alimentado el debulker el procesamiento consiste en configurar un Poller de Archivos(proporcionada como funcionalidad central de IPF), que sondeará a una frecuencia definida en busca de nuevos archivos. El File Poller también puede ser utilizado para recoger archivos perdidos, por lo que usted podría configurarlo para buscar archivos que aún no han sido procesados (útil en el caso de que las notificaciones de archivos no pudieran ser enviadas de manera confiable).

Input Stream

El administrador de archivos proporciona un componente modular cuyo propósito es tomar un FileDefinition y devuelva un InputStream. Esto desacopla el Debulker desde los detalles subyacentes del almacenamiento de archivos y permite una variedad de opciones de almacenamiento (por ejemplo, sistema de archivos local o bucket S3).

Unicidad del Procesamiento de Archivos

Normalmente queremos que los archivos sean procesados una vez y solo una vez, por lo tanto, el Debulker tiene la opción configurable para llevar a cabo un verificación de duplicados. Esto se basa en todo el contenido del archivo y detendrá el procesamiento de un archivo que ya ha visto.

Splitter

A Splitter es un componente enchufable, donde la mayor parte de la Debulker el trabajo de 's está hecho. El Splitter toma un flujo de datos (contenido de un archivo grande-e.g.XML, JSON or CSV) y publica un flujo de eventos que contiene fragmentos más pequeños (componentes).

Component Store

El File Component Store es un componente enchufable y representa el lugar donde se almacenan los componentes de pago. Típicamente, esto será un almacén respaldado por Mongo, pero podría ser igualmente cualquier otra implementación.

Notificación de Procesamiento del Cliente

Esto se habilita mediante un componente intercambiable que envía notificaciones a un cliente indicando que los componentes generados por el Debulker están listos para el procesamiento.

Mantenimiento del hogar

Mantenimiento del hogar existe funcionalidad para eliminar componentes que han sido procesados por los flujos del cliente.

Debulking Orquestación

El proceso de desbaste se gestiona a través de un predefinido Flujo de MPS.