La integración de datos empresariales (EII) es un nuevo paradigma que promete romper con la barrera que impone a las empresas la heterogeneidad de sistemas, tanto a nivel interno como externo, resolviendo la complejidad asociada al manejo de información en fuentes dispersas y en formatos diferentes.
Hoy resulta evidente que el flujo de datos, de información y de conocimiento aumenta a una velocidad mayor a la de toda la historia de la humanidad. En el caso de las empresas, sin embargo, esta situación se traduce en una paradoja: el aumento de los datos no es sinónimo de más y mejor información.
Las dificultades asociadas al aumento de datos vienen, fundamentalmente, de la dificultad para respaldar dichos datos en fuentes confiables, administrarlos en forma adecuada y, por sobre todo, en convertirlos en información útil y tenerlos disponibles cuando se los requiera.
Desde la perspectiva de los sistemas de información, las empresas y organizaciones han ido estructurando sus datos sobre fuentes heterogéneas, dispersas y con múltiples formatos de almacenamiento. Esto, a la larga, ha hecho que la tarea esencial de dichos sistemas -esto es, proveer información a los usuarios- no sea una tarea sencilla para los encargados de las Tecnologías de la Información (TI) en la organización.
Según Gartner Group, por ejemplo, en Estados Unidos las dos mil empresas más grandes disponen de un promedio de más de un centenar de aplicaciones corriendo sobre quince plataformas distintas, con ocho arquitecturas diferentes de almacenamiento de datos. Esto nos muestra el nivel de complejidad que la infraestructura de TI puede tener para las empresas en general y las de mayor tamaño en particular.
De allí que el mercado de la integración se esté convirtiendo en uno de los más dinámicos en todo el mundo, puesto que las empresas requieren resolver la complejidad, reducir costos de administración y consolidar su información. De hecho, se estima que un buen número de empresas destina hasta un 40% de sus presupuestos TI a la integración, tanto de sus datos como de sus procesos y, por supuesto, sus aplicaciones.
Un Nuevo Paradigma
En este contexto, ha venido cobrando notoriedad un nuevo concepto, basado en herramientas destinadas a ayudar a las organizaciones a disponer de una arquitectura común para modelar la información. Se trata de la "Integración de Información Empresarial" (EII - Enterprise Information Integration), que se perfila como un mercado de gran proyección para los próximos años en el ámbito de las TI. Aberdeen sostiene que este mercado puede tener un incremento anual de un 60% en los próximos años.
Aunque existen ciertos matices, "Enterprise Information Integration" puede definirse como la integración de datos de sistemas múltiples en una representación única y consistente para la visión y manipulación de la información. Se trata de una tecnología de consultas que facilita el acceso a los datos a través de diversos almacenes de datos, tanto de fuentes internas como externas, y que se caracteriza por permitir una integración y administración más sencilla.
Para lograr una integración adecuada, es necesario comprender que las fuentes de información en las empresas son de diferentes tipos, desde el punto de los formatos de los datos. Dichas fuentes suelen agruparse en tres tipos principales:
Fuentes de Información No Estructurada
Corresponden a aquellas fuentes que no poseen un formato o esquema definido para la información que contienen, como sucede con los documentos de Word, páginas web estáticas y archivos PDF. Su carencia de formato dificulta en gran medida su manejo automatizado, lo cual hace que las búsquedas sean imprecisas.
Fuentes de Información Estructurada
En este caso, a diferencia de la anterior, las fuentes poseen un formato definido para la información, como sucede con una base de datos relacional, permitiendo realizar consultas precisas, a través de lenguajes de consulta (como SQL, por ejemplo).
Fuentes de Información Semi-Estructurada
En este caso, aun cuando presenten algún tipo de esquema, la información no posee todas las características de una base de datos, es decir, existe cierta flexibilidad en los esquemas en que está el contenido. Por lo anterior, permiten consultas más precisas respecto de las fuentes de información estructurada, pero con mayores limitaciones que las fuentes estructuradas. Algunos documentos de este tipo son archivos Word, XML y PDF's semi-estructurados.
Homogeneización de Información
Debido al auge de Internet y la creciente relación con los sistemas de socios de negocios, la necesidad de integrar la información de fuentes diversas obliga a las empresas a enfrentar tanto la heterogeneidad interna -de los sistemas de la propia organización- como la de las fuentes externas, situación que hace más compleja la tarea.
En el caso de la heterogeneidad interna, las empresas pueden optar por construir un nuevo sistema que integre toda la información en una base de datos universal. Sin embargo, a pesar de su eficiencia, esta opción obliga a rehacer las aplicaciones, contar con un servidor central y cambiar la forma en que los usuarios acceden a la información. Por lo tanto, este enfoque, que puede resultar caro, resulta apropiado sólo para organizaciones en donde no hay muchas fuentes de información.
Otra alternativa tradicional es crear un gran repositorio central de información, un data warehouse. En este caso, la idea es que las aplicaciones se ejecuten sobre el repositorio y sin que interactúen con las fuentes de información, cuyos datos, o un conjunto de ellos, son copiados periódicamente en el data warehouse. Precisamente, esa es una de las condiciones que limitan a este almacén central, ya que los datos no siempre están actualizados, por lo que se trata de una solución orientada a los análisis de tendencias, informes batch e históricos. Asimismo, habitualmente no opera con fuentes de datos semi-estructurados y fuentes web.
A diferencia de las alternativas señaladas, EII permite realizar consultas precisas sobre fuentes dispersas y heterogéneas, las cuales pueden efectuarse en tiempo real, ya que los datos no son copiados en el sistema de integración. Se trata de un esquema virtual que combina los resultados de las consultas a las fuentes. Por lo tanto, es menos intrusivo y más liviano que otras formas de integración, aspectos claves en su despegue en el mercado mundial.
Factores a Favor de EII
Existen tres factores que hacen que la integración de información sea hoy más manejable: el crecimiento y aceptación de XML como estándar multiplataforma, el almacenamiento más barato y de mayor capacidad, combinado con procesadores más rápidos y poderosos, y la aparición de nuevas herramientas para abordar frontalmente el problema.
Los productos de EII hacen ampliamente posible la combinación de datos desde diversas fuentes siempre que se necesite. Esto se logra creando una capa de servicios de datos intermedia (middleware) que permite el acceso a los datos de una manera estandarizada, en vez de hacerlo directamente con cada fuente de datos back-end por separado.
En consecuencia, la tecnología EII resulta más simple y económica que proyectos de EAI (Enterprise Application Integration) y ETL (Extraction, Transformation and Loading), permitiendo mantener el control de los datos y de los privilegios de acceso a ellos, por lo que resuelve apropiadamente el problema de la integración de información en organizaciones descentralizadas o con ambientes de intercambio en negocios electrónicos.
Ventajas
EII es, en definitiva, un nuevo paradigma que permite a las organizaciones resolver la creciente necesidad de integración y de desarrollar nuevas aplicaciones que ayuden a crear más valor para el negocio, mientras facilita dar un paso más hacia una arquitectura orientada a servicios (SOA). Sus ventajas pueden resumirse en los siguientes aspectos:
Extiende el acceso a la información en tiempo real:
EII usa un enfoque de consulta basado en proveer información bajo demanda para aplicaciones de inteligencia de negocios, lo cual garantiza datos actualizados. Para aplicaciones menos sensibles a la actualización, la capa EII puede usar consultas frecuentes para reducir la carga de los sistemas back-end.
Provee acceso a datos desde fuentes relacionales múltiples:
EII permite que todos los datos sean accesibles universalmente desde diferentes topologías, formatos y localizaciones de datos. La capa EII aparece para los usuarios como una única fuente con información actual.
Reduce la replicación de datos:
EII elimina la necesidad de replicar fuentes de datos locales para obtener reportes. Adicionalmente, las capacidades de EII pemiten reducir la carga sobre los sistemas, recuperando sólo la información requerida.