Claves y Componentes de la Inteligencia de Negocios
   
EDA: Una Nueva Generación de Aplicaciones
   
UWB: La Nueva Ultra Banda Ancha
   
CMMI: Mejorando Procesos en Forma Integrada
   
MIME: Haciendo del E-Mail Una Herramienta Universal
   
XML:El estándar de los negocios electrónicos
   
P3P: Tras la privacidad en la red
   
UML: Un Lenguaje Modelo
 
ANÁLISIS
MIMO: Wireless Más Inteligente
ANÁLISIS
SOA: Creando empresas flexibles
ANÁLISIS
El poder de ajax
ANÁLISIS
MPLS: La Nueva Generación de Redes Privadas Virtuales
Ver Todas  


ANÁLISIS
LA "ALTA DISPONIBILIDAD" HACE LA DIFERENCIA

Ver Análisis Resumido

La elección y configuración del hardwarde, la administración del software, la temperatura ambiente e incluso las políticas de seguridad física son algunos de las decenas de factores que se deben tomar en cuenta para lograr el tan preciado 99,999% de alta disponibilidad para los equipos informáticos y centros de datos.

Las famosas "caídas de sistema" aún son perdonadas por algunos clientes finales, como es el caso de las interrupciones en los sistemas bancarios o servicios públicos. Sin embargo, un problema de este tipo en los clientes industriales es impensable, ya que cualquier corte en la disponibilidad del servicio afecta críticamente su negocio y se torna demasiado visible como para dejarlo pasar por alto. Incluso, en la medida que se masifique más aún el uso de los servicios en línea por parte de los clientes finales, las caídas ya no serán perdonadas tan fácilmente.

Debido a esto, los departamentos de tecnología de las corporaciones están cada vez más preocupados de la "alta disponibilidad" o high availability, considerando que los fallos en sus sistemas TI de "misión crítica" afectan incluso al balance financiero, pudiendo significar pérdidas de millones de dólares, solamente por no estar en línea. Para un banco, una empresa de telefonía, una multitienda de retail, un supermercado o la empresa de transmisión de electricidad, la caída del sistema puede ser desastroso, tanto en términos de imagen y servicio al cliente como en pérdidas monetarias, ya sea por ventas que no se hacen, incapacidad de registrarlas o multas.

Las estadísticas indican que los fallos de hardware ocurren incluso en equipos diseñados para sostener servicios de alta disponibilidad. Por ejemplo, un chip de memoria puede tener una probabilidad de fallo de 0,0001%, sin embargo, esta tasa puede verse afectada por elementos externos como una exigencia desmesurada al centro de datos, calor excesivo o contaminación. Por tanto, se deben considerar una serie de factores para lograr establecer una tasa de fallo certera.

La alta disponibilidad esta dada por lo que se denomina como "los cinco nueves de tiempo de funcionamiento del servidor". O sea, que el centro de datos y todas sus aplicaciones estén disponibles el 99,999% del tiempo, algo que por lo general es un gran desafío para los departamentos tecnológicos. Y las diferencias de décimas y milésimas pesan bastante.

Según un análisis de la empresa suiza de servicios informáticos "Cogito Informatique", un porcentaje de disponibilidad de 99,999, significa 5,25 minutos al año en que el sistema estará caído. Si le restamos un solo nueve (99,99%), la caída aumenta dramáticamente a 53 minutos. Incluso, si los encargados del servidor se conforman con tener los sistemas a sólo un 99% de disponibilidad, éste estará abajo ¡87,6 horas en el año!. Imaginemos que significaría para una empresa de telecomunicaciones, por ejemplo, estar sin servicio casi cuatro días.

Si los ingenieros informáticos tratan de aumentar los 5 nueves de la alta disponibilidad a 99,9999%, el downtime anual será de 31 segundos. Por último, si llegaran a la increíble cifra de 99,99999% (7 nueves), la pérdida de información sólo sucederá en 3,1 segundos. Casi lo que dura un bostezo.

En términos generales, para definir y mantener un servicio en alta disponibilidad se debe definir una estructura tecnológica, procedimientos y monitoreo que elimine todos los puntos de falla de la plataforma. Estos pueden tener su origen en la red, en los equipos donde se procesa la información, en aquellos donde se mantienen los datos, en las instalaciones físicas que hospedan los servidores y en el adecuado mantenimiento de las aplicaciones, que en definitiva son las que entregan la funcionalidad del servicio informático.

También se debe incorporar redundancia de hardware a toda la infraestructura, con la finalidad de poder situar los dispositivos fuera de línea para resolver problemas o reparar los componentes que no sean intercambiables en caliente, como las fuentes de alimentación y las unidades de disco. Otro elemento preventivo, cuyo valor tiende a disminuir, es la creación de un perfil actualizado del entorno. Informaciones como las configuraciones de cada unidad de sistema y un mapa de los dominios de servidor en correlación con las aplicaciones, son claves para solucionar los problemas con celeridad.

Implementación Física

Una de las máximas para garantizar una mayor cantidad de nueves en la cifra de disponibilidad, al planificar un centro de datos, una sala de servidores o simplemente un servidor crítico, es tomar en cuenta algunos detalles que tienen que ver con el aspecto físico de la implementación, tales como:

Suelos elevados: Los suelos elevados entregan el espacio necesario para la gran cantidad de cables que por lo general poseen los centros de datos. También facilitan el movimiento de los equipos y mejoran la refrigeración de los servidores y otros equipos susceptibles de sobrecalentarse, porque permiten conducir el aire frío. Sin los suelos elevados, los usuarios tienen más posibilidades de tropezar con algún cable y provocar interrupciones en el funcionamiento de los servidores.

Sistemas contra incendios: Los extintores y detectores de humo son elementos de gran importancia. Lo ideal es utilizar un sistema combinado de agua y gas para apagar incendios. Se deben instalar detectores de humo y sensores de temperatura por todo el centro de datos para poder supervisar las condiciones y controlarlas por zonas.

Controles de temperatura: La alta disponibilidad es mejor en ambientes frescos. Hay que procurar mantener la temperatura en los centros de datos a unos 20 grados Celsius. Aunque los equipos de escritorio y los servidores individuales están equipados con ventiladores de refrigeración para las CPU, estos ventiladores no tienen la capacidad necesaria para enfriar el aire lo suficiente para los servidores de datos y otros equipos sensibles al sobrecalentamiento. No se debe confiar en el sistema de aire acondicionado del edificio, ya que suele estar apagado por las noches y los fines de semana.

Controles de humedad: La humedad elevada puede generar condensación en los equipos, mientras que una humedad baja puede aumentar la presencia de electricidad estática. Las oscilaciones amplias de humedad pueden provocar que los circuitos electrónicos se dilaten y contraigan y el sistema de circuitos se averíe. El nivel de humedad relativa del centro de datos debe mantenerse entre el 40 y el 45%.

Sistema de alimentación redundante: Siempre hay que estar preparado ante posibles cortes de suministro generalizados y locales para evitar periodos de inactividad prolongados. Cuando se produce un corte del suministro eléctrico, las baterías de reserva suministran la autonomía suficiente para realizar un cierre ordenado del sistema. Si los equipos deben seguir funcionando, entonces el centro de datos debe contar con generadores de reserva redundantes en los equipos eléctricos críticos, incluido el sistema de refrigeración.

Suministros de alimentación redundantes: En el centro de datos, los circuitos o los cables en malas condiciones pueden cortar el suministro eléctrico de un solo componente o de una agrupación de equipos. Los suministros de alimentación redundantes de cada agrupación de equipos pueden evitar que un solo circuito en mal estado sea el causante de toda la inactividad del sistema. Si se produce un corte generalizado, el suministro de alimentación redundante utiliza una fuente de alimentación secundaria.

Conexiones de datos redundantes: Si las conexiones de voz o datos con el data center no funcionan, los usuarios no pueden obtener acceso a los servidores y por tanto tendrán dificultades para comunicarse con los sitios secundarios. Hay que asegurarse de que las conexiones de voz y datos de alta velocidad sean redundantes. De este modo, si el servicio de un proveedor de comunicaciones deja de funcionar o su servicio se suspende temporalmente para realizar tareas de mantenimiento, un proveedor de servicios secundario permitirá a los usuarios tener acceso a la información que desean y al personal comunicarse con los sitios secundarios, si es necesario.

Sistemas de copia de seguridad: Los dispositivos de copia de seguridad automatizados que insertan y extraen mecánicamente las cintas son elementos esenciales para las salas de servidores de grandes dimensiones. El sistema de copia de seguridad que se utilice debe estar capacitado para realizar automáticamente todos los tipos de copia de seguridad especificados en el plan de recuperación ante desastres sin necesidad de intervención humana.

Almacenamiento remoto: Si las copias de seguridad de la base de datos se guardan en el mismo centro de datos, tanto el sistema de producción como todas las copias de seguridad podrían destruirse si se produce un desastre. Este problema puede evitarse almacenando las copias de seguridad en ubicaciones remotas.

Medidas de seguridad: Para impedir que posibles intrusos penetren sin autorización en el centro de datos, el personal y los visitantes deberán acreditar su identidad y cualquier movimiento de entrada y salida deberá quedar registrado. Las cámaras de seguridad son una medida eficaz. En cuanto a los intrusos virtuales, se debe reforzar la seguridad en cada servidor mediante sistemas de software como firewalls y programas de detección de intrusos. Más importante aún, mantener políticas de seguridad, como por ejemplo obligar a los empleados a cambiar con frecuencia sus contraseñas.

Espacio: El centro de datos debe ofrecer el espacio suficiente para acomodar los equipos y a los empleados, así como para un posible aumento de maquinaria y efectivos. La reubicación de los equipos provoca a menudo tiempos de inactividad. Asimismo, proporcionar el espacio adecuado para los empleados es muy importante para su productividad, puesto que su disponibilidad aumenta.

Centros de datos redundantes: Como medida de seguridad ante posibles desastres que puedan producirse en una oficina, muchas empresas instalan servidores redundantes tanto en el centro de datos principal como en el secundario. De esta forma, se cuenta con la garantía de que el servidor secundario no dejará de funcionar si se produce una catástrofe en la oficina principal. Si todos los servidores deben estar físicamente en el mismo centro, lo adecuado entonces es conectarlos a distintas cajas de alimentación para ofrecer cierto grado de protección contra posibles desastres localizados.

La Preocupación por el Hardware

Según la consultora Gartner, sólo un 20% de los fallos que ocurren en un entorno empresarial son atribuibles directamente al hardware. Pero para que esta cifra sea aún menor, se debe poner en marcha una infraestructura que contenga pocos puntos de fallo, combinada con un programa adecuado para sincronizar la duplicación de datos entre los sistemas de producción y un entorno de reserva formado por servidores de respaldo y dispositivos de almacenamiento.

Debido a esto, una compañía que posee una infraestructura de hardware bajo las normas de "alta disponibilidad", sin lugar a dudas tendrá una ventaja sobre la competencia, ya que demostrará un 100% de operabilidad en sus servicios, lo que finalmente se refleja en la satisfacción del cliente o en la facturación final.

Existen varios factores que se deben tomar en cuenta para que el hardware esté funcionando correctamente, entre ellos, los más importantes son:

Correcta actualización: El uso de componentes y controladores de firmware o software obsoletos puede ocasionar incompatibilidades de software y reducir la disponibilidad. La instalación de componentes actualizados con las revisiones de controladores de firmware y software correctas reduce el riesgo de que este tipo de problemas disminuyan la disponibilidad.

Certificación: Los elementos que conforman la solución, desde el hardware hasta la aplicación final, pasando por todos los componentes de sistema operativo y herramientas de apoyo relacionadas con la administración del almacenamiento, deben estar soportados y certificados por cada uno de los fabricantes participantes de la solución. De esta forma, se evitan improvisaciones y facilitan las tareas de jerarquización de eventuales problemas.

Capacidad suficiente: Si se utilizan recursos insuficientes de almacenamiento, memoria o procesador, la sensación de poca disponibilidad se hace patente, porque los centros de datos responden con lentitud a las solicitudes de los clientes y los errores de tiempo de espera aumentan. Los problemas producidos por la insuficiencia de recursos de memoria se solucionan agregando más de estos dispositivos. Los de procesamiento insuficiente, en cambio, se resuelven añadiendo más procesadores o bien que éstos sean más rápidos. Por otro lado, la falta almacenamiento se puede superar agregando más discos y controladores. Para aumentar todavía más el rendimiento del subsistema de almacenamiento, se puede utilizar una red de área de almacenamiento (SAN), que está formada por varios discos conectados a uno o más servidores por medio de una conexión Fibre Channel de alta velocidad.

Soluciones de redundancia: Lo más adecuado es utilizar copias de seguridad de bases de datos, archivos y registros de transacciones como medida de seguridad ante posibles errores de hardware.

Unificación de marcas: En la medida de lo posible, se debe evitar los entorno multimarca de equipos. Aunque se estandarice la plataforma al 100% con los servidores y el sistema operativo de un único proveedor, en el entorno seguirán habiendo elementos de otras marcas, como routers de tráfico en Internet, dispositivos de comunicaciones, sistemas de gestión de bases de datos, aplicaciones y middleware. La interacción entre estos elementos no es siempre sistemática y las ampliaciones y actualizaciones pueden provocar un comportamiento inesperado en otra parte del ambiente, aunque todos los productos cumplan con estándares abiertos.

El software de Administración

Según David Chernicoff, redactor técnico y director de la sección "Laboratorio" de la revista Windows 2000 Magazine, lo primero que se debe buscar en un servidor fiable, aún a riesgo de parecer osados, es un buen software de administración de sistemas (además de una correcta configuración), algo que incluyen los servidores de primer nivel de todas las marcas por norma.

Este primer nivel de software incluye, normalmente, servicios básicos de administración de sistemas y de generación de informes sobre el estado de los mismos. "Por regla general -dice Chernicoff- los sistemas son totalmente compatibles con estándares de administración de sistemas, como DMI (Desktop Management Interface o Interfaz de Administración de Equipos de Escritorio) y CIM (Common Information Model o Modelo Común de Información), que les permiten suministrar datos a herramientas de administración de sistemas".

Al mismo tiempo, la compatibilidad de los sistemas con estos estándares permite acceder a abundante información de cada uno de los sistemas, sin necesidad de invertir fuertes sumas en herramientas de administración de sistemas a gran escala.

Las herramientas de administración de sistemas de primer nivel ofrecen la información estrictamente necesaria para conocer en todo momento el "estado de salud" y, de paso, el rendimiento de los servidores. Estas herramientas básicas permiten monitorizar el voltaje del sistema, la velocidad de los ventiladores y la temperatura, así como detectar determinados tipos de fallos de hardware.

"Cuando el firmware o el software de administración de sistemas detecta tales fallos, puede actuar de dos formas: en unos casos, por ejemplo, cuando detecta caídas o subidas transitorias de tensión, el software se limita a mostrar mensajes de alarma; en otros casos, como cuando detecta el funcionamiento defectuoso de un ventilador, el software no sólo advierte al administrador de la red del peligro existente mediante un mensaje de alarma, sino que también transfiere la tarea de la ventilación a otros ventiladores del equipo", explica el experto.

Según esta perspectiva existen algunos puntos a considerar a la hora de elegir e implementar el software:

Evitar errores de software: Los problemas de servicio provocados por errores de aplicación, pérdidas de memoria y bloqueos excesivos pueden aumentar la no disponibilidad de los centros de datos. Es preciso asegurarse de que el diseño de las aplicaciones implementadas sea el adecuado y se haya probado, que los procedimientos personalizados de almacenamiento extendido no provoquen pérdidas de memoria y que el diseño de la aplicación no genere demasiados bloqueos.

Programación de actualizaciones y mantenimiento: Esta labor es trascendental para hacer rendir al máximo los nuevos valores de las versiones de software que se tenga. En el caso de los productos de Microsoft, por ejemplo, para actualizar los Service Packs de SQL Server, puede que el sistema operativo Windows 2000 o el servicio SQL Server tengan que reiniciarse. La instalación de un Service Pack de SQL Server requiere que SQL Server se establezca en modo de usuario único y, a continuación, reiniciar SQL Server. Además, existen otros tipos de mantenimiento planificado -como la adición de memoria extra, la inclusión de una unidad de disco duro o la actualización de una aplicación de servidor- que requieren la desconexión de un servidor para llevarse a cabo. Para evitar el tiempo de inactividad provocado por estos obstáculos de software, se puede implementar un clúster de conmutación por error automático o un trasvase de registros automático.

Bases de datos: Los errores de hardware pueden dañar las bases de datos. Para reducir el tiempo de inactividad producido por los daños en la base de datos, hay que asegurarse de realizar periódicamente una copia de seguridad de todas las bases de datos y almacenarlas en un lugar seguro. Constituyen la única forma de recuperar la información después de sufrir daños en las bases de datos.

Evitar los errores de usuario: La supresión accidental o malintencionada de los datos puede poner en peligro la disponibilidad del centro de datos. Para reducir al máximo o eliminar por completo los tiempos de inactividad producidos por errores, se debe hacer una copia de seguridad de la base de datos asiduamente. Dependiendo del alcance del error, se podrá recuperar la información perdida con la ayuda de un servidor alternativo. En los casos más graves, se tendrá que recuperar la información del servidor principal desde la copia de seguridad.

Software antivirus: Los virus pueden hacer que lo servidores dejen de funcionar. Así de simple. Para reducir estas amenazas se debe instalar las revisiones de seguridad e implementar el software antivirus en todos los equipos de la red.

Software para Monitoreo de Aplicaciones

Una de las áreas olvidadas de las disponibilidad de las aplicaciones se refiere al monitoreo del rendimiento de las aplicaciones. Los criterios tradicionales de disponibilidad medidos en términos del "uptime" de los servicios muchas veces ignoran aspectos de rendimiento de las aplicaciones que en casos extremos llevan a la indisponibilidad del servicio.

Hace unos cinco años, un importante banco chileno realizó una fuerte campaña de marketing respecto a las bondades de sus servicios de Internet. Todo iba bien hasta que hubo un problema en el sistema informático y el sitio web se cayó durante dos días y una vez que volvió presentó una serie de problemas que se reflejaban en los estados de cuenta.

Afortunadamente, en 1999 aún no estaba tan masificada la banca en línea, por lo cual los reclamos fueron pocos. Hoy, una situación así sería imperdonable. Por ejemplo, si una transacción bancaria en línea demorara aproximadamente 1 minuto en realizarse, el cliente lo consideraría como una indisponibilidad en el servicio, especialmente en las horas peak.

Debido a esto, no sólo es importante tener un sistema de alta disponibilidad, sino que además se debe monitorear constantemente el "desempeño de los procesos" informáticos que se realizan segundo a segundo, especialmente si son transacciones, como es el caso del mercado financiero.

Es importante entonces que el proveedor tecnológico no sólo implemente una solución de alta disponibilidad, sino que además posea un soporte constante y en línea, ante cualquier problema en el sistema.

Políticas y Procesos

Puede que existan un sin fin de herramientas para prevenir la caída de los sistemas y lograr que los 5 nueves sean una realidad, pero sobre cualquier implementación es importante que exista una política de seguridad y un sistema de procesos pensado inteligentemente para evitar cualquier problema.

Lo primero en este punto es invertir en desarrollo y validar los procedimientos operativos estándares del centro de datos. Se debe invertir tiempo y esfuerzo en comunicarlos al resto de la empresa, instando al personal para que los observe y hagan cumplimiento de las diversas auditorías. Además, dichos procedimientos se deben revisar y actualizar periódicamente si fuese necesario.

Si se dispone de procesos eficaces, disminuirán las sorpresas y se garantizará un comportamiento uniforme y bien definido en áreas tales como operaciones, ampliaciones y actualizaciones, gestión de sistemas, gestión de seguridad y capacidad de respuesta ante fallos. Estas simples "políticas" pueden prevenir muchos fallos que son comunes en toda corporación.

Además, se debe prestar una especial atención a los procesos de actualización de su entorno o de adición de nuevos elementos a sus equipos. Puede que se presenten dependencia inesperadas entre directorios, configuraciones y estructura de archivos que provoquen un fallo del sistema a menos que se examinen y se actualicen al mismo tiempo.

Dentro de este contexto, los proveedores de soporte también son una clave para la estrategia de aumentar los "9" en la disponibilidad informática. Éstos le ayudarán a optimizar su entorno de misión crítica, poner en marcha un programa de mantenimiento y monitorización proactiva y responder con rapidez y eficacia ante cualquier fallo, además de poder prestar servicio para productos de varios proveedores.

En resumen, para lograr una alta disponibilidad de los sistemas no existe una única fórmula, sino que son varios los factores que se deben tomar en cuenta, ya que se necesita de una "estrategia global" que incluya software, hardware, el entorno y a los empleados de la empresa. Todos estos factores deben constituir parte de una orquesta perfectamente armonizada y preparada para interpretar por ejemplo, la famosa Sinfonía Nº 9 de Beethoven.