BlizzCon 2018: Entre Bastidores en Blizzard


En el panel "Entre Bastidores en Blizzard", el equipo de operaciones en vivo ha discutido de cómo trabajan para mantener los servidores el máximo de tiempo activo, mitigar problemas y acerca de las nuevas tecnologías que han desarrollado para provocar que los nuevos lanzamientos de nuevos juegos/parches/hotfixes vayan sin problemas y con el mínimo de tiempo con los servidores desconectados como sea posible. Os traemos aquí un resumen de lo hablado en el panel:

  • El trabajo en el equipo de operaciones en vivo puede ser estresante.
  • Cuando alguien detecta un problema, ya sea el equipo de soporte para avisar de problemas que han tenido los jugadores u otros miembros de diferentes equipos, se ponen en contacto con el equipo de operaciones para avisarles cual es el problema y/o que está siendo afectado por este incidente, esto puede ser muy difícil muchas veces ya sea por falta de información o porque solo hay pocos casos en lo que ocurre. Una vez sepan lo que está pasando, se busca que está causando el problema y las soluciones.
  • Se sigue un modelo de identificar el problema, mitigarlo lo más rápido posible para que los jugadores puedan jugar y luego resolver el problema para que no vuelva a ocurrir.
  • Antes de lanzar una solución para mitigar el problema, se hacen pruebas para evitar que la mitigación no genere más problemas.
  • El equipo de operaciones en vivo se tiene que preparar antes de lanzar nuevas expansiones o contenido ya que de lo normal en el momento que se lanza, todos los jugadores quieren entrar a la vez, y pueden sobrecargar los servidores, como saben que esto está por venir se realizan pruebas para encontrar problemas y zonas débiles y así, poder arreglarlos antes del lanzamiento para que sea lo más fluido posible.
  • Uno ejemplo de pruebas realizadas antes de un lanzamiento fue con Overwatch, se realizaron pruebas para ponerle mucha carga a los servidores, y al hacer esto, los servidores de logeo de battle.net dejaron de funcionar. Al descubrir esto, pararon las pruebas y se pusieron a investigar para que no pasara en el lanzamiento, y así fue.
  • Un ejemplo de un problema era con el lanzamiento de la expansión de Hearthstone: Knights of the Frozen, en el cual los jugadores estaban en cola demasiado tiempo, el error estaba en que los jugadores que desconectaban en medio de la cola (los llaman "jugadores fantasmas" por qué están pero a la vez no) hacia que el servidor esperara 10 segundos antes de permitir al siguiente jugador entrar al juego, ahora imaginémonos que hayan 20 "jugadores fantasmas" en cola, ya son 200 segundos de espera para el jugador que viene después de estos jugadores. Para solucionarlo se ha aumentado la cantidad de personas que se pueden logear de forma simultánea a 10 jugadores, así si hay un "jugador fantasma" otros 9 jugadores no están esperando para entrar, y si hay varios "jugadores fantasmas" seguidos en cola solo se espera 10 segundos para todos estos a la vez, cuando antes eran 10 segundos para cada "jugador fantasma".
  • Cuando un juego se desarrolla pasa por varias etapas: Diseño, pruebas e iteracción. Si algo no va bien en alguna etapa o se tiene que cambiar, vuelve al principio y así hasta que el juego este completo. Es por eso por lo que no se dan muchas fechas de lanzamientos con mucho adelanto, o las típicas respuestas de SoonTM/El juego está listo cuando está listo.
  • Aparte de problemas de carga de servidor y de logeo, especialmente cuando se lanzan nuevas expansiones, el formato en cómo se guarda la data de los jugadores cambia, y si algún jugador muy antiguo quiere entrar, esto puede causar errores, así que esto es otro aspecto en el cual se tienen que hacer pruebas para ver cómo reacciona el servidor ante esta data y si puede manejarla y convertirla de forma correcta. Pero claro, no se puede hacer pruebas sobre toda la data de todos los jugadores así que solo se usa una parte de la data que se vea más apropiada y se realizan pruebas sobre ellas.
  • Antiguamente, se tenían que cerrar los servidores durante varias horas para realizar mantenimiento sobre ellos y asegurarse de que funcionen de forma correcta, esto se tenía que hacer, aunque sean para realizar pequeños arreglos en los servidores.
  • Blizzard quería ver un mundo donde el tiempo de mantenimiento sea el mínimo, esto se llamaba la iniciativa 99.9 y para cumplirlo buscaron soluciones en todos los servicios para mantener todos los servidores activos la mayor cantidad de tiempo posible.
    • Una de las cosas principales que provocaba tiempos de mantenimientos largos eran la cantidad de pruebas que los empleados tenían que realizar para verificar que el servidor funciona bien, estas listas eran muy grandes y requerían a muchas personas y por lo cual podían tardar horas. Para solucionar esto, muchas de estas tareas se han automatizado y la lista que los empleados tienen que realizar se ha reducido muchísimo, permitiéndoles así reducir de forma masiva el tiempo necesario para realizar mantenimientos.
    • Para evitar tener que reiniciar los servidores y realizar las pruebas para pequeños cambios como son los Hotfixes, se implementó un sistema llamado "Red Blue Swapping", empezó y se probó en Diablo 3 y funcionaba en que en vez de cerrar el servidor para aplicar cambios, se iniciaba de forma paralela el servidor con los cambios y todas las nuevas conexiones serian a ese servidor nuevo, los jugadores que ya estaban jugando cuando este servidor se inicia no serán desconectados del actual y podrán seguir jugando como si nada, ya una vez se desconectan y se vuelven a re-conectar automáticamente se conectan al servidor nuevo, y finalmente cuando ya nadie esté conectado al antiguo servidor este se termina.

Back to top