Ralentissement sur le web à cause des tables de routage IP

Le web a eu quelques ratés hier et l’origine de la panne se trouverait dans la mise à jour des tables de routage de certains équipements cœurs de réseau.

Que s’est-il passé dans la journée de mardi avec les infrastructures réseaux du web ? Une série de perturbations a été recensée parmi les opérateurs télécoms (BT, AT&T, Comcast, Level3, Swisscom…) et les hébergeurs de services IT comme Infomaniak en Suisse.

L’origine de la panne serait identifiée. Elle serait liée aux tables de routage IP utilisées par les routeurs cœurs de réseaux et qui servent à organiser le routage des paquets entre différents ASN (réseaux qui composent Internet).

Un spécialiste indépendant des réseaux résume la situation comme telle : « Quelque part dans le monde, un réseau a ‘annoncé’ plus de 512 000 routes IPv4 dans la table de routage global. Du coup, les routeurs qui n’avaient pas été mis à jour pour dépasser ce cap ont planté. Il a fallu chercher l’erreur, corriger, et rebooter les routeurs. » Or, relancer des routeurs, pièces centrales d’une infrastructure réseau et derrière lesquels se trouvent des milliers de serveurs ou des millions d’internautes, n’est pas une mince affaire, selon nos confrères d’ITespresso.

Les routeurs Cisco pointés du doigt

Dans une contribution en date du 12 août sur le blog Nux (Open Source, réseaux, cloud…), des détails de la mésaventure à l’échelle mondiale sont avancés. « [Les soucis] proviennent de modèles de routeurs Cisco très populaires parmi les administrateurs réseaux qui admettent par défaut 512 000 routes IPv4. Ce qui n’a pas été suffisant pour prendre en compte la table de routage global. Voilà pourquoi au Royaume-Uni, l’impact a été ressenti auprès de petites sociétés comme Coreix mais aussi auprès de plus grandes entreprises comme BT. On peut imaginer un effet similaire à un niveau mondial. »

En mars 2014, il était entendu que, pour la première fois dans l’histoire de l’Internet, la barre des 500 000 routes dans la table de routage global avait été dépassée. Mais, encore faut-il que les administrateurs réseaux procèdent à des ajustements sur les routeurs pour absorber convenablement cette augmentation inévitable de routes.

Cedexis : alerte indisponibilité confirmée

De son côté, Cedexis, qui a vocation à « comparer en temps réel la qualité de service des hébergeurs et diffuseurs de contenus (cloud, CDN) puis aiguille le trafic vers le plus performant d’entre eux », a aussi constaté des dégradations assez importantes d’accès aux services chez plusieurs prestataires IT.

Cette société IT d’origine française a relevé des anomalies entre l’Europe et les Etats-Unis à partir des données issues de son « radar » : chute d’indisponibilité chez trois spécialistes CDN (content delivery networks, diffusion des contenus avec des serveurs caches de proximité) principalement sur l’Europe, des pics d’indisposition depuis la plupart des fournisseurs d’accès Internet, et surtout une série de prestataires de services cloud dans les choux.

On en arrive à un son de cloche identique, peut-on lire dans une contribution blog toute fraîche de Cedexis : « Le 12 août, quelqu’un (un ASN) a annoncé plus de 512 000 routes. En toute logique, cela s’est propagé de réseau en réseau (de routeur en routeur) comme le veut le fonctionnement même du réseau global… et c’est là que quelques sociétés ont commencé à transpirer. Pourquoi ? Parce que des routeurs n’ont pas été mis à niveau pour prendre en compte plus de 512 000 routes alors que cela est pourtant connu. »

Comme pour la mise en place massive d’IPv6, la mise à niveau des matériels critiques semble parfois prendre son temps… au détriment de la résilience et de la performance des infrastructures.

Alcatel-Lucent propose une approche cloud pour les opérations réseaux

Lire aussi : AWS rend les adresses IPv4 publiques payantes : et maintenant ?