22

Bericht aus dem NOC - DFN · Full WDM functionality Redundante RCP_24T Redundante Power Filter Module (PFM24) FCM24 Lüfter, CEM24 externe Schnittstelle Management, Clock etc Eckdaten

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • Bericht aus dem NOC69. Betriebstagung | 26.09.2018

    Dr. Thilo Scholpp

  • Agenda

    1. X-WiN Kernnetz▹ Optische Plattform▹ Optische Plattform Ausbau 2018

    2. X-WiN Statistik

    3. Havarien, Ausfälle und andere Missgeschicke

    4. Überraschung

    5. Ausblick

  • X-WiN Kernnetz

  • 5

    X-WiN Glasfasertopologie▸ Optik Planung 2018

    ▹ Umbau von Verstärkern zum Upgrade auf 200Gletzte Arbeiten im Oktober

    ▹ Upgrade Managementsystem auf V8.4 Abgeschlossen, nächster Schritt V9

    ▹ Leistungssteigerung Anwender▹ Upgrade im Backbone auf 200G▹ Erweiterung Standorte WUE, DUI und GAR (neue

    Chassis) Q4▹ Erweiterung BOC gleichzeitig mit Parallelaufbau neuem

    Standort - Q4▹ Parallelaufbau Standort Dresden und Umzug (Ende Q4)▹ Neue Faser Standort Kiel nach Desy inkl. Neuer ILA

    Standort (Q4)

    ▸ Ziele Skalierbarkeit Leistungssteigerung 2018

  • 6

    X-WiN Glasfasertopologie

    ▸ XwiN Ende 2018

    ▸ Skalierbarkeit für die Leistungssteigerung 2018

    ▸ Aufrüstung innerer Ring 200G

    ▸ Aufrüstung äusserer Ring 200G

    ▸ Ausblick XWiN 2019

    ▸ Aufrüstung 8 Spangen auf 100G

  • Optik-Plattform

    ▸ ECI Apollo 24 Slot 9624 oder 8 Slot 9608▹ ODU Cross Connect▹ Ethernet Layer 2/MPLS/Layer 3 switching▹ Full WDM functionality▹ Redundante RCP_24T▹ Redundante Power Filter Module (PFM24)▹ FCM24 Lüfter, CEM24 externe Schnittstelle

    Management, Clock etc

    ▸ Eckdaten (physisch) Apollo 9624▹ Einbauhöhe: 15 HE▹ Einbautiefe: 30 cm (ETSI)▹ 1 Tbps Fabrik

    7

  • Optik-Plattform

    ▸ ECI Apollo 8 Slot 9608

    8

    ECI Apollo 24 Slot 9624

    ▸ ECI Artemis 2A Shelf

  • 9

    X-WiN - kleine Stat ist ik,09/2018

    ▸ Optik▹ 110 Standorte davon

    65 optische Kernnetzstandorte, 45 Repeater und 11 DWD Standorte

    ▹ 214 optische Geräte (ECI Chassis)▹ 146 Glasfasern, mit insgesamt 7384 km Länge▹ 56 verschiedene Carrier davon 47 aktiv▹ 328 optische Kanäle (1, 10, 100, 200 GE)▹ 77 optische Trunk Kanäle▹ 865 angeschlossene Protokoll Leitungen

  • 10

    X-WiN - kleine Stat ist ik,09/2018 ▸ Router

    ▹ 52 Router Standorte▹ 58 Cisco ASR 907▹ 4 Cisco ASR 9010▹ 4 Cisco ASR 9912▹ 77 Cisco Switche WS-C3650▹ 59 MP Standort Workstation▹ 6 MS Mess Workstation▹ 865 angeschlossene Protokoll Leitungen▹ 1546 aktive Internet Dienste▹ 1064 aktive IP Anschlüsse▹ 2236 aktive BGP sessions▹ 835 aktive IPv4 BGP Anwenderanschlüsse▹ 369 aktive IPv6 BGP Anwenderanschlüsse

    → wir routen IPv4 und IPv6 Dual Stack !!!

    ▹ 189 statische Anwenderanschlüsse IPv4 & IPv6→ Einfachanbindung, bitte denken Sie über einen redundanten Anschluss nach

  • 11

    X-WiN – Optik & IP Plattform ▸ Arbeiten im Netz 2018

    ▹ 8911 Wartungsmeldungen seit 2006551 seit 06/2018

    ▹ ca. 28 nächtliche Umbauarbeiten im Optischen Netz▹ ca. 37 Tages Umbauarbeiten im Optischen Netz▹ ca. 667 Migrationen Teilnehmeranbindungen▹ ca. 120 Leistungssteigerungen▹ 58 Software Upgrade‘s ASR 907

    in der Regel zwischen 5h und 7:30h Vormittags ▹ 51 Cases insgesamt beim Cisco TAC eröffnet ▹ 8 Software Upgrade‘s ASR 9010, ASR 9912

    in der Regel zwischen 5h und 7:30h Vormittags▹ 17 Cases zu Core-Routern beim Cisco TAC eröffnet▹ Seit 06/2018 ca. 2740 neue Tickets im Ticketsystem▹ ca. 2347 NOC Hotline Telefonanrufe 2018 (geschätzt)▹ Über 300 Videokonferenzen und Besprechungen seit 2018

  • 12

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ Momentan offene Cisco SRs1. SR 685131266 flowspec rule present but not working ASR9k2. SR 684933177 %ROUTING-FIB-3-UPD_MSG_TOO_BIG ASR9k3. SR 684404196 A99-RP2-SE// severe routing issues ASR9k4. SR 682459166 PLATFORM-NP-3-RFD_ERROR after link flap ASR9k5. SR 685228613 Traffic drops after upgrade ASR9k6. SR 685238894 Fehlerhafte BW-Begrenzung Bundle-Subinterfaces ASR9k7. SR 999999999 SNMP Probleme ASR9k8. SR 684969429 spontaneous redundancy switchover c9079. SR 684351987 Router stopped forwarding packets c907

    ▸ in 2018 geschlossene ASR9k SRs: 16

    ▸ in 2018 geschlossene ASR907 SRs: 10

  • 13

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ Havarie cr-fra2 in den Morgenstunden des 30.04.2018

    Symptome aus DFN Sicht: „Ausfälle“ der Router

    ar-dor1 ar-boc1 ar-aac1 ar-bir1 ar-bon1 ar-fzk1 ar-kai1 ar-kai1 ar-saa1, ...

    Cisco SR 684401378: Major outage due to forwarding problems

    Symptom aus Cisco Sicht

    Tomahawk NP issue due to ICFD queue and TCAM errors in CXR and EXR

    Bug CSCvf86186

    An NP stall can happen due to TCAM errors. This will result in multiple NP Fast Resets

    and eventual linecard reload to recover.

  • 14

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ Havarie cr-fra2 in den Morgenstunden des 30.04.2018

    Conditions CSCvf86186

    There is an error in the TCAM which causes the NP to stall when interacting with the TCAM.

    Workaround

    No work around to avoid these very rare TCAM errors.

    LC reload is the Auto-Recovery action from TCAM stall problem.

    Further Problem Description:

    This enhancement allows the detection and recovery of these TCAM errors. The linecard will trigger

    an NP fast reset and recover the TCAM memory. This will mitigate the recovery from a full linecard

    reload to just a quick NP fast reset.

  • 15

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ SR 684404196 A99-RP2-SE// severe routing issues ASR9k

    ▸ „Konvergenzprobleme“ im Routing/Forwarding wenn man die CRs

    rebootet/upgraded/...

    im Prinzip schon länger bekannt

    ▸ im Zuge der Havarie am cr-fra2 aber erstmals richtig greifbar

    ▸ 30.4 neuer Cisco SR geöffnet

    ▸ 17.5. Webex morgens liefert eindeutige RIB/FIB Probleme

    ▸ 29.5. RH: BU im Boot. Lab repro geplant

    ▸ 14.6. erste Lab Tests

    ▸ 10.7 Webex mit Lab. Hinweis, dass die Hardware nicht dieselbe ist

  • 16

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ SR 684404196 A99-RP2-SE// severe routing issues ASR9k

    ▸ 12.07 „BU: das Problem kann nicht reproduziert werden

    ▸ 24.7. nochmals Hinweis auf verschieden Hardware Lab/DFN

    ▸ 20.8 Lab mit im WiN verwendeten LCs ausgestattet (ohne VSM) und

    Internet-Routingtable verwendet

    ▸ 22.8. Repro mit VSM erfolgreich

    ▸ 27.8. workaround: disable flow-control

  • 17

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ SR 684404196 A99-RP2-SE// severe routing issues ASR9k - Fehlerursache:

    ▸ auf den vier inneren ASR9912 setzen wir RPs vom Typ A99-RP2-SE ein

    ▸ auf diesen ist für die Kommunikation mit den LCs ein kleiner ein Switch

    ▸ per default ist diesen Ethernet Flußkontrolle aktiviert

    ▸ u.a. wird auch die FIB von RP zu den LCs verteilt (multicast)

    ▸ auch zu den VSM Modulen (low prio → pause frames)

    ▸ die anderen LCs werden dadurch „ausgebremst“

  • 18

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ Offene c907 SRs.▸ IP Forwarding:

    ▸ plötzlich auftretende Paketverluste allgemein

    ▸ plötzlich auftretende Paketverluste nur für bestimmte Flows

    ▸ keine Übereinstimmung im Forwarding mit RIB und FIB

    Alle genannten Probleme treten auf, ohne dass der Router irgendwelche Fehlermeldungen

    meldet. Workaround ist ein switchover auf den redundanten RP.

    Die Forwarding Probleme haben teilweise fatale Konsequenzen, da ganze Routerspangen die

    Verbindung verlieren können. Zudem treten sie häufig und regelmäßig im Zuge von

  • 19

    X-WiN – IP Plattform ▸ Havarien, Ausfälle und Cisco SRs

    ▸ Offene c907 SRs cont.▸ xconnect-Kontext:

    Forwarding-Pfad von Interface zu VC im Betrieb unterbrochen

    Workaround: service instance löschen/konfigurieren. Teilweise Änderung ID hierfür zwingend.

    ▸ RP crashes ohne crashinfo

    ein RP stellt den Dienst ohne Fehlermeldung ein.

    ▸ RMA eines RP nur dann ohne langen Ausfall möglich, wenn der Ersatz-RP den exakt selben

    Softwarestand besitzt.

    ▸ Probleme während eines IOS Upgrades

    Verlust SNMP config; LC boot dauert 30min; RP hängt 50min im „cold-bulk“

  • 20

    Ausbl ick▸ Upgrade auf Apollo V9 – Q1, 2018

    ▹ Flex Grid

    ▹ Erlaubt flexible Datenübertragungsraten und Modulationen

    ▹ Super-Channel (DWDM in welchem multiple Kohärente Kannäle

    zu einem gemeinsamen mit höherer Datenrate vereint werden)

    ▹ Keine Modifikationen erforderlich

  • Wussten Sie schon?

    ▸ Das NOC ist schon 25 Jahre alt DFN-NOC since September 1993

    ▸ Network Operation Center ▹ DFN Verein ▹ Fehlermanagement 24 x 7▹ Telefon: 0049 1805 008 447▹▹ Trouble Ticket System TTS▹ https://tts-xwin.dfn.de ▹ AS 680

    2001:638::/32 join IPv6 now!

  • Haben Sie noch Fragen?

    ▸ Kontakt▹ Hubert Waibel / Dr. Thilo Scholpp ▹ E-Mail: [email protected]▹ Telefon: 0049 711 63314 112▹▹ Anschrift:▹ DFN-NOC▹ Geschäftsstelle Stuttgart▹ Lindenspürstr. 32

    70176 Stuttgart

    ▸ Network Operation Center▹ DFN Verein ▹ Fehlermanagement 24 x 7▹ Telefon: 0049 1805 008 447▹▹ Trouble Ticket System TTS▹ https://tts-xwin.dfn.de ▹ AS 680

    2001:638::/32 join IPv6 now!

    Foliennummer 1Foliennummer 2Foliennummer 3Foliennummer 4Foliennummer 5Foliennummer 6Foliennummer 7Foliennummer 8Foliennummer 9Foliennummer 10Foliennummer 11Foliennummer 12Foliennummer 13Foliennummer 14Foliennummer 15Foliennummer 16Foliennummer 17Foliennummer 18Foliennummer 19Foliennummer 20Foliennummer 21Foliennummer 22