3
Aus Datenbergen entscheidungsrelevantes Wissen gewinnen Die richtigen Informationen zur richtigen Zeit am richtigen Ort bereit- zustellen: Dies ist einer der Schlüsselfaktoren für den Unternehmens- erfolg. Dell bietet zur Bewältigung der Datenflut zwei Lösungen: Erstens eine zertifizierte Hadoop-Referenzarchitektur auf Basis von Intel-basierten Dell-PowerEdge-Servern, um sehr große Datenmen- gen für Business-Entscheidungen aufzubereiten, und zweitens die Dell-Fluid-Data-Architektur zur effizienten Speicherung und Verwal- tung von Informationen. Autoren: Hans Schramm*/Michael Holzerland*

Aus Datenbergen entscheidungsrelevantes Wissen gewinnen ......Aus Datenbergen entscheidungsrelevantes Wissen gewinnen Die richtigen Informationen zur richtigen Zeit am richtigen Ort

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Aus Datenbergen entscheidungsrelevantes Wissen gewinnen ......Aus Datenbergen entscheidungsrelevantes Wissen gewinnen Die richtigen Informationen zur richtigen Zeit am richtigen Ort

Aus Datenbergen entscheidungsrelevantes Wissen gewinnenDie richtigen Informationen zur richtigen Zeit am richtigen Ort bereit-zustellen: Dies ist einer der Schlüsselfaktoren für den Unternehmens-erfolg. Dell bietet zur Bewältigung der Datenflut zwei Lösungen: Erstens eine zertifizierte Hadoop-Referenzarchitektur auf Basis von Intel-basierten Dell-PowerEdge-Servern, um sehr große Datenmen-gen für Business-Entscheidungen aufzubereiten, und zweitens die Dell-Fluid-Data-Architektur zur effizienten Speicherung und Verwal-tung von Informationen.

Autoren: Hans Schramm*/Michael Holzerland*

Page 2: Aus Datenbergen entscheidungsrelevantes Wissen gewinnen ......Aus Datenbergen entscheidungsrelevantes Wissen gewinnen Die richtigen Informationen zur richtigen Zeit am richtigen Ort

Informationen aus Daten

Big Data

Lösungen für das Managementgrosser Datenmengen

relevanten Daten möglichst effizient zu durchsuchen; das gilt für strukturierte, semi- und unstrukturierte Daten. Gemeinsam mit Partnern hat Dell Lösungspa-kete geschnürt, um riesige Datenberge effizienter erfassen, verarbeiten, analysieren und aufbereiten zu können. Bald unterstützt Dell auch die neue Intel® Distribution for Apache Hadoop Software (Intel® Distribu-tion).Einer der Kernbestandteile von Hadoop ist das Hadoop Distributed File System (HDFS), ein leistungsfä-higes, hochverfügbares Dateisys-tem, mit dem sehr große Daten-mengen verteilt auf mehreren Serverknoten (Nodes) gespeichert werden. Zum Einsatz kommt Hadoop etwa auf dem Dell-PowerEdge-Server R720XD (ein 2-HE-Rack-Server mit zwei Sockeln und Intel® Xeon® E5-2600 Prozessoren), dem C6220 (bis zu vier unabhängige, Hot-Swap-fähige 2-Sockel-Server-knoten in einem 2-HE-Gehäuse mit Intel® Xeon® E5-2600-Pro-zessoren) oder dem C8000. Der PowerEdge C8000 (ebenfalls mit Intel® Xeon® E5-2600 Prozesso-ren) bietet eine Shared-Infrastruc-ture-Lösung, mit der sich unter-schiedliche CPU-, GPU/

Bestandsaufnahme aktueller SpeicherstrategienRiesige Datenmengen zu erfassen, sie zu verarbeiten und aufzuberei-ten ist ein zentraler Baustein bei Big Data. Mindestens ebenso wichtig ist die Frage einer intelli-genten Speicherung. In Anbetracht des rasant steigenden Datenvolu-mens in nahezu allen Segmenten müssen die IT-Verantwortlichen auch ihre bisherigen Speicherstra-tegien auf den Prüfstand stellen. Alles zu speichern, ohne den Business-Wert der jeweiligen Information zu berücksichtigen, ist angesichts der Menge wirtschaft-lich unsinnig. Die Datenflut lässt sich in zwei große Bereiche untergliedern. Bei

innovative Konzept des PowerEdge C8000 erlaubt, den Server flexibel an unterschiedliche Applikationsszenarien anzupassen. Zur Datenauswertung dient die MapReduce-Funktion von Hadoop. Der von Google entwi-ckelte MapReduce-Algorithmus basiert auf einer automatisierten Parallelisierung von Arbeitsaufträ-gen. Im Bereich der Datenaufbe-reitung hat Dell ein Ecosystem mit Partnern wie Pentaho, Datameer, Paraccel und Katinga aufgebaut. Während die BI-Plattform von Datameer (DAS, Datameer Ana-lytics Solution) mit einer tabellari-schen Darstellung arbeitet, verwendet beispielsweise Pentaho eine grafische ETL (Extract, Transform and Load)-Umgebung, um Hadoop-MapRe-duce-Aufgaben auszuführen und zu verwalten.

Coprozessor- und Storage-Ein-schübe in einem 4 HE hohen Gehäuse verbinden lassen. Über Infrastruktur-Pools ist eine gemeinsame Nutzung von Ressourcen für Rechenleistung, Storage, Stromversorgung und Kühlung möglich. Das flexible und

dem „kleineren“ Segment handelt es sich um sogenannte strukturier-te Daten, beispielsweise die Datenbanken, wie sie von den betriebswirtschaftlichen Stan-dardapplikationen genutzt werden. Hier ist über die Jahre hinweg ein stetiges Wachstum zu verzeichnen. Die echten Herausforderungen ergeben sich jedoch erst bei den unstrukturierten Daten, und hier sehen sich die IT-Abteilungen mit einem immensen Wachstum und einer enormen Vielfalt konfrontiert. Das Spektrum reicht von E-Mails und Instant Messages über PDFs und Office-Dokumente jeder Art bis zu Audio- und Videofiles.

Fluid-Data-Lösungen von DellDell bietet mit seinem Storage-Konzept Fluid Data für all diese Themen einen umfassenden Ansatz. Der erste Eckpfeiler ist das automatische, dynamische Tiering. Erfahrungen aus Storage-Assess-ments zeigen, dass Unternehmen bis zu 90 Prozent der gespeicher-ten Daten nie wieder benötigen. Von den verbleibenden 10 Prozent werden dann etwa zwei Drittel nur noch ein Mal aufgerufen. Es liegt also nahe, sich mit der Datenklas-sifizierung zu befassen – eines der Kernelemente von Fluid Data.Demnach werden Daten ihrer Bedeutung nach an der effektivs-ten Stelle eines Systems gespei-chert. Informationen, auf die häufig zugegriffen wird, liegen auf schnellen und kleinen Medien (zum Beispiel 15k-SAS-Platten oder SSD-Laufwerke). Daten, die selten benötigt werden, speichert das System auf großen und kosten-günstigen Medien (beispielsweise Nearline-SAS-Platten). Dieser Vorgang geschieht dynamisch und automatisch: Die Informationen werden zunächst schnell geschrie-ben, werden sie nicht benötigt, verlagert das System sie auto-ma-tisch auf langsamere Medien. Ein zweiter Eckpfeiler ist die effiziente Speicherauslastung mit Thin Provisioning, denn das

Ähnlich wie im 19. Jahrhundert scheint heute wieder ein neuer Goldrausch ausgebrochen zu sein. Allerdings werden keine Flussland-schaften umgepflügt, sondern es wird in digitalen Datenbergen nach wertvollen Informationen ge-forscht. Marktforscher IDC schätzt, „dass sich die Datenmengen, die innerhalb eines Jahres erstellt, vervielfältigt und konsumiert werden, bis 2020 alle zwei Jahre verdoppeln.“ Es werde aber nur ein halbes Prozent der weltweiten Datenbestände analysiert, der Rest lediglich archiviert und vieles bald wieder gelöscht, so IDC.Die riesigen Datenmengen entstehen durch eine Reihe neuer Technologien, die Unternehmen dabei unterstützen, agiler und innovativer zu werden. Im Wesent-lichen sind es drei große Bereiche, die für das enorme Datenwachs-tum verantwortlich zeichnen: erstens Bilddaten wie Grafiken, Bilder und Videos, zweitens Daten, die auf den unterschiedlichsten Social-Media-Plattformen erzeugt werden und drittens durch Maschinen generierte Daten im „Internet der Dinge“. Durch eine rasche, manchmal sogar in Echtzeit erfolgende Auswertung großer Datenmengen wird die Grundlage für wichtige Business-Entscheidungen geschaffen oder

erweitert. Wer jetzt beginnt, sehr große Datenmengen zu analysie-ren, verbessert seine Entschei-dungsprozesse. Unternehmen aus dem Konsumgütersektor können zum Beispiel schneller und effizienter auf ein verändertes Kun-denverhalten reagieren und damit Wettbewerbsvorteile erzielen. Produzierende Unternehmen können beispielsweise auf Basis maschinell erzeugter Daten (Sensordaten) ihre Fertigungspro-zesse optimieren.Auf den ersten Blick handelt es sich um große Datenmengen, und in Zukunft wird es um noch deutlich größere Volumina gehen. Aber die Bedeutung des Themas ist weitaus komplexer. Die Daten-menge ist nur einer von drei zentralen Aspekten. Der zweite ist die enorme Vielfalt an strukturier-ten, semi- und unstrukturierten Informationen (Bilder, Blogs, Chats, Dokumente, Videos, etc.), die das Datenwachstum massiv antreiben. Der dritte schließlich betrifft die schnelle Entstehung und Veränderung dieser Daten. Entscheidungsrelevante Erkennt-nisse aus der Datenflut zu gewin-nen, ist eines der Kernthemen, um einen Vorsprung gegenüber dem Wettbewerber zu haben oder schneller auf unvorhergesehene Business-Ereignisse

reagieren zu können. Aus Sicht der IT bringen große Datenmengen vor allem vier neue Herausforderungen: die Verarbei-tung, Analyse, Speicherung und Bereitstellung rasant wachsender Datenmengen. Aus Sicht der Fachabteilungen stellt sich die Frage: In welcher Weise kann ich meinem Business einen Vorteil verschaffen? Je nach Herausforde-rung bieten sich dabei unter-schiedliche Lösungsansätze an. Im Kern geht es darum: Wie können die Daten ermittelt und aufbereitet werden, damit sie für Big-Data-Analysen schnell und umfassend zur Verfügung stehen? Sehr große Datenmengenerfassen und verarbeiten„Big Data bezeichnet die wirt-schaftlich sinnvolle Gewinnung und Nutzung entscheidungsrele-vanter Erkenntnisse aus qualitativ vielfältigen und unterschiedlich strukturierten Informationen, die einem schnellen Wandel unterlie-gen und in bisher ungekanntem Umfang anfallen“, schreibt BITKOM in einem aktuellen Leitfaden zu Big Data (1).Klar ist: Big Data erfordert einen neuen Umgang mit Informationen. Es geht es immer darum, sehr große Datenmengen zu speichern und die aus Business-Sicht

Page 3: Aus Datenbergen entscheidungsrelevantes Wissen gewinnen ......Aus Datenbergen entscheidungsrelevantes Wissen gewinnen Die richtigen Informationen zur richtigen Zeit am richtigen Ort

Wenn Sie mehr erfahren wollen,dell.de/datenberge

dynamische Tiering ist nicht die einzige Möglichkeit, eine Storage-Lösung effizienter und flexibler zu gestalten. Bei Thin Provisioning geht es vor allem um die Bereiche in einem System, die zwar allokiert, aber noch nicht mit Daten „gefüllt“ beziehungsweise beschrieben wurden. Solche Speichermedien liegen brach. Thin Provisioning schafft hier Abhilfe. Die Effizienz der Storage-Infrastruktur steigt dadurch weiter. Der dritte Eckpfeiler ist die Skalier-barkeit. Fluid-Data-Lösungen von Dell vermeiden kostspielige Hardware-Upgrades. Dell-Lösun-gen lassen sich durch den flexib-len, modularen Aufbau nicht nur kapazitätsmäßig, sondern auch technologisch leicht an neue Bedürfnisse anpassen (Scale Out).So bilden beispielsweise die Compellent-Storage-Arrays von Dell ein skalierbares, hochperfor-mantes Storagesystem, das sich beliebig um neue Arrays ausbauen lässt. Die leistungsfähigen Intel-basierten Controller können die oben genannten Eckpfeiler nahezu in Echtzeit umsetzen. Unterneh-men können so ihren Speicher-platz flexibel und einfach erwei-tern. Für unstrukturierte Daten, die den größten Anteil des Wachstums bilden, bietet Dell speziell das skalierbare Fluid File System an, das auf den bekannten Array-Familien PowerVault, EqualLogic und Compellent aufsetzt und vielfältige Möglichkeiten für ein intelligentes Datenmanagement bietet.

Intelligentes DatenmanagementWie intelligentes Datenmanage-ment und eine Fluid-Data-Lösung

dazu beitragen, möglichst effizient ein riesiges Datenvolumen zu speichern und damit Geschäfts-prozesse zu steuern und zu optimieren, zeigt das Beispiel eines Windparkbetreibers. Was mit wenigen Windrädern anfing, entwickelte sich in den letzten Jahren rasch weiter. Pro Monat fallen in dem Anwendungsszenario 1 TB neue Daten an. Sie stammen von Messwerten, die in Echtzeit an den Windrädern ermittelt werden. Direkt nach der dezentralen Erfassung der Messwerte werden diese an eine Leitwarte übermittelt, von der aus der gesamte Windpark gesteuert wird. Allein hier entsteht bereits ein beachtliches Datenvo-lumen, das für einen reibungslosen Betrieb ausgewertet werden muss. Das enorme Datenwachstum ließ sich mit herkömmlichen Speicher-methoden nicht bewältigen und daher entschied sich das Unter-nehmen für die Einführung von Dell Compellent Storage Arrays mit einem virtualisierten und hochska-lierbaren Speicherpool. DieDell-Lösung verfügt, wie bereits erwähnt, über intelligente und automatisch arbeitende Funktio-nen zur Bewertung der tatsächli-chen Datennutzung. Sie verschiebt aktuell benötigte Messwerte auf sehr schnelle SSD-Festplatten, während Daten, auf die nicht mehr zugriffen wird, auf kostengünstige-re Festplatten verschoben werden. Zeigen sich im laufenden Betrieb Unregelmäßigkeiten bei den Windrädern, können Daten, die bereits inaktiv waren, jederzeit wieder aktiviert und auf schnelle Medien verlagert werden. Kern dieses Anwendungsszenario ist

eine selbstoptimierende, intelligen-te Speicherung sehr großer Datenmengen, die eine entschei-dende Rolle für einen ausfallsiche-ren Betrieb der Anlage spielen. Mit der End-to-End-Speicherlösung wird die Datenflut beherrschbar und die Daten stehen jederzeit für weitergehende Big-Data-Analysen zur Verfügung.

Passgenaue Big-Data-Lösungen schaffen Raum für InnovationUnternehmen verschaffen sich durch zwei zentrale Lösungsansät-ze die notwendigen Freiräume für Innovationen und Aktivitäten, die einen entscheidenden Wettbe-werbsvorteil bringen: Erstens, indem sie riesige Datenmengen mit Hadoop verarbeiten und für Business-Entscheidungen aufbe-reiten. Und zweitens, indem sie ein automatisiertes intelligentes Datenmanagement implementie-ren, wie es die Fluid-Data-Lösun-gen von Dell bieten. Abhängig davon, wo der Schwerpunkt jeweils liegt, sind Unternehmen damit bestens für Big Data gerüstet. Dell und Intel arbeiten hierbei eng zusammen, um eine konsistente und performante Infrastruktur über Server, Storage- und Netzwerksys-teme bereitzustellen. Dell bietet für alle Big-Data-Herausforderungen eine passende Lösung – angefan-gen von Consulting und Planung über das Design und die Imple-mentierung bis hin zur Wartung komplexer Server- und Storage-Umgebungen.

Ultrabook, Celeron, Celeron Inside, Core Inside, Intel, Intel Logo, Intel Atom, Intel Atom Inside, Intel Core, Intel Inside, Intel Inside Logo, Intel vPro, Itanium, Itanium Inside, Pentium, Pentium Inside, vPro Inside, Xeon, Xeon Phi, und Xeon Inside sind eingetragene Marken der Intel Corporation in den U.S. und anderen Ländern.

* Hans Schramm ist Field Product Manager Enterprise bei Dell in Frankfurt am Main * Michael Holzerland ist System Engineer Datacenter and Cloud bei Dell in Frankfurt am Main(1) BITKOM: Leitfaden Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte. Berlin 2012