Automatische Videoaufzeichnung mit Personenerkennung

Daniel Schreiber26.06.2018

Chemnitzer Linux-Tage

$ whoami

• Admin und Entwickler• URZ seit 2014• seit 2000 Chemnitzer Linux-Tage• kein Experte für Bild- und Videoverarbeitung, KI

Vorbetrachtungen

Gegebenheiten vor Ort

• Vortragsfolien per HDMI Grabber aufgezeichnet• Mitschnitt über Audioanlage• teilweise Kameraufzeichnung mit Kamerapersonal• 6 Vorträge parallel

Die Idee

Kann man nicht alle Vorträge mit Vortragenden aufzeichnen, ohne extra Personal?

→ hochauflösende Kamera fest montieren→ Vortragende per Software tracken und in Beamerbild hineinschneiden

Der Versuch

• hochwertige 4K Kamera an Decke montiert• Daten per HDMI Grabber und auf SD-Karte aufgezeichnet• Hakeleien bei Hardware

• HDMI Grabber kann nur HD• Kamera kann nur 4K aufzeichnen, wenn HDMI Output aus ist→ alles in HD machen

Die Bausteine

• FFmpeg• OpenCV• irgendetwas, was Gesichter oder Personen erkennen kann• Python

Umsetzung

Video aufzeichnen

• Hardware PoolPC• AMD A10–6800K• Nvidia GT640• Festplatte• GBit Netz

• HDMI Grabber über USB3 angeschlossen→ für Software encoding zu langsam• FFmpeg kann Offloading an GPU → FFmpeg neu kompilieren

1 ffmpeg -y -f video4linux2 -framerate 25 -video_size 1920x1080 \2 -i /dev/video0 -pix_fmt yuv420p -c:v h264_nvenc \3 -preset:v llhq -rc:v vbr_minqp -qmin:v 19 -b:v 3500k \4 -f segment -segment_list /tmp/recording/segments.csv \5 -segment_time 10 /tmp/recording/output -%03d.mp4

OpenCV: Video laden

1 f o r video_file i n video_files:2 video = cv2.VideoCapture(video_file)3 frame_no = 04 ok, frame = video.read()5 i f not ok:6 p r i n t ('Cannot␣read␣video␣file␣{}'. format(video_file))7 continue8 regions = detect_persons(net, frame, 520)9 regions = group_regions(regions)

10 whi le True:11 frame_no += 112 ok, frame = video.read()

OpenCV: Video darstellen

1 f o r x,y,w,h i n regions:2 cv2.rectangle(frame, (x,y), (x+w, y+h), (0,255,0), 2)3

4 cv2.imshow("Tracking", frame)

OpenCV: Ausschnitte extrahieren

1 def detect_persons(net, image, y_offset):2 edge=3003 result = []4 f o r i, offset i n enumerate( range(0, 1920-edge, 162)):5 # Korrektur fuer schiefe Kamera6 y_offset2 = y_offset - 2*i7 img_slice = np.copy(image[y_offset2:y_offset2+edge, offset:offset

+edge])8 regions = detect_persons_from_square(net, img_slice)

OpenCV: Gesichter finden

• Haar Cascade Classifier• LBP Classifier→ viele false positives→ mäßige Zuverlässigkeit

OpenCV: Tracking

• Algorithmen zur Objektverfolgung• Genauigkeit mäßig• Problem: Startkoordinaten

1 tracker = cv2.TrackerBoosting_create()2 tracker.init(frame, bbox)3

4 ok, bbox = tracker.update(frame)

OpenCV: Personen finden

• keine fertigen Algorithmen implementiert• Schnittstelle zu Caffee vorhanden• Caffee hat umfangreichen Model Zoo

Exkurs: Neuronale Netze

Was macht ein neuronales Netz?

• komplexe nichtlineare Funktion• Training mit Eingabedaten und erwartetem Ergebnis

Input #1

Input #2

Input #3

Input #4

Output

Hiddenlayer

Inputlayer

Outputlayer

Warum der ganze Hype?

• vielseitig einsetzbar• bei visuellen Problemstellungen praktisch verwendbare Ergebnisse• Durchbruch 2012 mit Deep Convolutional Networks (AlexNet)• seitdem weitere drastische Fortschritte• vortrainierte Netze verfügbar• genug Rechenleistung durch GPUs verfügbar

Wie nutzen?

Zur Erinnerung: Wir wollen Personen oder Gesichter finden

✓ Person ist als Klasse in Standardbenchmark verfügbar• Problem: Lokalisierung

• sliding Window• alternative Netzarchitektur RCNN → Netz liefert Koordinaten✓ noch besser: SSD (Single Shot Detector)✓ MobileNetSSD: Eingabe: 300×300 Pixel, Ausgabe: Klassen + Bounding Boxes

Wie kann man es nutzen?

• sliding Window, 300×300, überlappend• Bereich in Höhe begrenzt• überlappende Bereiche vereinigen• mehrere Personen möglich• Vortragenden finden• Bewegung glätten

Daten vorverarbeiten

• RGB ↔ BGR Swapping• Normalisierung:

• Skalierung• Konstante (z.B. Mittelwert) abziehen

• abhängig vom Netz• bei Inferenz und Training gleich

1 blob = cv2.dnn.blobFromImage(2 image=frame,3 scalefactor=1/127.5,4 size=(300, 300),5 mean=127.5,6 swapRB=False,7 )

Netz laden

1 modelstate = "MobileNetSSD_deploy.caffemodel"2 modeldescription = "MobileNetSSD_deploy.prototxt"3 net = cv2.dnn.readNetFromCaffe(modeldescription , modelstate)

Personen erkennen

1 def detect_persons_from_square(net, image):2 (h, w) = image.shape[:2]3 #print(h,w)4 blob = cv2.dnn.blobFromImage(image, 0.007843, (300, 300), 127.5)5 net.setInput(blob)6 detections = net.forward()7 results = []8 f o r i i n np.arange(0, detections.shape[2]):9 confidence = detections[0, 0, i, 2]

10 i f confidence > args["confidence"]:11 idx = i n t (detections[0, 0, i, 1])12 i f idx == 15:13 box = detections[0, 0, i, 3:7] * np.array([w, h, w, h])14 results.append(box.astype("int"))15 return results

Nachverarbeitung

Verbesserungen

• nicht jeden Frame auswerten• Vortragenden finden

• aus mehreren Boundingboxen diejenige mit Vortragenden finden• von Mitte aus vorwärts und rückwärts suchen• Box mit geringstem Abstand folgen

• Bewegungen glätten→ Kamera zieht nach• maximale Größe der Boundingbox finden

Video schreiben

1 fourcc = cv2.VideoWriter_fourcc(*b'FFV1')2 out = cv2.VideoWriter(args['cropped_video '],fourcc, 25.0, (480, 360))3 videoframe = numpy.zeros(shape=(360,480,3), dtype=numpy.dtype('uint8'))4 for filename in file_list:5 video = cv2.VideoCapture(filename)6 while True:7 ok, frame = video.read()8 if not ok:9 break

10 #11 # ... y1:y2 und x1:x2 interpolieren12 #13 crop_img = numpy.copy(frame[y1:y2, x1:x2])14 videoframe[0:max_height , 0:max_width] = crop_img15 out.write(videoframe)

Zusammenschneiden

1 ffmpeg -y -ss 00:05:50 -i /data/schrd/clt/raum5.stream -2018-03-10_12-56-37.ts \

2 -r 25 -ss 00:01:10.5 -i /data/schrd/clt/video13.avi \3 -filter_complex "[1:v]crop=382:238:0:0[ckout];[0:v][ckout]overlay=

main_w-overlay_w -10:main_h-overlay_h -10[out]" \4 -map "[out]" -map "0:a" -t 2797 /data/schrd/clt/schreiber.mp4

Lessons learned

• Konzept funktioniert• alle nötigen Komponenten frei verfügbar• bei neuronalen Netzen Daten vorverarbeiten!• CLT 2019:

• Audio mit Kamerabild zusammen aufnehmen• Konzept in Breite ausrollen• nochmal mit GPUs versuchen

Referenzen

• https://docs.opencv.org/• man 1 ffmpeg-devices• man 1 ffmpeg-filters• Patrick Winston: Machine Learning Course vom MIT (bei Youtube)• Andrej Kaparthy: Vorlesung von Stanford: CS231N-2016 (bei Youtube)• A hackers guide to neural networks http://karpathy.github.io/neuralnets/

Automatische Videoaufzeichnung mit Personenerkennung · Gegebenheiten vor Ort • Vortragsfolien...

Documents

Grabber At 3Der Reifen für jedes Abenteuer...Der Reifen für jedes Abenteuer 1) Alle Größen mit Felgenschutz (FR), 2) Gilt nicht für Europa, 3) Noch zu definieren, 4) EU Labelwerte

PREISE, AUSSTATTUNGEN UND TECHNISCHE DATENpeugeot-de-de.custhelp.com/euf/assets/images/allemagne/peugeot... · Audioanlage WIP Sound mit Bedienhebel am Lenkrad, 4 x 15 Watt, Radio/CD,

BMW Motorrad Rhine See}Hear, Eeel. Ihë unique souhd of the ... · BMW Motorrad Rhine See}Hear, Eeel. Ihë unique souhd of the R nineT Scrambleñ is a real attention grabber. 200

DIE MOVIE-FUNKTION DER EOS 5D MARK II - dforum.de · Die Canon EOS 5D Mark II ist die erste digitale Spiegelreflexkamera mit Videoaufzeichnung in Full-HD-Qualität. Seit ihrer Ankündigung

Bewerbungstraining Das Bewerbungsschreiben Das Vorstellungsgespräch Sprechtraining und Rhetorik Testtraining Videoaufzeichnung

USB 2.0 video grabber - eva · DEUTSCH 5 Installation der Software: • Treiber • Arcsoft ShowBiz DVD Software • Bedienungsanleitung (Arcsoft ShowBiz DVD Hilfedateien) 1) Installieren

PREISE, AUSSTATTUNGEN UND TECHNISCHE DATENpeugeot-de-de.custhelp.com/euf/assets/images/allemagne/peugeot/files/... · PAKET Cool-Paket J3CH Klimaanlage manuell Audioanlage WIP Sound

UNGLAUBLICH AUSGEFALLENE GESCHENKIDEEN · Bier Holster "Klassik" (Espresso Braun) 1858 24-Stunden Uhr 2087 Candy Grabber - der Süßigkeiten Greifautomat GreatGadgets 2. 1581-3 Spardose

Blu-ray Audioanlage MediaVision 3D - loewe.tv · MediaVision 3D als Audioanlage ... BD/DVD/CD/Datei Titelerkennung über Internet Datenbanken Anzeige von ID3v1 und ID3v2 Metadaten

Profiling – Matching - Vermittlung. Inhalt Übersicht Bewerber und Stellen Matching Vermittlung Web-Grabber Kontaktmanagement Online-Börse Infosystem

AUFZEICHNUNG IP Grabber Cards - WEYTEC · 2019-10-21 · Aufzeichnung (WEYTEC Evidence Capture) Quell-PC Anwendungsbeispiel: Video IP Frame Grabber Video Frame Grabber werden zwischen

Allgemeine Chemie für Studierende der Zahnmedizin€¢ PDF-Dateien der Vorlesungsfolien • Videoaufzeichnung (lecture to go ) der Vorlesung aus dem Sommersemester 2012 (Schatzschneider

Frühlings- „Märzklopfen“ bei Di Santo & Bovenkamp · 4,3. CO2-Emission (kombiniert) in g/km: 99. Nach amtlichem Messverfahren in der jeweils gültigen Fassung. • Audioanlage

LAUF- UND BEWEGUNGSANALYSE FÜR SPORTMANNSCHAFTEN … · • Gespräch mit den Spielern incl. Anamnese in Bezug auf Schmerzproblematik und Sportverletzungen • HD Videoaufzeichnung

Video-Grabber VG-400 - pearl.ch · Q-sonic – 7 Utilisation Enregistrement Une fois que vous avez ouvert le programme “Viva Station”, vous avez la possibilité de

UNGLAUBLICH AUSGEFALLENE GESCHENKIDEEN · Bier Holster "Klassik" 1858 24-Stunden Uhr 2087 Candy Grabber - der Süßigkeiten Greifautomat GreatGadgets 2. 1861 Türstopper "Goldbarren"

Zwischenbericht der Schweizerischen ... · Der Bahnhof Bern ist mit mehreren Videokameras ausgerüstet, die den öffentli-chen Bereich aufzeichnen. Anhand der Auswertung der Videoaufzeichnung

PREISE UND SPEZIFIKATIONEN 2017 - oleks-radsport.de70a96b32-5cc1-48e6-90da... · SEITE 2 Simplon GRABBER ALU schwarz montiert 14,00 Simplon SIDELOADER ALU schwarz montiert 12,00 Simplon

Projektleitung: Univ.-Prof. Dr. med. Jürgen in der ... · • Entwicklung eL-Layout: Storyline 360, (Hardware) • Videoaufzeichnung: 24 ACP -Übungsgespräche mit Unterstützung

Wirksame Kommunikation & Rhetorik...• Soforttools zum Mitnehmen, Ausprobieren, und sofort Anwenden Praktische Übungen mit Videoaufzeichnung und Feedback Wirksame Kommunikation und