Inżynieria Dźwięku i Obrazu

Inżynieria Dźwięku i Obrazu (IDO)

Kierunek: Telekomunikacja II st.
Wydział Elektroniki i Technik Informacyjnych
Politechnika Warszawska

Absolwent specjalności Inżynieria Dźwięku i Obrazu na kierunku Telekomunikacja to wykwalifikowany specjalista w dziedzinie nowoczesnego przetwarzania audio i wideo. Dzięki połączeniu wiedzy teoretycznej oraz praktycznych umiejętności, absolwent posiada kompetencje niezbędne do pracy w różnorodnych sektorach związanych z technologiami multimedialnymi, w tym w branżach rozrywkowej, edukacyjnej, telekomunikacyjnej i informatycznej. Jest przygotowany do pracy zarówno w zespołach badawczo-rozwojowych, jak i w komercyjnych projektach multimedialnych. Zaawansowane kompetencje techniczne w zakresie przetwarzania dźwięku i obrazu, znajomość najnowszych technologii oraz umiejętność pracy zespołowej sprawiają, że jest cenionym specjalistą na rynku pracy.

Wiedza i kompetencje

Absolwent tej specjalności zdobywa wszechstronną wiedzę teoretyczną oraz praktyczne umiejętności w zakresie przetwarzania sygnałów cyfrowych, a w szczególności dźwięku i obrazu. Jego wykształcenie obejmuje:

Cyfrowe przetwarzanie sygnałów
Nowoczesne technologie multimedialne
Dźwięk 3D
Technologie VR (Virtual Reality)
Automatyczne przetwarzanie mowy (ASR) i przetwarzanie języka naturalnego (NLP)
Automatyczna klasyfikacja dźwięku i obrazu
Wykorzystanie sztucznej inteligencji (AI) w multimediach

Umiejętności techniczne

Absolwent posiada biegłość w obsłudze profesjonalnych narzędzi oraz oprogramowania. Wśród tych narzędzi znajdują się programy do:

Analizy sygnałów cyfrowych,
Edycji dźwięku i obrazu,
Przetwarzania dźwięku przestrzennego,
Wykorzystania sieci neuronowych do przetwarzania dźwięku i obrazu.

Dzięki temu absolwent potrafi efektywnie tworzyć, przetwarzać i analizować treści multimedialne, mając na uwadze wysokie standardy branży.

Kompetencje społeczne

Absolwent specjalności Inżynieria Dźwięku i Obrazu posiada rozwinięte umiejętności miękkie, niezbędne w pracy w nowoczesnych zespołach projektowych. Zdobywa doświadczenie w:

Pracy zespołowej – absolwent jest przygotowany do efektywnej współpracy w zespołach interdyscyplinarnych, posiada umiejętności komunikacji i rozwiązywania problemów.
Zarządzaniu projektami – w toku studiów absolwent zdobywa podstawy zarządzania projektami, co obejmuje planowanie oraz realizację zadań zgodnie z harmonogramem.
Prezentacji wyników – absolwent posiada umiejętność przedstawienia rezultatów swojej pracy w sposób klarowny i zrozumiały dla różnych grup odbiorców.

Perspektywy zawodowe

Absolwent specjalności Inżynieria Dźwięku i Obrazu ma szerokie perspektywy zawodowe, zarówno w kraju, jak i za granicą. Jest dobrze przygotowany do podjęcia pracy w różnych sektorach, w tym w:

Branży multimedialnej – firmy zajmujące się produkcją dźwięku i wideo, studia filmowe, produkcja gier komputerowych.
Technologii rozrywkowej – projektowanie systemów dźwiękowych i audiowizualnych w sektorze rozrywkowym, w tym w kinie, telewizji i produkcjach muzycznych.
Telekomunikacji – praca nad zaawansowanymi systemami przesyłu multimediów w sieciach komunikacyjnych.
Edukacji i badaniach naukowych – instytucje edukacyjne i badawcze zajmujące się nowoczesnymi technologiami przetwarzania sygnałów.

Dzięki zaawansowanym kompetencjom technicznym i zdolności do adaptacji do nowych technologii, absolwent tej specjalności jest przygotowany do pracy w środowisku, które dynamicznie się zmienia i rozwija.

Przykładowe przedmioty prowadzone w ramach specjalności IDO

Advanced Digital Signal Processing

szczegóły w USOS

Celem przedmiotu jest omówienie i analiza zaawansowanych metod cyfrowego przetwarzania sygnałów (DSP), ze szczególnym uwzględnieniem przetwarzania sygnałów multimedialnych (dźwięku i obrazu) oraz sygnałów radiowych. Poruszane zagadnienia DSP są przedstawione w formie umożliwiającej praktyczne zastosowanie zaawansowanych technik w multimediach i radiokomunikacji. Przedmiot obejmuje zaawansowane projektowanie filtrów, estymację widma mocy, filtrację adaptacyjną, cyfrową generację i syntezę sygnałów oraz wiele innych.

Słyszenie i Percepcja Dźwięku

szczegóły w USOS

Przedmiot ma na celu zaznajomienie studentów z działaniem i właściwościami układu słuchowego przy przetwarzaniu dźwięku. Wykład przedstawia budowę układu słuchowego z uwzględnieniem znaczenia akustycznych właściwości ucha zewnętrznego, roli ucha środkowego oraz funkcji analitycznych ucha wewnętrznego. Omówione są zasadnicze zjawiska i cechy wrażeniowe związane ze słuchem: filtrowanie (analiza widmowa) sygnałów w układzie słuchowym, maskowanie dźwięków, powstawanie wrażenia głośności i wysokości dźwięków o prostej i złożonej strukturze widma, właściwości integracyjne i rozdzielczość czasowa układu słuchowego oraz słyszenie dwuuszne (binauralne). Omówione są podstawy metod pomiarowych stosowanych w badaniach słuchu.

Zaawansowane Przetwarzanie Obrazu

szczegóły w USOS

Tematyka przedmiotu obejmuje omówienie wybranych zagadnień związanych z przetwarzaniem obrazów i sekwencji wizyjnych, w szczególności redukcji szumu i zakłóceń; kompresji danych obrazowych; wykrywania, śledzenia i rozpoznawania obiektów.

Cyfrowe Przetwarzanie Sygnałów Audio

szczegóły w USOS

Celem kursu jest omówienie i analiza algorytmów i metod cyfrowego przetwarzania sygnałów audio. Poruszane zagadnienia są przedstawione w formie umożliwiającej praktyczne zastosowanie technik cyfrowego przetwarzania sygnałów w przetwarzaniu sygnałów dźwiękowych, a w szczególności projektowania efektów dźwiękowych (np. procesorów dynamiki, pogłosowych, efektów opóźnieniowych i modulacji), nowoczesnych algorytmów kompresji dźwięku, współczesnych metod analogowo-cyfrowego przetwarzania dźwięku i zastosowania metod uczenia maszynowego w przetwarzaniu audio.

Multimedialny Projekt Badawczy

szczegóły w USOS

Przedmiot skupia się na zaawansowanych technikach przetwarzania dźwięku i obrazu z metodami badawczymi, w tym planowaniu eksperymentów, analizie danych oraz publikacji wyników. Kurs, prowadzony metodą Project-Based Learning (PBL), oferuje studentom możliwość praktycznego zastosowania naukowej teorii do realnych projektów badawczych w dziedzinie multimediów. Zajęcia podzielone są na bloki tematyczne, które obejmują od przeglądu najnowszych trendów po zaawansowane techniki analizy i prezentacji wyników badań. Celem kursu jest nie tylko przekazanie wiedzy technicznej, ale również rozwijanie umiejętności krytycznego myślenia, pracy zespołowej i komunikacji naukowej, przygotowując studentów do przyszłych wyzwań akademickich i zawodowych w branży technologii multimedialnych.

Głebokie sieci neuronowe w mediach cyfrowych

szczegóły w USOS

Przedmiot obejmuje kluczowe pojęcia z zakresu sieci neuronowych. Wykład zaczyna się od pojęcia perceptronu, a kończy na zaawansowanych Sieciach Neuronowych jakimi są Grafowe Sieci Neuronowe. Innymi omawianymi architekturami neuronowymi są rekurencyjne i transformatorowe (ang. Transformers) oraz modele generatywne. Niemniej przedmiot głównie koncentruje się na sieciach splotowych (CNN) i ich średnio-zaawansowanych architekturach oraz na zaawansowanych aplikacjach wizji komputerowej m. in. detekcja obiektów (RCNN, YOLO). Oprócz tego studenci poznają zaawansowane techniki optymalizacji, sposoby przeciwdziałania przetrenowaniu sieci neuronowych, a także rozumieją podstawy automatycznego różniczkowanie w trybach forward i reverse, który jest fundamentem współczesnych bibliotek głębokiego uczenia.

Systemy Dźwięku Przestrzennego

szczegóły w USOS

Tematyka przedmiotu obejmuje zagadnienia: binauralnej percepcji dźwięku, akustyki pomieszczeń, pomiarów i wykorzystania funkcji HRTF, auralizacji, technik ambisonii i metod syntezy pola akustycznego, analizy i przetwarzania dźwięku przestrzennego w kontekście tworzenia wirtualnej rzeczywistości. Ćwiczenia laboratoryjne dotyczą: analizy mechanizmów słyszenia binauralnego, modelowania akustyki pomieszczeń, analizy i syntezy pola akustycznego za pomocą macierzy mikrofonowych i głośnikowych, realizacji nagrań z wykorzystaniem technik rejestracji dźwięku przestrzennego, oceny jakości dźwięku przestrzennego.

Przetwarzanie Mowy

szczegóły w USOS

Przedmiot obejmuje tematykę związaną z nowoczesnymi technologiami przetwarzania sygnałów mowy. W ramach kursu omawiane są podstawy akustyki mowy, metody analizy czasowo-częstotliwościowej, techniki modelowania i parametryzacji sygnałów mowy, a także zaawansowane metody rozpoznawania i syntezy mowy. Kurs łączy wykłady teoretyczne z praktycznymi laboratoriami, w których studenci zdobywają umiejętności implementacji i testowania algorytmów przetwarzania mowy. Studenci realizują również projekt zespołowy, w którym wykorzystują, tworzą i testują systemy przetwarzania mowy.