Inżynieria Dźwięku i Obrazu (IDO)

Kierunek: Telekomunikacja II st.
Wydział Elektroniki i Technik Informacyjnych
Politechnika Warszawska

Absolwent specjalności Inżynieria Dźwięku i Obrazu na kierunku Telekomunikacja to wykwalifikowany specjalista w dziedzinie nowoczesnego przetwarzania audio i wideo. Dzięki połączeniu wiedzy teoretycznej oraz praktycznych umiejętności, absolwent posiada kompetencje niezbędne do pracy w różnorodnych sektorach związanych z technologiami multimedialnymi, w tym w branżach rozrywkowej, edukacyjnej, telekomunikacyjnej i informatycznej. Jest przygotowany do pracy zarówno w zespołach badawczo-rozwojowych, jak i w komercyjnych projektach multimedialnych. Zaawansowane kompetencje techniczne w zakresie przetwarzania dźwięku i obrazu, znajomość najnowszych technologii oraz umiejętność pracy zespołowej sprawiają, że jest cenionym specjalistą na rynku pracy.

Wiedza i kompetencje

Absolwent tej specjalności zdobywa wszechstronną wiedzę teoretyczną oraz praktyczne umiejętności w zakresie przetwarzania sygnałów cyfrowych, a w szczególności dźwięku i obrazu. Jego wykształcenie obejmuje:

  • Cyfrowe przetwarzanie sygnałów
  • Nowoczesne technologie multimedialne
  • Dźwięk 3D
  • Technologie VR (Virtual Reality)
  • Automatyczne przetwarzanie mowy (ASR) i przetwarzanie języka naturalnego (NLP)
  • Automatyczna klasyfikacja dźwięku i obrazu
  • Wykorzystanie sztucznej inteligencji (AI) w multimediach


Umiejętności techniczne

Absolwent posiada biegłość w obsłudze profesjonalnych narzędzi oraz oprogramowania. Wśród tych narzędzi znajdują się programy do:

  • Analizy sygnałów cyfrowych,
  • Edycji dźwięku i obrazu,
  • Przetwarzania dźwięku przestrzennego,
  • Wykorzystania sieci neuronowych do przetwarzania dźwięku i obrazu.

Dzięki temu absolwent potrafi efektywnie tworzyć, przetwarzać i analizować treści multimedialne, mając na uwadze wysokie standardy branży.


Kompetencje społeczne

Absolwent specjalności Inżynieria Dźwięku i Obrazu posiada rozwinięte umiejętności miękkie, niezbędne w pracy w nowoczesnych zespołach projektowych. Zdobywa doświadczenie w:

  • Pracy zespołowej – absolwent jest przygotowany do efektywnej współpracy w zespołach interdyscyplinarnych, posiada umiejętności komunikacji i rozwiązywania problemów.
  • Zarządzaniu projektami – w toku studiów absolwent zdobywa podstawy zarządzania projektami, co obejmuje planowanie oraz realizację zadań zgodnie z harmonogramem.
  • Prezentacji wyników – absolwent posiada umiejętność przedstawienia rezultatów swojej pracy w sposób klarowny i zrozumiały dla różnych grup odbiorców.


Perspektywy zawodowe

Absolwent specjalności Inżynieria Dźwięku i Obrazu ma szerokie perspektywy zawodowe, zarówno w kraju, jak i za granicą. Jest dobrze przygotowany do podjęcia pracy w różnych sektorach, w tym w:

  • Branży multimedialnej – firmy zajmujące się produkcją dźwięku i wideo, studia filmowe, produkcja gier komputerowych.
  • Technologii rozrywkowej – projektowanie systemów dźwiękowych i audiowizualnych w sektorze rozrywkowym, w tym w kinie, telewizji i produkcjach muzycznych.
  • Telekomunikacji – praca nad zaawansowanymi systemami przesyłu multimediów w sieciach komunikacyjnych.
  • Edukacji i badaniach naukowych – instytucje edukacyjne i badawcze zajmujące się nowoczesnymi technologiami przetwarzania sygnałów.

Dzięki zaawansowanym kompetencjom technicznym i zdolności do adaptacji do nowych technologii, absolwent tej specjalności jest przygotowany do pracy w środowisku, które dynamicznie się zmienia i rozwija.

Przykładowe przedmioty prowadzone w ramach specjalności IDO

Advanced Digital Signal Processing

Celem przedmiotu jest omówienie i analiza zaawansowanych metod cyfrowego przetwarzania sygnałów (DSP), ze szczególnym uwzględnieniem przetwarzania sygnałów multimedialnych (dźwięku i obrazu) oraz sygnałów radiowych. Poruszane zagadnienia DSP są przedstawione w formie umożliwiającej praktyczne zastosowanie zaawansowanych technik w multimediach i radiokomunikacji. Przedmiot obejmuje zaawansowane projektowanie filtrów, estymację widma mocy, filtrację adaptacyjną, cyfrową generację i syntezę sygnałów oraz wiele innych.

Słyszenie i Percepcja Dźwięku

Przedmiot ma na celu zaznajomienie studentów z działaniem i właściwościami układu słuchowego przy przetwarzaniu dźwięku. Wykład przedstawia budowę układu słuchowego z uwzględnieniem znaczenia akustycznych właściwości ucha zewnętrznego, roli ucha środkowego oraz funkcji analitycznych ucha wewnętrznego. Omówione są zasadnicze zjawiska i cechy wrażeniowe związane ze słuchem: filtrowanie (analiza widmowa) sygnałów w układzie słuchowym, maskowanie dźwięków, powstawanie wrażenia głośności i wysokości dźwięków o prostej i złożonej strukturze widma, właściwości integracyjne i rozdzielczość czasowa układu słuchowego oraz słyszenie dwuuszne (binauralne). Omówione są podstawy metod pomiarowych stosowanych w badaniach słuchu.

Zaawansowane Przetwarzanie Obrazu

Tematyka przedmiotu obejmuje omówienie wybranych zagadnień związanych z przetwarzaniem obrazów i sekwencji wizyjnych, w szczególności redukcji szumu i zakłóceń; kompresji danych obrazowych; wykrywania, śledzenia i rozpoznawania obiektów.

Cyfrowe Przetwarzanie Sygnałów Audio

Celem kursu jest omówienie i analiza algorytmów i metod cyfrowego przetwarzania sygnałów audio. Poruszane zagadnienia są przedstawione w formie umożliwiającej praktyczne zastosowanie technik cyfrowego przetwarzania sygnałów w przetwarzaniu sygnałów dźwiękowych, a w szczególności projektowania efektów dźwiękowych (np. procesorów dynamiki, pogłosowych, efektów opóźnieniowych i modulacji), nowoczesnych algorytmów kompresji dźwięku, współczesnych metod analogowo-cyfrowego przetwarzania dźwięku i zastosowania metod uczenia maszynowego w przetwarzaniu audio.

Multimedialny Projekt Badawczy

Przedmiot skupia się na zaawansowanych technikach przetwarzania dźwięku i obrazu z metodami badawczymi, w tym planowaniu eksperymentów, analizie danych oraz publikacji wyników. Kurs, prowadzony metodą Project-Based Learning (PBL), oferuje studentom możliwość praktycznego zastosowania naukowej teorii do realnych projektów badawczych w dziedzinie multimediów. Zajęcia podzielone są na bloki tematyczne, które obejmują od przeglądu najnowszych trendów po zaawansowane techniki analizy i prezentacji wyników badań. Celem kursu jest nie tylko przekazanie wiedzy technicznej, ale również rozwijanie umiejętności krytycznego myślenia, pracy zespołowej i komunikacji naukowej, przygotowując studentów do przyszłych wyzwań akademickich i zawodowych w branży technologii multimedialnych.

Głebokie sieci neuronowe w mediach cyfrowych

Przedmiot obejmuje kluczowe pojęcia z zakresu sieci neuronowych. Wykład zaczyna się od pojęcia perceptronu, a kończy na zaawansowanych Sieciach Neuronowych jakimi są Grafowe Sieci Neuronowe. Innymi omawianymi architekturami neuronowymi są rekurencyjne i transformatorowe (ang. Transformers) oraz modele generatywne. Niemniej przedmiot głównie koncentruje się na sieciach splotowych (CNN) i ich średnio-zaawansowanych architekturach oraz na zaawansowanych aplikacjach wizji komputerowej m. in. detekcja obiektów (RCNN, YOLO). Oprócz tego studenci poznają zaawansowane techniki optymalizacji, sposoby przeciwdziałania przetrenowaniu sieci neuronowych, a także rozumieją podstawy automatycznego różniczkowanie w trybach forward i reverse, który jest fundamentem współczesnych bibliotek głębokiego uczenia.

Systemy Dźwięku Przestrzennego

Tematyka przedmiotu obejmuje zagadnienia: binauralnej percepcji dźwięku, akustyki pomieszczeń, pomiarów i wykorzystania funkcji HRTF, auralizacji, technik ambisonii i metod syntezy pola akustycznego, analizy i przetwarzania dźwięku przestrzennego w kontekście tworzenia wirtualnej rzeczywistości. Ćwiczenia laboratoryjne dotyczą: analizy mechanizmów słyszenia binauralnego, modelowania akustyki pomieszczeń, analizy i syntezy pola akustycznego za pomocą macierzy mikrofonowych i głośnikowych, realizacji nagrań z wykorzystaniem technik rejestracji dźwięku przestrzennego, oceny jakości dźwięku przestrzennego.

Przetwarzanie Mowy

Przedmiot obejmuje tematykę związaną z nowoczesnymi technologiami przetwarzania sygnałów mowy. W ramach kursu omawiane są podstawy akustyki mowy, metody analizy czasowo-częstotliwościowej, techniki modelowania i parametryzacji sygnałów mowy, a także zaawansowane metody rozpoznawania i syntezy mowy. Kurs łączy wykłady teoretyczne z praktycznymi laboratoriami, w których studenci zdobywają umiejętności implementacji i testowania algorytmów przetwarzania mowy. Studenci realizują również projekt zespołowy, w którym wykorzystują, tworzą i testują systemy przetwarzania mowy.