Inżynieria Dźwięku i Obrazu (IDO)
Kierunek: Telekomunikacja II st.
Wydział Elektroniki i Technik Informacyjnych
Politechnika Warszawska
Absolwent specjalności Inżynieria Dźwięku i Obrazu na kierunku Telekomunikacja to wykwalifikowany specjalista w dziedzinie nowoczesnego przetwarzania audio i wideo. Dzięki połączeniu wiedzy teoretycznej oraz praktycznych umiejętności, absolwent posiada kompetencje niezbędne do pracy w różnorodnych sektorach związanych z technologiami multimedialnymi, w tym w branżach rozrywkowej, edukacyjnej, telekomunikacyjnej i informatycznej. Jest przygotowany do pracy zarówno w zespołach badawczo-rozwojowych, jak i w komercyjnych projektach multimedialnych. Zaawansowane kompetencje techniczne w zakresie przetwarzania dźwięku i obrazu, znajomość najnowszych technologii oraz umiejętność pracy zespołowej sprawiają, że jest cenionym specjalistą na rynku pracy.
Wiedza i kompetencje
Absolwent tej specjalności zdobywa wszechstronną wiedzę teoretyczną oraz praktyczne umiejętności w zakresie przetwarzania sygnałów cyfrowych, a w szczególności dźwięku i obrazu. Jego wykształcenie obejmuje:
- Cyfrowe przetwarzanie sygnałów
- Nowoczesne technologie multimedialne
- Dźwięk 3D
- Technologie VR (Virtual Reality)
- Automatyczne przetwarzanie mowy (ASR) i przetwarzanie języka naturalnego (NLP)
- Automatyczna klasyfikacja dźwięku i obrazu
- Wykorzystanie sztucznej inteligencji (AI) w multimediach
Umiejętności techniczne
Absolwent posiada biegłość w obsłudze profesjonalnych narzędzi oraz oprogramowania. Wśród tych narzędzi znajdują się programy do:
- Analizy sygnałów cyfrowych,
- Edycji dźwięku i obrazu,
- Przetwarzania dźwięku przestrzennego,
- Wykorzystania sieci neuronowych do przetwarzania dźwięku i obrazu.
Dzięki temu absolwent potrafi efektywnie tworzyć, przetwarzać i analizować treści multimedialne, mając na uwadze wysokie standardy branży.
Kompetencje społeczne
Absolwent specjalności Inżynieria Dźwięku i Obrazu posiada rozwinięte umiejętności miękkie, niezbędne w pracy w nowoczesnych zespołach projektowych. Zdobywa doświadczenie w:
- Pracy zespołowej – absolwent jest przygotowany do efektywnej współpracy w zespołach interdyscyplinarnych, posiada umiejętności komunikacji i rozwiązywania problemów.
- Zarządzaniu projektami – w toku studiów absolwent zdobywa podstawy zarządzania projektami, co obejmuje planowanie oraz realizację zadań zgodnie z harmonogramem.
- Prezentacji wyników – absolwent posiada umiejętność przedstawienia rezultatów swojej pracy w sposób klarowny i zrozumiały dla różnych grup odbiorców.
Perspektywy zawodowe
Absolwent specjalności Inżynieria Dźwięku i Obrazu ma szerokie perspektywy zawodowe, zarówno w kraju, jak i za granicą. Jest dobrze przygotowany do podjęcia pracy w różnych sektorach, w tym w:
- Branży multimedialnej – firmy zajmujące się produkcją dźwięku i wideo, studia filmowe, produkcja gier komputerowych.
- Technologii rozrywkowej – projektowanie systemów dźwiękowych i audiowizualnych w sektorze rozrywkowym, w tym w kinie, telewizji i produkcjach muzycznych.
- Telekomunikacji – praca nad zaawansowanymi systemami przesyłu multimediów w sieciach komunikacyjnych.
- Edukacji i badaniach naukowych – instytucje edukacyjne i badawcze zajmujące się nowoczesnymi technologiami przetwarzania sygnałów.
Dzięki zaawansowanym kompetencjom technicznym i zdolności do adaptacji do nowych technologii, absolwent tej specjalności jest przygotowany do pracy w środowisku, które dynamicznie się zmienia i rozwija.
Przykładowe przedmioty prowadzone w ramach specjalności IDO
Advanced Digital Signal Processing
Celem przedmiotu jest omówienie i analiza zaawansowanych metod cyfrowego przetwarzania sygnałów (DSP), ze szczególnym uwzględnieniem przetwarzania sygnałów multimedialnych (dźwięku i obrazu) oraz sygnałów radiowych. Poruszane zagadnienia DSP są przedstawione w formie umożliwiającej praktyczne zastosowanie zaawansowanych technik w multimediach i radiokomunikacji. Przedmiot obejmuje zaawansowane projektowanie filtrów, estymację widma mocy, filtrację adaptacyjną, cyfrową generację i syntezę sygnałów oraz wiele innych.
Słyszenie i Percepcja Dźwięku
Przedmiot ma na celu zaznajomienie studentów z działaniem i właściwościami układu słuchowego przy przetwarzaniu dźwięku. Wykład przedstawia budowę układu słuchowego z uwzględnieniem znaczenia akustycznych właściwości ucha zewnętrznego, roli ucha środkowego oraz funkcji analitycznych ucha wewnętrznego. Omówione są zasadnicze zjawiska i cechy wrażeniowe związane ze słuchem: filtrowanie (analiza widmowa) sygnałów w układzie słuchowym, maskowanie dźwięków, powstawanie wrażenia głośności i wysokości dźwięków o prostej i złożonej strukturze widma, właściwości integracyjne i rozdzielczość czasowa układu słuchowego oraz słyszenie dwuuszne (binauralne). Omówione są podstawy metod pomiarowych stosowanych w badaniach słuchu.
Zaawansowane Przetwarzanie Obrazu
Tematyka przedmiotu obejmuje omówienie wybranych zagadnień związanych z przetwarzaniem obrazów i sekwencji wizyjnych, w szczególności redukcji szumu i zakłóceń; kompresji danych obrazowych; wykrywania, śledzenia i rozpoznawania obiektów.
Cyfrowe Przetwarzanie Sygnałów Audio
Celem kursu jest omówienie i analiza algorytmów i metod cyfrowego przetwarzania sygnałów audio. Poruszane zagadnienia są przedstawione w formie umożliwiającej praktyczne zastosowanie technik cyfrowego przetwarzania sygnałów w przetwarzaniu sygnałów dźwiękowych, a w szczególności projektowania efektów dźwiękowych (np. procesorów dynamiki, pogłosowych, efektów opóźnieniowych i modulacji), nowoczesnych algorytmów kompresji dźwięku, współczesnych metod analogowo-cyfrowego przetwarzania dźwięku i zastosowania metod uczenia maszynowego w przetwarzaniu audio.
Multimedialny Projekt Badawczy
Przedmiot skupia się na zaawansowanych technikach przetwarzania dźwięku i obrazu z metodami badawczymi, w tym planowaniu eksperymentów, analizie danych oraz publikacji wyników. Kurs, prowadzony metodą Project-Based Learning (PBL), oferuje studentom możliwość praktycznego zastosowania naukowej teorii do realnych projektów badawczych w dziedzinie multimediów. Zajęcia podzielone są na bloki tematyczne, które obejmują od przeglądu najnowszych trendów po zaawansowane techniki analizy i prezentacji wyników badań. Celem kursu jest nie tylko przekazanie wiedzy technicznej, ale również rozwijanie umiejętności krytycznego myślenia, pracy zespołowej i komunikacji naukowej, przygotowując studentów do przyszłych wyzwań akademickich i zawodowych w branży technologii multimedialnych.
Głebokie sieci neuronowe w mediach cyfrowych
Przedmiot obejmuje kluczowe pojęcia z zakresu sieci neuronowych. Wykład zaczyna się od pojęcia perceptronu, a kończy na zaawansowanych Sieciach Neuronowych jakimi są Grafowe Sieci Neuronowe. Innymi omawianymi architekturami neuronowymi są rekurencyjne i transformatorowe (ang. Transformers) oraz modele generatywne. Niemniej przedmiot głównie koncentruje się na sieciach splotowych (CNN) i ich średnio-zaawansowanych architekturach oraz na zaawansowanych aplikacjach wizji komputerowej m. in. detekcja obiektów (RCNN, YOLO). Oprócz tego studenci poznają zaawansowane techniki optymalizacji, sposoby przeciwdziałania przetrenowaniu sieci neuronowych, a także rozumieją podstawy automatycznego różniczkowanie w trybach forward i reverse, który jest fundamentem współczesnych bibliotek głębokiego uczenia.
Systemy Dźwięku Przestrzennego
Tematyka przedmiotu obejmuje zagadnienia: binauralnej percepcji dźwięku, akustyki pomieszczeń, pomiarów i wykorzystania funkcji HRTF, auralizacji, technik ambisonii i metod syntezy pola akustycznego, analizy i przetwarzania dźwięku przestrzennego w kontekście tworzenia wirtualnej rzeczywistości. Ćwiczenia laboratoryjne dotyczą: analizy mechanizmów słyszenia binauralnego, modelowania akustyki pomieszczeń, analizy i syntezy pola akustycznego za pomocą macierzy mikrofonowych i głośnikowych, realizacji nagrań z wykorzystaniem technik rejestracji dźwięku przestrzennego, oceny jakości dźwięku przestrzennego.
Przetwarzanie Mowy
Przedmiot obejmuje tematykę związaną z nowoczesnymi technologiami przetwarzania sygnałów mowy. W ramach kursu omawiane są podstawy akustyki mowy, metody analizy czasowo-częstotliwościowej, techniki modelowania i parametryzacji sygnałów mowy, a także zaawansowane metody rozpoznawania i syntezy mowy. Kurs łączy wykłady teoretyczne z praktycznymi laboratoriami, w których studenci zdobywają umiejętności implementacji i testowania algorytmów przetwarzania mowy. Studenci realizują również projekt zespołowy, w którym wykorzystują, tworzą i testują systemy przetwarzania mowy.