Cześć,
mam zagwozdkę: słyszałem, że na stadionach w Stanach jest stosowana technologia polegająca na używaniu dziesiątek czy setek mikrofonów, po czym wyciąganiu audio konkretnych osób an trybunach za pomocą łączenia i filtrowania audio z kilku/kilkunastu mikrofonów najbliżej tej osoby/osób.
Zastanawiam się, czy nie dałoby się tego użyć do wyciągnięcia znośnego audio z kilku-kilkunastu słabych nagrań tego samego wydarzenia (np. przedstawienia teatralnego).
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Ktoś coś?
On Mon, 23 Mar 2015 10:45:42 +0100 rysiek rysiek@hackerspace.pl wrote:
Cześć,
mam zagwozdkę: słyszałem, że na stadionach w Stanach jest stosowana technologia polegająca na używaniu dziesiątek czy setek mikrofonów, po czym wyciąganiu audio konkretnych osób an trybunach za pomocą łączenia i filtrowania audio z kilku/kilkunastu mikrofonów najbliżej tej osoby/osób.
Zastanawiam się, czy nie dałoby się tego użyć do wyciągnięcia znośnego audio z kilku-kilkunastu słabych nagrań tego samego wydarzenia (np. przedstawienia teatralnego).
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Ktoś coś?
Nie znam się, ale się wypowiem.
Z podstawowej znajomości fizyki wnioskuję, że będziesz miał przesunięcia w czasie w zależności od odległości danego mikrofonu od źródła dźwięku. Żeby to skompensować, to chyba trzeba by było znać położenie wszystkich mikrofonów i źródła dźwięku, który chcesz wyciągnąć. Można pewnie po prostu ręcznie poprzesuwać poszczególne nagrania, aż będziesz słyszał to co chcesz wyraźnie, ale problem zapewne pojawi się kiedy źródeł dźwięku jest wiele, lub kiedy się przemieszczają.
Co do wyciągnięcia, to wyobrażam sobie, że proste pomnożenie ze sobą wszystkich (zsynchronizowanych już) nagrań i znormalizowanie powinno dać coś znośnego na początek.
Tako rzecze rysiek (2015-03-23, 10:45):
mam zagwozdkę: słyszałem, że na stadionach w Stanach jest stosowana technologia polegająca na używaniu dziesiątek czy setek mikrofonów, po czym wyciąganiu audio konkretnych osób an trybunach za pomocą łączenia i filtrowania audio z kilku/kilkunastu mikrofonów najbliżej tej osoby/osób.
Zastanawiam się, czy nie dałoby się tego użyć do wyciągnięcia znośnego audio z kilku-kilkunastu słabych nagrań tego samego wydarzenia (np. przedstawienia teatralnego).
Niezbyt, jeśli nie znasz konkretnych algo (których implementacje są, jak się domyślam, pewnie tylko w jakichś systemach za milijony jurków) i precyzyjnej lokalizacji mikrofonów.
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Nie sądzę, j.w.
Musiałbyś pomiędzy tymi źródłami znaleźć sygnały skorelowane, jakoś je odfiltrować od nieskorelowanych i coś zrobić z tym, co zostanie. Na pewno nie będzie to piękne, ale być może bardziej czytelne.
PS. W tym roku w Warszawie AES: http://www.aes.org/events/138/ – wpadajcie :)
Na bank się da; polecam zamailować do kogoś pracującego z DSP na uczelni.
Jeśli chodzi o kompensację odległości od źródła dźwięku, to dla stacjonarnego źródła i mikrofonu problem jest trywialny; dla ruchomego źródła/odbiornika jest gorzej, a największy problem może być z odbieraniem kilku źródeł na raz (e.g. echo albo kilka głośników w różnych miejscach).
Zacząłbym od próby uśredniania sygnałów w dziedzinie częstotliwości.
On Mon, Mar 23, 2015, 11:56 antoszka antoni@hackerspace.pl wrote:
Tako rzecze rysiek (2015-03-23, 10:45):
mam zagwozdkę: słyszałem, że na stadionach w Stanach jest stosowana technologia polegająca na używaniu dziesiątek czy setek mikrofonów, po
czym
wyciąganiu audio konkretnych osób an trybunach za pomocą łączenia i filtrowania audio z kilku/kilkunastu mikrofonów najbliżej tej osoby/osób.
Zastanawiam się, czy nie dałoby się tego użyć do wyciągnięcia znośnego
audio z
kilku-kilkunastu słabych nagrań tego samego wydarzenia (np.
przedstawienia
teatralnego).
Niezbyt, jeśli nie znasz konkretnych algo (których implementacje są, jak się domyślam, pewnie tylko w jakichś systemach za milijony jurków) i precyzyjnej lokalizacji mikrofonów.
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Nie sądzę, j.w.
Musiałbyś pomiędzy tymi źródłami znaleźć sygnały skorelowane, jakoś je odfiltrować od nieskorelowanych i coś zrobić z tym, co zostanie. Na pewno nie będzie to piękne, ale być może bardziej czytelne.
PS. W tym roku w Warszawie AES: http://www.aes.org/events/138/ – wpadajcie :)
-- [アントシカ] _______________________________________________ General mailing list General@lists.hackerspace.pl https://lists.hackerspace.pl/mailman/listinfo/general
2015-03-23 10:45 GMT+01:00 rysiek rysiek@hackerspace.pl:
Cześć,
mam zagwozdkę: słyszałem, że na stadionach w Stanach jest stosowana technologia polegająca na używaniu dziesiątek czy setek mikrofonów, po czym wyciąganiu audio konkretnych osób an trybunach za pomocą łączenia i filtrowania audio z kilku/kilkunastu mikrofonów najbliżej tej osoby/osób.
Zastanawiam się, czy nie dałoby się tego użyć do wyciągnięcia znośnego audio z kilku-kilkunastu słabych nagrań tego samego wydarzenia (np. przedstawienia teatralnego).
Tak, pod pewnymi warunkami, i jest to dość złożone DSP.
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Niestety, nie ma dobrych gotowców do beamformingu i wielokanałowego odszumiania. Zna się na tym może kilkaset osób na świecie. Pracowałem nad takim systemem i niestety niewiele mogę ci poradzić, because proprietary reasons. Nie jest to proste, nawet dla tak ograniczonego wejścia jak mowa.
Może coś wyniknęło z projektów EU - ale pewnie też zamknięte i proprietary.
Ktoś coś?
Słowa kluczowe: adaptive beamforming; multichannel voice enhancement; dereverberation. Konferencja ICASSP. Więcej nazwisk i autorów tam znajdziesz.
On 23 March 2015 10:45:42 CET, rysiek rysiek@hackerspace.pl wrote:
Cześć,
mam zagwozdkę: słyszałem, że na stadionach w Stanach jest stosowana technologia polegająca na używaniu dziesiątek czy setek mikrofonów, po czym wyciąganiu audio konkretnych osób an trybunach za pomocą łączenia i filtrowania audio z kilku/kilkunastu mikrofonów najbliżej tej osoby/osób.
Zastanawiam się, czy nie dałoby się tego użyć do wyciągnięcia znośnego audio z kilku-kilkunastu słabych nagrań tego samego wydarzenia (np. przedstawienia teatralnego).
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Ktoś coś?
http://en.wikipedia.org/wiki/Blind_signal_separation
Na studiach robiliśmy coś takiego w matlabie.
Pozdro, Emeryth
On Mon, Mar 23, 2015 at 11:49 AM Andrzej Surowiec emeryth@gmail.com wrote:
On 23 March 2015 10:45:42 CET, rysiek rysiek@hackerspace.pl wrote:
Cześć,
mam zagwozdkę: słyszałem, że na stadionach w Stanach jest stosowana technologia polegająca na używaniu dziesiątek czy setek mikrofonów, po czym wyciąganiu audio konkretnych osób an trybunach za pomocą łączenia i filtrowania audio z kilku/kilkunastu mikrofonów najbliżej tej osoby/osób.
Zastanawiam się, czy nie dałoby się tego użyć do wyciągnięcia znośnego audio z kilku-kilkunastu słabych nagrań tego samego wydarzenia (np. przedstawienia teatralnego).
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Ktoś coś?
http://en.wikipedia.org/wiki/Blind_signal_separation
Na studiach robiliśmy coś takiego w matlabie.
Pozdro, Emeryth
+1 do Blind Signal Separation, z tym że trzeba sobie dobrze zdawać sprawę z tego, co to robi - jeśli masz kilka mikrofonów w różnych miejscach, to to rozbija względem pozycji. Może podziałać jeśli potrzebujesz pokroić audio względem „ze sceny” vs „z trybun” przy założeniu, że mikrofony nie są w zdegenerowanej pozycji pod tym względem. To się też nazywa Cocktail Party Problem i pod tą nazwą można nawet trochę rzeczy znaleźć. Ale nie sądzę, żeby to pomogło jeśli na przykład masz kłopoty z dynamiką sygnału.
Jak bardzo w tym przeszkodzi nieznajomość charakterystyki mikrofonów użytych do nagrań i kompresja samych nagrań?
@Łoś, charakterystyka wpływa chyba głównie na amplitudy konkretnych częstotliwości, tak? A śmieci z kompresji się odfiltrują na drodze uśrednień.
On Mon, 23 Mar 2015 at 13:38 Jakub Kramarz lenwe@lenwe.net wrote:
Jak bardzo w tym przeszkodzi nieznajomość charakterystyki mikrofonów użytych do nagrań i kompresja samych nagrań? _______________________________________________ General mailing list General@lists.hackerspace.pl https://lists.hackerspace.pl/mailman/listinfo/general
2015-03-23 13:38 GMT+01:00 Jakub Kramarz lenwe@lenwe.net:
Jak bardzo w tym przeszkodzi nieznajomość charakterystyki mikrofonów użytych do nagrań i kompresja samych nagrań?
Jeśli są podobne do siebie, mało.
Kompresja może przeszkadzać dość solidnie - jak wszelkie transformacje nieliniowe, z którymi tego typu system wprost sobie nie radzi.
2015-03-23 13:24 GMT+01:00 Tomasz Dubrownik t.dubrownik@gmail.com:
+1 do Blind Signal Separation, z tym że trzeba sobie dobrze zdawać sprawę z tego, co to robi - jeśli masz kilka mikrofonów w różnych miejscach, to to rozbija względem pozycji. Może podziałać jeśli potrzebujesz pokroić audio względem „ze sceny” vs „z trybun” przy założeniu, że mikrofony nie są w zdegenerowanej pozycji pod tym względem. To się też nazywa Cocktail Party Problem i pod tą nazwą można nawet trochę rzeczy znaleźć. Ale nie sądzę, żeby to pomogło jeśli na przykład masz kłopoty z dynamiką sygnału.
Pomóc pomoże. Sęk w tym, że samo z siebie czyste BSS nie działa dobrze dla tak złożonych sygnałów.
Używa się zamiast tego ICA z odpowiednim score function i preprocessingiem, które to już są czarną magią. Poważne Firmy płacą za takie rozwiązania Poważne Pieniądze.
Życzę powodzenia.
Dnia poniedziałek, 23 marca 2015 13:52:49 Radoslaw Szkodzinski pisze:
2015-03-23 13:24 GMT+01:00 Tomasz Dubrownik t.dubrownik@gmail.com:
+1 do Blind Signal Separation, z tym że trzeba sobie dobrze zdawać sprawę z tego, co to robi - jeśli masz kilka mikrofonów w różnych miejscach, to to rozbija względem pozycji. Może podziałać jeśli potrzebujesz pokroić audio względem „ze sceny” vs „z trybun” przy założeniu, że mikrofony nie są w zdegenerowanej pozycji pod tym względem. To się też nazywa Cocktail Party Problem i pod tą nazwą można nawet trochę rzeczy znaleźć. Ale nie sądzę, żeby to pomogło jeśli na przykład masz kłopoty z dynamiką sygnału.
Ok, dzięki emeryth, tkd. This makes sense.
Pomóc pomoże. Sęk w tym, że samo z siebie czyste BSS nie działa dobrze dla tak złożonych sygnałów.
Używa się zamiast tego ICA z odpowiednim score function i preprocessingiem, które to już są czarną magią. Poważne Firmy płacą za takie rozwiązania Poważne Pieniądze.
Życzę powodzenia.
Poważnego Powodzenia, mam nadzieję. ;)
On 3/23/15, rysiek rysiek@hackerspace.pl wrote:
Niekoniecznie chodzi mi o gotowy skrypt/software, nawet info, czy i jak to zrobić ręcznie za pomocą Audacity czy inszego general purpose audio softu.
Wydaje mi sie, ze predzej gnuradio niz audacity. Przynajmniej sa gotowe materialy na temat beamforming.