Meta chce, aby wirtualny krajobraz brzmiał jak prawdziwe życie

Meta chce, aby wirtualny krajobraz brzmiał jak prawdziwe życie

Meta i grupa naukowców z University of Texas w Austin (UT Austin) pracują nad wprowadzeniem realistycznego dźwięku do Metaverse.

Jak wyjaśnia Kristen Garuman, dyrektor ds. badań w Meta AI (otwiera się w nowej karcie), rzeczywistość rozszerzona i rzeczywistość wirtualna (odpowiednio AR i VR) to nie tylko grafika. Dźwięk odgrywa ogromną rolę w ożywianiu świata. Garuman mówi, że „Dźwięk jest kształtowany przez otoczenie. Istnieje kilka czynników, które wpływają na zachowanie dźwięku, takie jak geometria pomieszczenia, co się w nim znajduje i jak daleko dana osoba znajduje się od źródła.

Aby to osiągnąć, Meta planuje użyć okularów AR do nagrywania dźwięku i wideo z jednego miejsca, a następnie użyć zestawu trzech modeli AI do przekształcenia i oczyszczenia nagrania, tak aby wyglądało na to, że dzieje się przed tobą podczas odtwarzania. z powrotem grać. W domu. AI weźmie pod uwagę pokój, w którym się znajdujesz, aby dopasować się do otoczenia.

Patrząc na projekty, wydaje się, że Meta skupia się na okularach AR. Plan Meta dotyczący zestawów słuchawkowych VR obejmuje odtwarzanie obrazów i dźwięków otoczenia, na przykład koncertu, dzięki czemu poczujesz się, jakbyś był tam osobiście.

Zapytaliśmy Meta, jak ludzie mogą słyszeć ulepszony dźwięk. Czy ludzie będą potrzebować słuchawek do słuchania, czy będą pochodzić ze słuchawek? Nie otrzymaliśmy odpowiedzi.

Zapytaliśmy również Meta, w jaki sposób programiści mogą zdobyć te modele sztucznej inteligencji. Zostały one utworzone jako open source, aby zewnętrzni programiści mogli pracować nad technologią, ale Meta nie podała żadnych dalszych szczegółów.

Przekształcony przez AI

Pytanie brzmi, jak Meta może nagrywać dźwięk na parze gogli AR i odzwierciedlać nowe ustawienie.

Pierwsze rozwiązanie znane jest jako AViTAR, czyli „Visual Acoustic Matching Model”. (otwiera się w nowej karcie) To jest sztuczna inteligencja, która przekształca dźwięk, aby pasował do nowego środowiska. Meta podaje przykład matki, która za pomocą okularów AR nagrywa recital taneczny swojego syna w audytorium.

Jeden z badaczy twierdzi, że dana matka może wziąć to nagranie i odtworzyć je w domu, gdzie sztuczna inteligencja przekształci dźwięk. Będzie skanować otoczenie, brać pod uwagę wszelkie przeszkody w pomieszczeniu i sprawić, że recital będzie brzmiał tak, jakby odbywał się tuż przed nią w tych samych okularach. Śledczy twierdzi, że dźwięk będzie wydobywał się z okularów.

Aby pomóc w uporządkowaniu dźwięku, dostępny jest wizualnie pogłos (otwiera się w nowej karcie). Zasadniczo usuwa rozpraszający pogłos z klipu. Podany przykład to nagranie koncertu skrzypcowego na stacji kolejowej, zabranie go do domu i wyczyszczenie klipu przez AI, aby usłyszeć tylko muzykę.

Najnowszym modelem AI jest VisualVoice (otwiera się w nowej karcie), który wykorzystuje kombinację wskazówek wizualnych i dźwiękowych do oddzielania głosów od innych dźwięków. Wyobraź sobie, że nagrywasz film, na którym kłócą się dwie osoby. Ta sztuczna inteligencja wyizoluje głos, abyś mógł go zrozumieć, wyciszając wszystko inne. Meta wyjaśnia, że ​​wskazówki wizualne są ważne, ponieważ sztuczna inteligencja musi zobaczyć, kto mówi, aby zrozumieć pewne niuanse i wiedzieć, kto mówi.

Jeśli chodzi o efekty wizualne, Meta twierdzi, że planuje włączyć wideo i inne wskazówki, aby jeszcze bardziej ulepszyć dźwięk sterowany przez sztuczną inteligencję. Ponieważ ta technologia jest wciąż na wczesnym etapie rozwoju, nie jest jasne, czy i kiedy Meta wprowadzi te SI do zestawu słuchawkowego Quest w Twojej okolicy.

Przeczytaj naszą najnowszą recenzję Oculus Quest 2, jeśli zastanawiasz się nad jej zakupem. Uwaga, spoiler: nam się to podoba.