Ewolucja technologii rozpoznawania głosu.

Ewolucja technologii rozpoznawania głosu.
Pamiętasz, kiedy pomysł KITT-a, gadającego samochodu z Knight Rider, ponownie Cię zaskoczył? Albo kiedy Łowca androidów Eric Decker ustnie nakazał swojemu komputerowi poprawić zdjęcia z miejsc zbrodni? Pomysł bycia rozumianym przez komputer wydawał się dość futurystyczny, nie mówiąc już o takim, który mógłby odpowiedzieć na Twoje pytania i zrozumieć Twoje polecenia. O autorze Graeme John Cole jest współpracownikiem Rev, twórcy najdokładniejszego na świecie mechanizmu automatycznego rozpoznawania mowy, Rev.ai. Dziś wszyscy nosimy KITT-a w kieszeni. Wzdychamy, gdy KITT odbiera telefon w banku. Osobowość jeszcze nie istnieje, ale komputery potrafią niemal doskonale rozpoznać słowa, które wypowiadamy. Michael Knight, bohater Knight Rider, który połączył siły ze swoim inteligentnym samochodem, aby walczyć z przestępczością, był sceptyczny, czy KITT może zrozumieć jego pytania w 1982 r. Jednak rozwój technologii rozpoznawania głosu trwał od lat 1950. Poniżej przedstawiono ewolucję tej technologii. przez lata. Oraz jak nasze sposoby korzystania z funkcji rozpoznawania mowy i zamiany tekstu na mowę ewoluowały wraz z technologią.

Pudełko na buty IBM

(Zdjęcie: IBM)

Pierwsze komputery słuchające, 1950-1980

Siła automatycznego rozpoznawania mowy (ASR) oznacza, że ​​jego rozwój zawsze był kojarzony z wielkimi nazwiskami. W 1952 r. firma Bell Laboratories wprowadziła na rynek firmę AUDREY. System AUDREY rozpoznawał wypowiadane liczby z dokładnością od 97 do 99% w dokładnie kontrolowanych warunkach. Jednakże według Jamesa Flanagana, naukowca i byłego inżyniera elektryka w Bell Labs, AUDREY siedziała na „stoisku przekaźników o wysokości sześciu stóp, zużywając znaczną energię i wykazując niezliczone problemy konserwacyjne związane ze złożonym obwodem przekaźników”. puste rurki”. AUDREY był zbyt drogi i niepraktyczny, nawet w przypadku specjalistycznych zastosowań. W 1962 roku IBM wprowadził Shoebox, który rozpoznawał liczby i proste terminy matematyczne. W tym czasie japońskie laboratoria opracowały rozpoznawanie samogłosek i fonemów oraz pierwszy segment mowy. Rozumienie małego zakresu liczb (tj. od 0 do 9) przez komputer to jedno, ale przełomem na Uniwersytecie w Kioto było „segmentowanie” linii mowy, aby technologia mogła pracować nad różnymi dźwiękami mówionymi. W latach 1970. Departament Obrony (DARPA) sfinansował program badań nad rozumieniem mowy (SUR). Owocem tych badań był między innymi system rozpoznawania mowy HARPY firmy Carnegie Mellon. HARPY rozpoznawała zdania ze słownika składającego się z 1.011 słów, co dało systemowi moc przeciętnego trzylatka. Kiedy miałem trzy lata, rozpoznawanie głosu było teraz cudowne i miało potencjał, ale nie chciałbym tego w biurze. HARPY jako jedna z pierwszych zastosowała ukryte modele Markowa (HMM). Ta probabilistyczna metoda doprowadziła do rozwoju ASR w latach 1980. W latach 1980. pojawiły się pierwsze realne przypadki użycia narzędzi zamiany tekstu na mowę w eksperymentalnym systemie transkrypcji IBM, Tangora. Dzięki odpowiedniemu przeszkoleniu Tangora potrafiła rozpoznać i zapisać 20.000 XNUMX angielskich słów. Jednak system był nadal zbyt ciężki do użytku komercyjnego.

ASR na poziomie konsumenckim od lat 1990. do 2010 r

„Uważaliśmy, że niewłaściwe jest proszenie maszyny o naśladowanie ludzi” – wspomina Fred Jelinek, innowator w zakresie rozpoznawania mowy w IBM. „W końcu, jeśli maszyna musi się poruszać, robi to za pomocą kół, a nie chodzenia. Zamiast wyczerpująco badać, jak ludzie słyszą i rozumieją mowę, chcieliśmy znaleźć naturalny sposób, aby maszyna mogła to zrobić. Analiza statystyczna była obecnie siłą napędową ewolucji technologii ASR. W 1990 roku wypuszczono Dragon Dictate jako pierwsze komercyjne oprogramowanie do rozpoznawania mowy. Kosztuje 9,000 euro, około 18,890 2021 euro w 1997 r., uwzględniając inflację. Aż do wydania Dragon Naturally Speaking w 1992 r. użytkownicy nadal musieli robić pauzy między każdym słowem. W 1.200 roku firma AT&T wprowadziła usługę przetwarzania połączeń głosowych (VRCP) firmy Bell Labs, która obecnie przetwarza około 1990 miliarda transakcji głosowych rocznie. Jednak większość prac związanych z rozpoznawaniem mowy w latach 2004. odbywała się pod maską. Komputery osobiste i wszechobecna sieć stworzyły nowe perspektywy innowacji. Tę szansę odkrył Mike Cohen, który dołączył do Google, aby w 2007 roku rozpocząć prace firmy nad technologią głosową. Wyszukiwanie głosowe Google (2010) udostępniło masom technologię rozpoznawania głosu. Ale wykorzystał także dane głosowe od milionów użytkowników sieci jako materiały szkoleniowe na temat uczenia maszynowego. I miał wagę przetwarzania Google, aby poprawić jakość. Apple (Siri) i Microsoft (Cortana) poszły w ich ślady, aby pozostać w grze. Na początku XNUMX roku pojawienie się głębokiego uczenia się, rekurencyjnych sieci neuronowych (RNN) i pamięci długoterminowej (LSTM) doprowadziło do hiperprzestrzennego skoku w możliwościach technologii ASR. Na tę dynamikę rozwoju w dużej mierze wpłynęło także pojawienie się i większa dostępność tanich rozwiązań informatycznych oraz ogromny postęp algorytmiczny.

Zrzut ekranu z WWDC 2021

(Zdjęcie: Apple)

Aktualny stan ASR

Opierając się na dziesięcioleciach ewolucji i w odpowiedzi na rosnące oczekiwania użytkowników, w ciągu ostatniego półwiecza technologia rozpoznawania głosu poczyniła dalsze postępy. Rozwiązania optymalizujące zmienną wierność dźwięku i wysokie wymagania sprzętowe ułatwiają korzystanie z codziennego rozpoznawania mowy poprzez wyszukiwanie głosowe i Internet Rzeczy. Na przykład inteligentne głośniki wykorzystują wykrywanie słów kluczowych, aby zapewnić natychmiastowe wyniki za pomocą wbudowanego oprogramowania. W tym czasie pozostała część zdania jest wysyłana do chmury w celu przetworzenia. Funkcja VoiceFilter-Lite firmy Google optymalizuje mowę osoby pod koniec transakcji na urządzeniu. Dzięki temu konsumenci mogą „trenować” swoje urządzenie za pomocą głosu. Szkolenie zmniejsza współczynnik źródła do zniekształcenia (SDR), poprawiając użyteczność aplikacji wspomagających aktywowanych głosem. Wskaźnik błędów słów (WER, procent błędnych słów pojawiających się podczas procesu konwersji mowy na tekst) radykalnie się poprawia. Naukowcy sugerują, że do końca lat 2020. XX wieku 99% transkrypcji będzie odbywać się automatycznie. Ludzie będą interweniować jedynie w celu kontroli jakości i poprawek.

Przypadki użycia ASR w latach 2020. XX wieku

Możliwości ASR poprawiają się w symbiozie z rozwojem ery sieci. Poniżej przedstawiamy trzy przekonujące przypadki użycia automatycznego rozpoznawania mowy. W 2021 r. branża podcastów przekroczy granicę miliarda dolarów. Liczba odbiorców gwałtownie rośnie, a słowa wciąż napływają. Platformy podcastów poszukują dostawców ASR zapewniających wysoką precyzję i znaczniki słowne, aby pomóc ludziom łatwiej tworzyć podcasty i maksymalizować wartość ich treści. Dostawcy tacy jak Descript konwertują podcasty na tekst, który można szybko edytować. Ponadto znaczniki czasu oparte na słowach oszczędzają czas, umożliwiając redaktorowi kształtowanie gotowego podcastu jak glinę. Te transkrypcje sprawiają również, że treści są bardziej dostępne dla wszystkich odbiorców i pomagają twórcom ulepszyć wyszukiwanie i odkrywanie ich programów dzięki SEO. Obecnie coraz więcej spotkań odbywa się online. Rejestrują się nawet ci, którzy nie są tu często. Poświęcenie kilku minut jest kosztowne i czasochłonne. Jednak notatki ze spotkań są dla uczestników cennym narzędziem umożliwiającym uzyskanie podsumowania lub przejrzenie szczegółów. Przesyłanie strumieniowe ASR oferuje syntezę mowy w czasie rzeczywistym. Oznacza to łatwe tworzenie napisów kodowanych lub transkrypcję na żywo podczas spotkań i seminariów. Procesy takie jak zeznania prawne, zatrudnianie itp. przejdź wirtualnie. ASR może sprawić, że te treści wideo będą bardziej dostępne i wciągające. Ale co ważniejsze, kompleksowe modele uczenia maszynowego (ML) typu end-to-end (E2E) jeszcze bardziej poprawiają zapis mówcy – zapis tego, kto jest obecny i kto co powiedział. W sytuacjach wysokiego ryzyka zaufanie do narzędzi jest niezbędne. Niezawodny silnik zamiany mowy na tekst z wyjątkowo niskim WER eliminuje element wahania i skraca czas potrzebny na sporządzenie ostatecznych dokumentów i podjęcie decyzji.

W dokumencie

Czy sądzisz, że firma Knight Industries kiedykolwiek oceniała transkrypcję rozmów KITT-a i Michaela pod kątem poprawy wydajności? Może nie. Jednak w związku z niedawnym przejściem na pracę z domu coraz więcej naszych rozmów odbywa się online lub przez telefon. Precyzyjne przetwarzanie języka naturalnego w czasie rzeczywistym (NLP) daje nam władzę nad naszymi słowami. Dodaj wartość do każdej interakcji. Narzędzia te nie są już dostępne wyłącznie dla wielkich marek, takich jak IBM i DARPA. Są one dostępne dla konsumentów, firm i programistów i mogą z nich korzystać według ich wyobraźni, ponieważ technologia rozpoznawania głosu stara się przewyższać obietnice science fiction. Interesuje Cię rozpoznawanie mowy? Odkryj nasze zestawienie najlepszych programów do zamiany tekstu na mowę