Stav rozpoznávání hlasu Linuxu

ManlookingatiMac b1773d37ba1443c5a46facac76868cd6

Rozpoznávání řeči v Linuxu sleduje platformy Windows a Mac, protože Microsoft i Apple investovali značné množství času a nákladů na přidání softwaru pro hlasové ovládání nebo hlasového asistenta do svých hlavních operačních systémů. Přestože pro Linux není situace bezútěšná, stejně jako u mnoha špičkových technologií, vesmír s volným a otevřeným zdrojovým kódem zůstává o krok pozadu, zejména s nástroji pro hlasové ovládání.

Rozpoznávání řeči Linuxu

Žádná distribuce Linuxu se nezaměřuje na rozpoznávání řeči. Aplikace, které podporují rozpoznávání řeči, se však spoléhají na několik knihoven s otevřeným zdrojovým kódem, včetně Sphinx, Kaldi, Julius a Mozilla Deepspeech.

Tyto knihovny spoléhají na řečový korpus, který nabízí variace zvuků k trénování AI, a proto správně převádí řeč na text. Projekty s otevřeným zdrojovým kódem jsou však méně sofistikované (protože si užívají menší příspěvky k trénování AI), což znamená, že většina aplikací převodu textu na řeč pro Linux často zpomaluje převod. Obvykle to zpackají tak důkladně, že není jasné, jaká mohla být původní řeč.

Možnosti pro Linux Speech to Text

Použijte jednu z pěti cest řešení.

Spolehněte se na aplikace pro Linux dostupné v repozitářích vaší distribuce – pokud se nějaké objeví.
Amazon zpřístupnil Alexu pro Linux, včetně Raspberry Pi. Aby toto uspořádání fungovalo, budete muset provést spoustu vlastních vylepšení, ale bude to fungovat.
Přístup k rozhraní Google Speech API ve svém prohlížeči prostřednictvím DictationIO. Tato služba funguje pouze pro diktování; nemůžete jej použít pro hlasové ovládání. Je poháněn umělou inteligencí Google, takže kvalita je dobrá.

Použijte službu jako Alexa nebo Google Assistant jako nástroj pro hlasové příkazy pro Linux prostřednictvím služby Triggercmd. Triggercmd běží na vašem počítači; použijte jej k vyvolání Alexa nebo Google Assistant a nechte tyto nástroje spouštět konkrétní Bash skripty na základě vašeho příkazu. Řekněte něco jako: „Dobře, Google, požádejte spouštěcí příkaz k otevření kalkulačky“. Google Assistant slouží jako prostředník s Triggercmd ke spouštění skriptu Bash určeného frází „otevřít kalkulačku“.
Použijte víno nebo virtuální stroj se softwarem pro Windows, jako je Dragon NaturallySpeaking. Při správném vyladění můžete k přepisu použít engine Dragon, ačkoli toto řešení nefunguje pro aplikace hlasového ovládání.