Rozpoznávání řeči v Linuxu sleduje platformy Windows a Mac, protože Microsoft i Apple investovali značné množství času a nákladů na přidání softwaru pro hlasové ovládání nebo hlasového asistenta do svých hlavních operačních systémů. Přestože pro Linux není situace bezútěšná, stejně jako u mnoha špičkových technologií, vesmír s volným a otevřeným zdrojovým kódem zůstává o krok pozadu, zejména s nástroji pro hlasové ovládání.
Rozpoznávání řeči Linuxu
Žádná distribuce Linuxu se nezaměřuje na rozpoznávání řeči. Aplikace, které podporují rozpoznávání řeči, se však spoléhají na několik knihoven s otevřeným zdrojovým kódem, včetně Sphinx, Kaldi, Julius a Mozilla Deepspeech.
Možnosti pro Linux Speech to Text
Použijte jednu z pěti cest řešení.
- Spolehněte se na aplikace pro Linux dostupné v repozitářích vaší distribuce – pokud se nějaké objeví.
- Amazon zpřístupnil Alexu pro Linux, včetně Raspberry Pi. Aby toto uspořádání fungovalo, budete muset provést spoustu vlastních vylepšení, ale bude to fungovat.
- Přístup k rozhraní Google Speech API ve svém prohlížeči prostřednictvím DictationIO. Tato služba funguje pouze pro diktování; nemůžete jej použít pro hlasové ovládání. Je poháněn umělou inteligencí Google, takže kvalita je dobrá.
- Použijte službu jako Alexa nebo Google Assistant jako nástroj pro hlasové příkazy pro Linux prostřednictvím služby Triggercmd. Triggercmd běží na vašem počítači; použijte jej k vyvolání Alexa nebo Google Assistant a nechte tyto nástroje spouštět konkrétní Bash skripty na základě vašeho příkazu. Řekněte něco jako: „Dobře, Google, požádejte spouštěcí příkaz k otevření kalkulačky“. Google Assistant slouží jako prostředník s Triggercmd ke spouštění skriptu Bash určeného frází „otevřít kalkulačku“.
- Použijte víno nebo virtuální stroj se softwarem pro Windows, jako je Dragon NaturallySpeaking. Při správném vyladění můžete k přepisu použít engine Dragon, ačkoli toto řešení nefunguje pro aplikace hlasového ovládání.