Methoden: alles over diverse methoden van spraakherkenning. Voor de auto, smartphone, computers en systemen. Tips en tricks. Analyses en
achtergronden.
Gebruikersafhankelijke en -onafhankelijke methode
De kwaliteit van de stemherkenning is van groot belang, dat bepaalt voor een groot deel de kwaliteit. De stemherkenning is afhankelijk van de methode.
Er bestaat een gebruikers-onafhankelijke spraakherkenning, denk hierbij aan telefoondiensten waar we bijvoorbeeld door kunnen geven dat we de krant niet hebben ontvangen of de
auto waar we met de stem kunnen navigeren. De herkenning is zoals die zich voordoet. We kunnen beter articuleren om de herkenbaarheid omhoog te krijgen, het product kan zich verbeteren, maar
meer is er niet.
De andere methode is de gebruikers-afhankelijke spraakherkenning. De herkenbaarheid kan oplopen tot 99,5 % wanneer we de techniek begrijpen en daar naar handelen.
Direct dicteren bij de cursor, en commando’s geven, noemen we Direct Input of Online Dicteren. Achteraf omzetten in tekst door middel van spraakherkenning noemen we
Backend of Serverside Recognition. Een combinatie van deze twee methodieken is ook mogelijk.
Bij Direct Input wordt de software op een computer, laptop of server geïnstalleerd. Dicteren kan dan in een dossier, WORD, Outlook of waar de cursor ook maar staat. Direct
verschijnen de woorden op het scherm en de tekst wordt direct verwerkt.
Backend of Server-side dicteren is vooral geschikt voor juristen die niet zelf de teksten verwerken en/of veel onderweg zijn. Ze spreken in op een voicerecorder of in een
beveiligde smartphone app.
Het dictaat wordt omgezet in tekst en blijft op de server staan voor verwerking door de auteur zelf of de backoffice. Bij het inspreken op de beveiligde app, is zelfs de tekst op de smartphone
terug te lezen, zowel de ruwe al gecorrigeerde tekst. Dit geldt niet voor elk product, afhankelijk van de werking van de keuze van het softwarepakket.
Elke jurist is uniek en kan dan ook zijn of haar eigen werkmethode kiezen. Of een combinatie van alle mogelijkheden. Afhankelijk van specialisatie, netwerkomgeving en ondersteuning van de
backoffice. Werken ‘in de cloud’ kan met beide methodieken.
Template Matching:
Bij deze eenvoudige vorm van spraakherkenning wordt de gesproken invoer vergeleken met een beperkt aantal tijdens een trainingsperiode ingesproken
commando’s. Dit zijn de zogenaamde discrete spraaksystemen. De beperkingen van deze techniek brengen met zich mee dat tijdens het dicteren de woorden los van elkaar uitgesproken
moeten worden. Denk hierbij aan order picking bij grootte voorraden of telefonieherkenning.
Regelgebaseerde Aanpak:
De vroege spraakherkenningssystemen gebruikten een regelgebaseerde aanpak. Ze hadden een vastgestelde reeks van regels die beschreven hoe verschillende foneem moesten klinken onder verschillende
omstandigheden. Door deze regels toe te passen, konden ze proberen te raden welke foneem een spreker op een bepaald moment uitspreekt. Gebaseerd op statistieken, leren door gebruik. Denk hierbij
aan Dragon.
Machine Learning en Deep Learning: Moderne spraakherkenningssystemen maken gebruik van geavanceerdere technieken zoals machine learning en deep learning.
Deze systemen worden getraind op grote datasets van menselijke spraak, waardoor ze beter in staat zijn om variaties in accenten, snelheden en dialecten te herkennen.
Het is belangrijk op te merken dat de effectiviteit van spraakherkenning kan variëren afhankelijk van de specifieke methode die wordt gebruikt, evenals andere factoren zoals de kwaliteit van de
audio-invoer en de complexiteit van de taak. Elk van deze methoden heeft zijn eigen voor- en nadelen, en de keuze van de methode hangt vaak af van de specifieke toepassing, kwaliteitseisen en
security.