Nieuwe hardware

Wat begon met het terugvinden van een verbindingskabeltje groeide uit naar een compleet nieuw stuk hardware.

Met deze hardware kan een Raspberry PI 4 en zendontvanger op zenden of ontvangen sturen (PTT) en audio verzenden en audio ontvangen. Een handig displaytje van 16 x 2 karakters kan gebruikt worden om mededelingen op weer te geven. Het uitgebreide breadboardveld is geschikt om toekomstige schakelingen op te maken.

Om gelijk maar eens te testen of het werkt hebben we samen met AI, zo handig zijn we dan ook nog wel, een programmaatje gemaakt welke gedurende een halve seconde een toon van 1750 Hz uitzond. Toen de lat net even wat hoger gelegd en een programmaatje gemaakt welke de frequentie van een ontvangen signaal weergeeft en het tweede relais schakelt voor twee seconden wanneer dit 1750 Hz is. Om dit te testen gebruikte ik mijn portofoontje. Na enig instelwerk van het aangesloten geluidskaartje werkte dit. Daarmee is de weg nu vrij voor verdere experimenten.

Daarna werd het natuurlijk tijd om on air te gaan. Met Google’s gTTS (Google Text-to-Speech) is het simpel om ingevoerde tekst om te zetten naar spraak. Werkelijk een paar programma-regels verder en je kunt je net ingetikte tekst beluisteren. Als je dan mee programmeert dat het relais tijdens het afspelen van RX naar TX gaat wordt je tekst als spraak uitgezonden.

Tijd om er andere amateurs mee te verrassen of lastig te vallen. Rijk, de PD5RV, bekend van internet, was net in een goed gesprek en toen er een pauze viel liet ik het systeem een woordje mee spreken met één muisklik. Nooit te beroerd om een ontvangst rapportage te geven kreeg ik bij een tweede keer, nu wel gepland, een videootje als ontvangsbevestiging. Met Rijk’s medeweten en goedkeuring hiernaast te zien.

Dan… moet er natuurlijk wel een lijn uitgezet worden van wat er mee te gaan doen. Dat is best ambitieus maar voor wat ik tot nu toe gezien heb haalbaar. Ik blijf het opmerkelijk vinden dat je met een paar regels Python al vaak heel wat tot stand weet te brengen. En zeker als je gebruik kunt maken van allerlei invoegtoepassingen die je niet zelf hoeft te schrijven maar wel heel handig kunt gebruiken zoals die van bijvoorbeeld Google en OpenAI. Sommige kosten wel wat centen voor het gebruik maar, volgens mijn inschatting, nog steeds prima te doen.

De hardware getest:

Geluid (toon van 1750 Hz) produceren en verzenden
Geluid ontvangen (1750 Hz) en hier iets mee doen (tweede relais schakelen)

Maak het menselijk:

Tekst omzetten naar spraak en dit uitzenden
Actuele tekst (dag, dag van de maand, uur en minuten) in spraak omzetten en uitzenden
Spraak ontvangen en omzetten naar tekst. Feitelijk de discussie uitgeschreven

Intelligent(er):

Spraak- of stem herkenning: Wie zegt wat en dit onder elkaar uitschrijven
Simpele intelligentie: Alle waargenomen personen automatisch begroeten met een vaststaande tekst

Intelligent en interactief:

Spraak omzetten naar tekst en echt horen wat er gezegd wordt
Een samenvatting kunnen geven na een half uur meegeluisterd te hebben in 300 woorden
Automatisch na een half uur gerichte reacties kunnen laten geven op hetgeen gezegd is

Autonoom:

Het systeem draait en praat mee als zelfstandig zendamateur. Geeft antwoord op gestelde vragen, kent zijn/haar rol als zendamateur en geeft (bij voorkeur) geen ongepaste reacties. Vraagbaak voor iedereen

In de toekomst:

Wat er dan opdoemt qua mogelijkheden en nu nog niet te overzien is.

Update 26 september:

Intussen aangekomen bij punt drie van ‘Maak het menselijk’. De afgelopen week bezig geweest met spraakherkenning. Dat wil zeggen: spraak omzetten naar tekst en daar zijn we een aardig eind mee gevorderd. We zijn van start gegaan met een soort van online invoegtoepassing maar dit liep op bijna niets uit. Flarden van een gaand gesprek werden omzet naar tekst waardoor het meer leek op een spelletje. Dus om aan de hand van steekwoorden welke wel herkend/ ontcijferd waren te moeten raden waar het totale gesprek over ging.

Beter ging het met Vosk, een off-line invoegtoepassing welke dus zelf gesproken woord omzet naar tekst en dit niet over laat aan een server ergens op internet elders. Voor de Nederlandse taal zijn drie modellen beschikbaar en deze blijken alle drie prima de werken op een Raspberry 4. De beste resultaten werden behaald, hoe verrassend, met het grootste model.

Even een recente uitzending van de VRZA gebruikt als audio bron voor het testen van de omzetting naar tekst.

Meeschrijven met de VRZA, alleen dan anders dan dat zij het meestal voor ogen hebben. Ander verhaal, gaan we het hier nu niet over hebben.

Ik dacht zelfs gezien te hebben dat Vosk ook stemmen kan herkennen, dus wie wat gezegd heeft en dat is natuurlijk de kant welke we op willen. Dat zal vast een nog zwaardere belasting van het systeem worden maar misschien wel leuk om even mee te experimenteren.

Vosk is misschien toch niet waar we mee verder kunnen. Nadat de audio losgekoppeld was, ging de omzetting van spraak naar tekst nog zo’n drie minuten door. Dat kun je niet meer realtime noemen. Er was flink wat gebufferd en dus was het systeem er nog druk mee. Daarnaast bleek het model toch wel een beetje gevoelig voor dialecten. De één werd beter verstaan dan de ander. Dit is bekend en in extreme gevallen wordt aangeraden om zelf een model te trainen.

Voor nu spelen we er nog even mee, het blijft een hobby, maar het komt er waarschijnlijk op neer dat we toch uitkomen bij Google’s en/of OpenAI oplossingen. Met alleen het herkennen van tekst zijn we er nog niet, er moet ook wat mee gedaan gaan worden en daarmee alleen al hadden we sowieso in deze hoek uit gekomen.

Update 29 september:

De Raspberry is nu voorzien van een koelblok met twee kleine ventilatortjes. En dat werkt, metingen met de interne temparatuurcensor gaven aan dat de bedrijfstemparatuur nu flink lager lag dan eerder. Zwaarde programma’s kunnen nu ‘gedraaid worden’.

Update 23 oktober:

Het zat eraan te komen. Een display toegevoegd en wel de Raspberry PI Display 2. Het werkt, was even leuk om mee aan de slag te gaan. Nog even bezinnen hoe ik dit vast ga zetten.

Toekomstige knoppen kunnen op het scherm gepresenteerd worden waarmee keuze’s gemaakt kunnen worden. De volgende hardware-upgrade zal waarschijnlijk de upgrade naar een Raspberry 5 worden met koeler en mogelijk een AI hat erop. Wordt weer vervolgd, binnenkort starten we in ieder geval met online api’s van Google en/of Open AI.

Geef een reactie Reactie annuleren