Even bezinnen, dan weer door

We hadden er meer van gehoopt gisteravond toen we de Raspberry een zendamateurronde lieten samenvatten. Zoals al eerder voorspeld: wanneer omzetting van audio naar tekst niet goed verloopt komt er verderop in de proces onvermijdelijk een hoop onzin uit. We hadden onder andere te maken met ‘moodboards’ (moonbouncing) en ook werd eigenlijk geen enkele call goed verstaan. Verder meende ik in de originele transcriptie terug te lezen dat er ook enkele veganistische zendamateurs mee deden maar kan mij niet herinneren dat hier in het echt ook sprake van is geweest.

Hoewel het brandt om hier onmiddellijk weer mee aan de slag te gaan laten we het even bezinken. Natuurlijk hebben we nu al ideeën waar verbetering te behalen is. Omdat het glas natuurlijk gewoon halfvol is mag gesteld worden dat AI uit de chaos aan woorden toch nog een redelijk verhaal weet neer te zetten. Dit is wel naar aanleiding van hetgeen ‘hem’ aangeboden werd en daar moeten we de verbetering gaan zoeken. Uit zichzelf maakt het er soms ook wat moois van. ‘Net Control’ blijkt dan weer gewoon de rondeleider te zijn. Of op zijn minst iemand die met een beetje goed verhaal komt.

12 februari

Voorafgaand aan de zendamateurronde van afgelopen maandag hebben we het systeem proef laten draaien op rondes welke ik had gevonden op YouTube. Daar kun je eindeloos mee experimenteren en deze resultaten waren acceptabel. Dat was het maandag niet vond ik. Teleurstellend gewoon voor wat we inmiddels gewend zijn.

Bij een eerste beschouwing lijkt het erop dat de ingangsvolume toch te hoog stond van de Raspberry Pi waardoor overstuurde spraak niet goed omgezet kon worden naar tekst. Als dat zo is, dan is dit snel opgelost. Dit gaan we nog verder onderzoeken maar volgens mij hebben we het probleem nu al te pakken. Hoe dit heeft kunnen gebeuren, het stond goed, is niet duidelijk. Het zou kunnen zijn dat dit is gebeurd tijdens een software-update van het systeem.

Bij een volgende ronde is het misschien wel een goed idee om gelijk de lat wat hoger te leggen. De prompt moet aangepast worden want de samenvatting kan beter. Maar los daarvan.. het zou toch wel heel mooi zijn als het systeem onmiddellijk na het zogenaamde transcriberen en samenvatten hier op deze site zelf de hele ronde publiceert.. èn een voorleesbare versie voor leest op de frequentie zelf. We hebben nog een maand, al is dat wel februari.

21 februari

Het probleem is inmiddels opgelost. Meerdere tests hebben inmiddels bewezen dat het volume van de ingang het best kan staan op 65-70 procent. Een beetje afhankelijk hoe hard de deelnemers zelf spreken. Dit bleek inderdaad het probleem te zijn waardoor de laatste ronde overstuurd werd. Bij de volgende ronde is dit natuurlijk het eerste wat gecheckt wordt alvorens we gaan beginnen.

De software heeft intussen een update gekregen

De prompts zijn aangepast of beter: verfijnd. Dit gaat betere samenvattingen opleveren.
Een nieuwe taak is toegevoegd. Behalve een gecorrigeerde tekst en de puntsgewijze samenvatting wordt er nu ook een voorleesbare samenvatting gemaakt.
De samenvatting en gecorrigeerde tekst worden de volgende keer onmiddellijk en automatisch op deze website geplaatst. Hier hoeven we zelf niets meer aan te doen en staan we dus ook niet (meer) tussen om te editen. Nu maar hopen dat het geen totale onzin wordt maar we monitoren natuurlijk wel.

To do

Een nieuw stukje software programmeren / toevoegen welke ook daadwerkelijk de zendontvanger op TX schakelt, vervolgens haarzelf aankondigt als – Naam nog verzinnen – , de PD7LMR en vertelt wat ze gaat voorlezen gevolgd door de tekst van de voorleesbare samenvatting.
Een keuzemenuutje maken of er gepubliceerd mag worden en of er uitgezonden mag worden voordat de samenvatting van de ronde voorgelezen wordt. Je wil niet dat de zendontvanger onmiddellijk op zenden springt en aan haar hele verhaal begint terwijl er anderen misschien nog aan het woord zijn. Een automatische detectie of de frequentie al een minuutje vrij is kan ook maar dat is iets voor de volgende keer.
En verder: testen, testen, fine tunen en dan loslaten.

1 maart

Getest. We hebben het systeem laten luisteren naar de uitzending van de VRZA van 21 februari welke bij toeval net geen half uur duurde. Daarvan maakt het systeem dus een transcriptie, een verbeterde versie van de transcriptie, een samenvatting en een voorleesbare samenvatting. Die laatste wordt ook daadwerkelijk uitgezonden. Hieronder het audio-resultaat. Voor wat de werking aangaat zijn we dik tevreden. Het doet wat het moet doen en het klinkt goed. Inhoudelijk is het iets minder omdat het nu meer iets weg heeft van een ‘en ze leefden nog lang en gelukkig’ – verhaal. Dat is simpel aan te passen met een verbeterde prompt welke de nadruk moet gaan leggen op de technische zaken en niet op de gezelligheid.

5 maart

Klaar. Dat mag ook wel eens gezegd worden. We hebben een werkend, net geheel dat voldoet aan de gestelde eisen om de volgende Vallei-Ronde mee te luisteren en dit samen te vatten. Er valt nog wat aan te schaven maar dat hoeft niet. We kijken dit weekend wel. Wat het nu doet is spraak omzetten naar tekst, hier een samenvatting van maken en dit op deze website publiceren na goedkeuring en een voorleesbare samenvatting uitzenden op de band. Uiteraard ook na toestemming. Het werkt dus zoals we willen.

Hieronder een testje op een gesprek van zendamateurs onderling met hun medeweten. Leuk (voor mij) om te constateren dat de prompts verkeert staan ingesteld en ‘ai’ dus zo’n gesprek niet verwacht (het verwacht een zendamateurronde met bijbehorende structuur) en er toch wat van maakt. Merk op dat het nu wat minder in de sfeer is van ‘wij zijn zo blij’ en technischer is.

Voor de vuurdoop is het nog even wachten tot aanstaande maandag, 9 maart. We kondigen dit nog aan in een volgend onderwerp en dus sluiten we hier af.

Geef een reactie Reactie annuleren