Nedenfor gir jeg en enkel introduksjon til ChatGPT og dens utfordringer, og svarer på spørsmålet, kan ChatGPT transkribere lyd?
ChatGPT: En oversikt
ChatGPT er en av de mest populære AI modellene som brukes til automatisk å generere innhold, løse problemer og utføre en rekke oppgaver via en spørsmål/svar-modell. OpenAI er selskapet bak ChatGPT og de har trent modellen til å samhandle med mennesker ved å stille den spørsmål.
En utvikler kan for eksempel ha et problem med programmeringskode. De kan lime inn koden i ChatGPT og stille et spørsmål som "Hvorfor fungerer ikke denne koden som forventet?". Den AI modellen vil deretter analysere spørsmålet og koden som er gitt og svare med et svar. Dette kan være en løsning, eller det kan stille flere spørsmål hvis utvikleren ikke ga nok kontekst.
Denne typen samtaleprosess er utrolig nyttig da den skaper en realistisk frem og tilbake og lar innspillene få akkurat det de ønsker, forutsatt at de kan gi riktig informasjon.
ChatGPTs transkripsjonsevner
Så, kan ChatGPT transkribere lyd? Ja! ChatGTP har en dedikert transkripsjonsfunksjon som også OpenAI utviklet kalt Whisper API . Prosessen er relativt enkel:
- Åpne ChatGPT.
- Last opp lydfilen.
- ChatGPT vil deretter kjøre den gjennom den Whisper API talegjenkjenningsalgoritmen.
- Dette behandler talen og spytter ut en tekstutgang.
- Du kan lagre tekstutdataene i en rekke filformater.
Lydfilformater som støttes for øyeblikket inkluderer MP3, MP4, MPEG, M4A, WAV, WebMog MPGA , og den støtter også en rekke utdataformater.
Når det gjelder språkstøtte, støtter ChatGPT for tiden rundt 50 språk, inkludert hindi, gresk, arabisk, polsk, urdu og swahili for eksempel.
Nøyaktighet og ytelse
ChatGPT kan konvertere lyd til tekst , og den er relativt nøyaktig, men talegjenkjenningen kan vakle avhengig av lydkvaliteten, men dette gjelder for enhver transkripsjonstjeneste.
Behandlingstiden er også relativt rask, og det er absolutt en del av andre transkripsjonstjenester når det gjelder tiden det tar å analysere lydfiler og generere tekstutgangen
Ulemper kontra andre transkripsjonstjenester
Den største ulempen sammenlignet med andre transkripsjonstjenester som Transkriptor er læringskurven. ChatGPT er en spesialist AI modell, og den har en mye brattere læringskurve sammenlignet med noe utrolig enkelt å bruke som Transkriptor.
Ideelt sett må du ha en forståelse av hvordan den AI modellen fungerer og dens muligheter, men også spørsmål og svar-formatet. Dette betyr at den er bedre egnet for profesjonelle og de med litt forkunnskaper om AI modeller eller de som har brukt ChatGPT før.
For å forbedre kvaliteten på lydtranskripsjonen må du stille spørsmål til den Whisper API modellen som også krever ekstra læring. Når du først har blitt vant til hvordan det fungerer og hvilke typer spørsmål du skal stille, blir det intuitivt, men hvis du vil ha en rask transkripsjon av høy kvalitet, er ChatGPT for øyeblikket ikke det beste alternativet som er tilgjengelig.
Sammenlignet med tradisjonelle online lyd-til-tekst-transkripsjonstjenester, er ChatGPT begrenset når det gjelder språk, talegjenkjenningskompleksitet og input/output-filer, noe som gjør dedikerte transkripsjonstjenester til et mer pålitelig valg, spesielt når man vurderer de ekstra fordelene med transkripsjonstjenester for SEO , forbedrer innholdets søkbarhet og online tilstedeværelse. Foreløpig kan den rett og slett ikke sammenlignes på like-for-like-basis med dedikerte transkripsjonstjenester, og den har mindre å tilby.
Til slutt er en stor ulempe den maksimale lydfilstørrelsesgrensen som er 25 MB. Lengre transkripsjoner av ting som intervjuer og møter kan lett overstige dette når det gjelder filstørrelse, slik at du er begrenset i hvilke typer lyd du kan transkribere. Du kan for eksempel bruke en lydkomprimeringstjeneste for å redusere filstørrelsen på lengre møter, men dette kan redusere lydkvaliteten og resultere i en transkripsjon av dårligere kvalitet.
ChatGPT kan transkribere lyd, men med begrensninger
For å svare på det opprinnelige spørsmålet, kan ChatGPT transkribere lyd? Ja det kan det, men det er på ingen måte en polert tjeneste, og i den nåværende iterasjonen er det en rekke ulemper. Den brattere læringskurven og behovet for å forstå Q&A-modellen for Whisper API betyr at det kan være en langsommere prosess å oppnå en lyd-til-tekst-transkripsjon av høy kvalitet.
I tillegg utvikles den AI modellen fortsatt, så sammenlignet med tradisjonelle transkripsjonstjenester kan den ikke sammenlignes når det gjelder funksjoner, nøyaktighet og språkstøtte. Grensen på 25 MB lydfilstørrelse er også noe å vurdere og kan være begrensende hvis du har større lydfiler å transkribere.
Alt dette kan endre seg i fremtiden, og over tid kan ChatGPT bli en av de ledende lyd-til-tekst-transkripsjonstjenestene. Men som det er nå, er det bedre alternativet å bruke en dedikert transkripsjonstjeneste som har en dokumentert merittliste.