Scopri La Compatibilità Con Il Segno Zodiacale
I migliori strumenti di trascrizione automatica per i giornalisti
Tecnologia E Strumenti

Siri ha appena compiuto sei anni. Alexa ha appena compiuto tre anni. Se possiamo chiedere ai nostri telefoni il tempo ad Albuquerque e costringere un cilindro di plastica nei nostri salotti a leggere il Washington Post ad alta voce, perché continuiamo a trascrivere le interviste a mano?
Bene, si scopre che non è proprio necessario. Gli strumenti di trascrizione automatica sono sul mercato da un po' di tempo ormai e stanno finalmente migliorando. Ora bastano pochi minuti e pochi dollari per caricare audio o video su un sito e ricevere una trascrizione abbastanza completa.
Ma, come tutti gli strumenti, alcuni sono migliori di altri. Abbiamo testato (o provato a testare, ne parleremo più avanti) otto degli strumenti di trascrizione più popolari rivolti ai giornalisti, tra cui Dettatura del drago , Felice scriba , oTrascrivi , da record , Rev , Sonix , Trint e YouTube. Abbiamo eseguito ogni strumento attraverso una varietà di scenari del mondo reale, sperimentando come ognuno se la cavava contro l'uso tipico di un giornalista.
Sebbene nessuno degli strumenti fosse perfetto, uno ha superato gli altri come il migliore della categoria.
La nostra scelta
Una combinazione di precisione, funzionalità e facilità d'uso rendono Trint la scelta migliore per la trascrizione automatica per i giornalisti. Sebbene non fosse lo strumento più accurato, più ricco di funzionalità o più economico che abbiamo provato, i suoi strumenti di modifica delle trascrizioni e la capacità di adattarsi un po' più perfettamente al flusso di lavoro di un giornalista lo aiutano a superare i suoi concorrenti. Continua a leggere per capire perché.
L'esperimento
Come vedrai, i tassi di precisione di questi strumenti sono bassi. Questo perché abbiamo fatto del nostro meglio per confonderli.
Innanzitutto, per riflettere un'ampia gamma di persone, voci e accenti, abbiamo registrato il nostro audio campione con quattro partecipanti. Essi includevano:
- Alessio Mantzarlis , facoltà di Poynter e direttore dell'International Fact-Checking Network, che viene da Roma e si è descritto come dotato di una balbettante e 'alcune parole divertenti che mescolano accenti britannici, italiani e strani americani'
- mazzi di fiori dolci , responsabile del programma per l'International Fact-Checking Network, venuto a Poynter da Città del Messico a settembre
- Kristen Lepre , una giornalista di Poynter, che pensa di suonare 'un po' da ragazza di valle' quando si ascolta nelle registrazioni
- Io, e anche se Kristen ha detto che ho un 'accento di bufalo', penso che la mia inclinazione a borbottare, parlare troppo velocemente e saltare parti di parole probabilmente si riveli più difficile per le trascrizioni (registrarsi prima di essere trascritto porta chiaramente a un po' di autostima riflessione.)
Kristen si è unita a noi tramite Google Hangouts/YouTube Live ( divulgazione: una sovvenzione di Google News Lab finanzia parzialmente la mia posizione ), contro la quale la maggior parte degli strumenti di trascrizione automatica mette apertamente in guardia. L'audio da un telefono o da una chat video sembra essere universalmente difficile da gestire per loro.
Per torturare ancora di più gli algoritmi, leggiamo anche passaggi a un ritmo molto più veloce del solito, Dulce e Alexios parlavano diverse lingue straniere (italiano, spagnolo, francese e greco), pronunciavamo quanti più nomi propri possibili (Apalachicola , Michael Oreskes e varie isole greche, solo per citarne alcuni), si è fatto creativo con Urban Dictionary (a portmanteau di Paul Manafort e una parola cruda che descrive lo stato della sua situazione legale) e si parlavano con una certa frequenza.
Abbiamo registrato il nostro test di 14 minuti nello studio del webinar di Poynter e siamo stati interrotti dal suono di almeno un aereo rumoroso sopra la testa (c'è un aeroporto a pochi isolati di distanza), un veicolo di emergenza e il clamore del telefono di Kristen.
Abbiamo registrato l'audio in tre modi:
- Con un Zoom H4nPro microfono a mano, posizionato tra di noi
- Con il mio iPhone 6S Plus, utilizzo l'app Recordly per registrare, posta accanto allo Zoom
- Con una diretta YouTube privata, ecco come Kristen si è unita a noi
Abbiamo quindi caricato l'audio su ciascuno strumento e tenuto traccia del tempo impiegato da ciascuno per la trascrizione. Abbiamo normalizzato le trascrizioni risultanti utilizzando Microsoft Word, rimuovendo i timestamp e assicurandoci che i nomi degli oratori fossero congruenti. Come controllo, ho trascritto l'audio da solo (usando oTranscribe) e poi l'ho ascoltato più volte per verificarne l'accuratezza totale. Abbiamo anche provato Rev, un servizio a pagamento che utilizza trascrittori umani anziché algoritmi, per vedere come si è accumulato.
Abbiamo testato una varietà di strumenti di confronto dei documenti per vedere quale funzionava meglio, stabilendoci Copyscape come l'opzione più valida. Abbiamo confrontato le trascrizioni generate dagli strumenti e dai servizi con quella corretta al 100% che ho creato con oTranscribe.
Qualche nota aggiuntiva:
- L'audio dello Zoom si è rivelato della migliore qualità, quindi l'abbiamo utilizzato per la maggior parte dei nostri test. L'app Recordly non sembra accettare l'audio registrato da altre fonti, quindi questa è un'eccezione a questo processo. Inoltre, non abbiamo caricato l'audio Zoom su YouTube, basandoci invece sull'audio della registrazione live di YouTube. Il confronto tra mele e arance rende questo esperimento meno che scientifico ma più in linea con il modo in cui i giornalisti userebbero effettivamente questi strumenti nel mondo reale.
- Sebbene sia uno strumento popolare, non abbiamo potuto testare Dragon Dictation, poiché non funziona su iOS 11. Aggiorneremo questa recensione quando e se il suo sviluppatore risolverà questo problema.
- Non abbiamo contattato nessuna di queste aziende prima del test, quindi non c'era alcun trattamento speciale o finagling back-end delle trascrizioni. Trint, Sonix e Recordly offrono minuti gratuiti limitati per i nuovi utenti, quindi ne abbiamo approfittato per l'esperimento. Abbiamo utilizzato la carta di credito di un collega non giornalista per Happy Scribe e non abbiamo menzionato Poynter poiché in passato ho corrisposto con i suoi fondatori. E abbiamo pagato il prezzo intero per la trascrizione umana di Rev. Il servizio di sottotitoli di YouTube e oTranscribe sono sempre gratuiti.
- Ci sono molti, molti altri strumenti di trascrizione automatica che non abbiamo incluso in questa recensione. Abbiamo cercato di concentrarci su quelli che i giornalisti ci hanno chiesto. Se ritieni che ne abbiamo saltato uno ingiustamente, faccelo sapere e aggiorneremo la recensione.
Qualità della trascrizione (Vincitore: Happy Scribe)
Sembra che le persone preoccupate per la rivolta dell'intelligenza artificiale abbiano almeno qualche anno in più per prepararsi, poiché l'unico servizio di trascrizione umana che abbiamo testato ha battuto le trascrizioni automatiche con un ampio margine.
Rev ha ottenuto una valutazione di accuratezza dell'82%, con il traduttore umano che per lo più non riesce a catturare le lingue straniere (che, per essere onesti, è un servizio separato), alcuni nomi propri, alcune diafonia, alcune parole gergali e pezzi di mormorio. Anche se gli altri strumenti per lo più mancavano anche queste cose, i trascrittori umani di Rev hanno almeno notato cose come '[non udibile]' e '[diafonia]' e '[lingua straniera]', che erano utili segnaposto per correzioni successive.
Anche con i bit mancanti, la trascrizione Rev è completamente leggibile e coerente. Se non fossi presente per la conversazione iniziale, potresti capire il nocciolo di ciò di cui stavamo parlando semplicemente leggendolo.
La successiva trascrizione più accurata è stata YouTube. Il sito di hosting video ha creato automaticamente sottotitoli per il nostro video live di YouTube che erano accurati al 72%. Ma anche con un calo della qualità complessiva del 10 percento, la trascrizione è significativamente meno leggibile di quella di Rev perché YouTube non fornisce punteggiatura o segmentazione degli altoparlanti. Le didascalie esistono come un enorme blocco di testo. Senza accoppiarlo con l'audio, sarebbe quasi impossibile per qualcuno che non faceva parte della conversazione capire la nostra conversazione.
Ci sono altri aspetti negativi delle offerte di YouTube, ma ne parleremo quando arriveremo alle funzionalità.
Happy Scribe ha dimostrato di essere lo strumento di trascrizione non umana dedicato più accurato, con una precisione del 62% nel nostro esperimento. Lo strumento avverte nella sua pagina di caricamento di 'evitare forti rumori di sottofondo, 'evitare accenti pesanti', 'evitare interviste su Skype e telefoniche' e 'tenere il microfono vicino all'altoparlante', tutto ciò che abbiamo dovuto ignorare.
La trascrizione è quasi accurata nei punti in cui stavo parlando, specialmente quando non c'era diafonia e non stavo usando nomi propri, ma ho faticato un po' a trascrivere Dulce, Kristen e Alexios. Ha rotto diversi oratori in nuovi paragrafi in alcuni punti ma ha fallito in altri. La trascrizione complessiva varia tra del tutto coerente in alcuni punti e bizzarramente incoerente in altri, come quando ha trascritto Alessio dicendo 'fammi aprire Urban Dictionary e possiamo esaminarne alcuni' come 'Voglio dire anche nel dizionario urbano le ragazze sono vicine .”
Trint ha offerto risultati simili, con una precisione del 61%. Si è incasinato in molti degli stessi posti, armeggiando con accenti, audio da YouTube e sezioni con diafonia o parolacce. Tuttavia, non è stato trascritto male esattamente negli stessi modi di Happy Scribe. La frase dell'Urban Dictionary dall'alto è apparsa come 'Voglio dire che anche nel dizionario urbano possiamo esaminarli'.
Nel complesso, la trascrizione di Trint è leggermente più facile da leggere rispetto a quella di Happy Scribe perché fa un lavoro migliore nel differenziare gli oratori e suddividerli in nuovi paragrafi. Non è perfetto, ma aggiunge molta chiarezza quando funziona.
Sonix ha dimostrato di essere il secondo più accurato al 50 percento. Sonix funzionava leggermente meglio di Happy Scribe e Trint quando un solo oratore parlava ad alta voce. Ma qualsiasi quantità di diafonia, rumore di sottofondo o persino risate - tutte cose che probabilmente appariranno in qualsiasi uso dello strumento nel mondo reale - sembrava confonderlo più degli altri. Ha catturato la frase dell'Urban Dictionary come 'da aprire nel dizionario urbano e possiamo esaminarne alcuni'.
Come gli altri strumenti, Sonix ha cercato di suddividere gli altoparlanti in diversi paragrafi, ma sembrava essere leggermente peggio.
Da record è stato il meno accurato degli strumenti di trascrizione automatica, con una precisione del 48%. Ha catturato la frase dell'Urban Dictionary come 'fammi aprire quel dizionario urbano e possiamo. Esaminane alcuni', il che non è male, ma quel pezzo di testo non è rappresentativo del resto della trascrizione. Come YouTube, la trascrizione di Recordly è un gigantesco blocco di testo. A differenza di YouTube, aggiunge la punteggiatura, anche se meno frequentemente e con una precisione inferiore rispetto agli altri strumenti.
La trascrizione di Recordly è la meno utile fuori contesto.
Nel complesso, la migliore trascrizione è arrivata dalla mia stessa mano con oTranscribe. Rev ha rivelato la migliore trascrizione che non ho dovuto trascrivere da solo. Ma questa è una recensione di strumenti di trascrizione automatica, e in quella categoria Happy Scribe ha appena superato Trint per uscire al primo posto.
Caratteristiche (Vincitore: Sonix)
Alcune cose sembrano essere standard del settore degli strumenti di trascrizione automatica. La possibilità di riprodurre l'audio caricato è ovvia. Tutti gli strumenti consentono agli utenti di esportare le trascrizioni in vari formati.
Anche gli strumenti basati su browser (che significa tutti tranne Recordly) offrono una suite comune. Tutti consentono agli utenti di fare clic su vari punti del testo e passare direttamente a quella parte della registrazione. Tutti hanno opzioni per riprodurre l'audio a una velocità inferiore (con i tasti di scelta rapida o armeggiando con le impostazioni), modificare manualmente le trascrizioni, caricare video oltre all'audio e archiviare le trascrizioni per un uso successivo.
Trint fa un passo avanti e presenta una forma d'onda visualizzata dell'audio nella parte inferiore della trascrizione che gli utenti possono saltare a piacimento. Dispone inoltre di strumenti integrati per trovare e sostituire, evidenziare o cancellare il testo. Gli utenti possono aggiungere un elenco di relatori allo strumento e allegare il proprio nome a ogni paragrafo. Ha anche una pratica funzione per inviare una trascrizione tramite e-mail con un clic.
Sonix offre tutti questi strumenti (tranne la forma d'onda interattiva) e alcuni altri. I più utili sono i 'colori di fiducia', che assegnano colori diversi alle parole di cui Sonix è meno sicuro; un valutatore della qualità audio, che ti dice quanto sia sicura Sonix riguardo alla sua trascrizione; e l'identificazione automatica degli oratori, una funzione beta che tenta di identificare vari oratori e di assegnare loro ID.
Nel nostro test, Sonix ha identificato solo due diversi altoparlanti, quindi questo strumento ha bisogno di un po' di lavoro, ma è comunque estremamente utile.
Da record, l'unica app (solo iOS) del gruppo offre il minor numero di funzionalità. È praticamente un'esperienza di registrazione e attesa. La trascrizione viene consegnata in un formato simile all'app per le note integrata di Apple, con funzionalità di modifica limitate. Consente inoltre agli utenti di esportare l'audio o il testo in un'altra app.
Sebbene le funzioni trova e sostituisci e la forma d'onda di Trint siano utili per correggere le trascrizioni, le funzioni di Sonix aggiungono trasparenza vitale al processo di trascrizione. E sebbene la beta di identificazione degli altoparlanti non sia del tutto affidabile, è uno strumento ambizioso che dovrebbe solo migliorare da qui.
Tempismo (Vincitore: Happy Scribe, Trint e da record)
Ecco dove brilla la trascrizione automatica. Tutti gli strumenti hanno fornito una trascrizione in meno minuti rispetto alla lunghezza del file audio che abbiamo inviato. La differenza tra Happy Scribe (cinque minuti), Trint (sei minuti) e Recordly (sei minuti) è stata trascurabile, ma Sonix ha impiegato un po' più di tempo (11 minuti). (Aggiornamento: un rappresentante di Sonix ha contattato per dire che la sua velocità è in linea con gli altri strumenti quando la funzione di identificazione degli altoparlanti è disattivata.) In un ambiente reale, questa potrebbe essere una differenza cruciale, specialmente con trascrizioni più lunghe.
YouTube è un po' un mistero qui. Per questa trascrizione, sono bastati pochi minuti per visualizzare i sottotitoli automatici. In esperienze passate, abbiamo scoperto che il tempo necessario per la loro comparsa può variare un po'. Poiché YouTube non è pensato per essere utilizzato in questo modo, non siamo sicuri di quanto tempo impiega in genere.
Ci sono volute circa quattro ore e 15 minuti perché i trascrittori umani di Rev finissero la loro trascrizione. Mi ci è voluta circa la metà per farlo da solo con oTranscribe, ma non senza diverse interruzioni, Spotify Messa a fuoco profonda playlist e due litri di caffè.
Prezzo (vincitore: da record)
Non puoi battere gratis (YouTube, oTranscribe), ma quando si tratta di strumenti di trascrizione automatica dedicati, il costo varia ampiamente. Per determinare il prezzo migliore, devi considerare la frequenza con cui utilizzerai lo strumento.
Sonix è il più costoso, con un piano base a partire da $ 15 al mese più $ 8 per ogni ora di audio trascritto. Ma lo strumento offre un forte sconto del 33% per il pagamento annuale anziché mensile.
Trint offre anche piani a partire da $ 15 l'ora per le trascrizioni con pagamento in base al caricamento o $ 40 al mese per un massimo di tre ore di audio trascritto. Trascrizioni aggiuntive costano appena a nord di $ 13 all'ora.
Happy Scribe costa 10 centesimi fissi al minuto di audio caricato. Per i tipi meno inclini alla matematica, sono $ 6 all'ora.
Con un misero $ 2 all'ora, con la prima ora gratuita, Recordly è di gran lunga l'opzione di trascrizione automatica più economica.
Non sorprende che i trascrittori umani di Rev siano più costosi degli altri strumenti. La nostra clip di 13 minuti è costata $ 14 per la trascrizione e abbiamo pagato $ 3,50 in più per i timestamp. Tuttavia, il costo relativo economico per le ore di lavoro coinvolte ci fa chiedere dove sono i trascrittori di Rev nel mondo e quanto bene vengono compensati.
Facilità d'uso (vincitore: Trint)
Nessuno di questi strumenti è difficile da usare. Carichi un file su ciascuno (o registri l'audio con esso, nel caso di Recordly) e, qualche tempo dopo, ti invia un collegamento a una trascrizione modificabile.
Trint fa un grande passo oltre i caricamenti di file e accetta audio o video da una varietà di fonti, inclusi Dropbox, Google Drive e FTP, e consente persino agli utenti di inserire semplicemente un collegamento. Questo è unico tra gli strumenti che abbiamo testato. Trint pone anche alcune domande utili su rumore di fondo, diafonia e altro prima che inizi il caricamento. Non risolverà una registrazione ma è un utile cenno alla UX che insegna agli utenti come registrare più audio trascrivibile in futuro.
Happy Scribe, Rev, Sonix e Trint inviano tutti e-mail quando la trascrizione è pronta, quindi non è necessario sedersi e fissare lo schermo.
La linea di fondo
Non è la più economica, né l'opzione di trascrizione complessiva più accurata disponibile, ma Trint ha ottenuto una vittoria come il miglior strumento completo di quelli che abbiamo testato.
L'azienda, che ha poco più di un anno e ha ricevuto finanziamenti dalla Knight Foundation (disclaimer: anche Poynter riceve finanziamento da Knight) e Digital News Initiative di Google, offre la migliore combinazione complessiva di funzionalità, precisione e facilità d'uso.
Solo la funzione di sottotitoli automatici di YouTube, che ha ottenuto un tasso di precisione del 72%, è andata significativamente meglio di Trint nella trascrizione guidata da algoritmi. Ma YouTube non è progettato per il tipo di trascrizione di cui i giornalisti hanno bisogno quotidianamente e non offre alcun tipo di funzionalità di editing.
Sebbene la giovane startup Happy Scribe sia andata leggermente meglio nei nostri test di accuratezza con un tasso del 62% e arrivi a circa un terzo del prezzo di Trint, manca di molte delle funzionalità extra che rendono Trint utile. La possibilità di caricare da molte fonti, trovare e sostituire il testo e l'identificazione del relatore sono strumenti di flusso di lavoro piccoli ma importanti. Se stai solo cercando una trascrizione veloce e sporca, Happy Scribe potrebbe essere la strada da percorrere.
E anche se è vero che il suo 61 percento è tutt'altro che perfetto, i nostri test sono stati un po' più difficili della maggior parte degli usi nel mondo reale.
Abbiamo anche testato Rev, un servizio di traduzione umana, e oTranscribe, che offre ai giornalisti strumenti utili per trascrivere l'audio da soli. A $ 1/minuto di audio trascritto, abbiamo riscontrato che Rev era troppo costoso per essere utilizzato regolarmente da un giornalista medio. E sebbene oTranscribe sia stato utile, non risolve la noia e il dispendio di tempo della trascrizione.
Tenendo presente gli usi tipici, Trint è il miglior strumento di trascrizione automatica a tutto tondo per i giornalisti.
Correzione: in precedenza abbiamo segnalato che Sonix non lo fa offerta trova e sostituisci lo strumento, ma in realtà lo fa. Ci scusiamo per averlo perso.
Scopri di più sugli strumenti di giornalismo con Try This! — Strumenti per il giornalismo. Prova questo! è alimentato da Laboratorio di Google News . È supportato anche dal Istituto americano della stampa e il Fondazione John S. e James L. Knight