Conversione pdf in ePub: A Christmas Carol

POSTER A Christmas CarolQuante volte vi è capitato di acquistare o commissionare un ebook per poi trovarvi a sfogliare un libro pieno di lacune? Mi spiego meglio: avete mai fatto caso a quanti maiuscoletti e corsivi fanno perdere le loro tracce? Per non parlare della parole o lettere saltate nei sommari, ai collegamenti errati, ai numeri di pagina campati qua e là nel flusso del testo… Bene, se ora la paranoia si è impadronita di voi, siete pronti per leggere il resto del post.
Questi refusi non verrebbero mai accettati in un libro cartaceo e non fuggirebbero a un’attenta correzione di bozze… ma purtroppo nell’ebook capitano non di rado (parlo sia per i lettori che per gli editori).
Partendo dalla conversione di un pdf in ePub, un pdf non editabile per la precisione, cercherò di dimostrarvi cosa si può riuscire a ottenere e soprattutto a quali risultati dire “no grazie”.
Per far questo è stato utilizzato come file di partenza un testo presente su The Internet Archive.

approfondisci »

La mission di questa biblioteca digitale è quello di offrire “un accesso universale alla conoscenza” e grazie allo strepitoso lavoro fatto possono essere fruiti un gran numero di capolavori. Dico questo perché non è mia intenzione affermare che il loro lavoro è stato fatto male, anzi: la loro è un’organizzazione no-profit che ci dà la possibilità di accedere da ogni postazione in giro per il globo al loro immenso archivio. Quindi se i file che mettono a disposizione non sono impeccabili poco male, quello che conta è il loro fine. Ma gli errori riscontrati nel loro file sono quelli più comuni che ci sono anche in ebook acquistati…

Il pdf di partenza per esemplificare il lavoro è quello di A Christmas Carol (disponibile per la visione o il download gratuito).
Nelle immagini che seguono potete vedere sulla sinistra la schermata, in Adobe Digital Editions, dell’epub realizzato da The Internet Archive; a destra l’ePub realizzato da Punto-acuto.

COPERTINA

L’immagine della copertina non è stata trattata correttamente. Questo significa che la miniatura presente nell’ePub in alto a sinistra è solo parte della copertina e anche nell’immagine visualizzata dal programma dove poi scorrerà il testo, la copertina è tagliata e non visualizzata per intero. Ma con un piccolo accorgimento ecco che si può facilmente risolvere (immagine a destra).

FRONTESPIZIO

In questo caso l’immagine del frontespizio è stata lasciata tale a quale a quella uscita dalla scansione (con il colore seppia della carta). Nella visualizzazione in epub però non ha senso mantenere quel colore, soprattutto pensando a uno schermo e-ink (come quello del Kindle e del Sony). Anche in questo caso è sufficiente un’ottimizzazione dell’immagine per garantire una piena leggibilità dei contenuti.

RIEPILOGO ILLUSTRAZIONI

Nel caso dell’indice delle figure, sono stati commessi, oltre ad alcuni classici errori da OCR, anche errori come la mancata conservazione delle formattazioni (per esempio di maiuscoletti e corsivi) e soprattutto non è stata sfruttata l’interattività dell’epub inserendo i link diretti alle immagini. Un ulteriore accorgimento (immagine di destra) per rendere ancor più piacevole la lettura è l’utilizzo di un font particolare come quello che ho utilizzato.

CAPITOLO

In queste immagini ho simulato il gioco delle differenze: in verde potete vedere le differenze più evidenti tra le due versioni. Oltre al font e al colore dell’immagine, ho mantenuto la formattazione e cancellato le testatine erroneamente mantenute dall’OCR.

[singlepic id=1 w=540 float=none]

FORMATTAZIONE DEL TESTO

[singlepic id=12 w=540 float=none]

Un piccolo tocco di stile: spesso gli stili degli infratesti vengono annientati e non si capisce più la differenza tra paragrafo e infratesto… e la lettura si fa faticosa. Ma ecco che basta un’attenzione in più e il testo riprende la forma originaria.

[singlepic id=11 w=540 float=none]

ESEMPIO IMMAGINI

[singlepic id=15 w=540 float=none]

Uno dei punti a favore dell’ebook rispetto al cartaceo è la presenza dello strumento “cerca”. Ma se il testo viene inglobato in un’immagine, come nel caso della fotografia in basso a sinistra, le nostre ricerche saranno infruttuose. Ed ecco che trattando la didascalia come testo esportandola dall’immagine si ovvia il problema. Poi un intervento per un bordo più leggero e coerente all’immagine e anche l’occhio è accontentato.

[singlepic id=17 w=540 float=none]

Le immagini, se trattate correttamente, rappresentano un grande valore aggiunto in un libro. Ma se vengono mortificate e visualizzate in malo modo si snaturano e rischiano anche di diventare un peso (sia un termini di Kilo/Megabyte che di fastidio). Una ripulita e una ripensata per il nuovo formato possono restituirgli la “dignità perduta”.

[singlepic id=13 w=540 float=none]

EPUB VALIDO
Last but not least… L’epub deve essere validato per non generare problemi di lettura nei vari ereader. Ed è proprio questa la prova del nove per un ePub: dimostrare che il castello di carte (digitali) regga. E indovinate un po’ l’esito dell’ePub realizzato da Punto-acuto? :)

ePub Valid

ePub Valid