🔍

Digitalitzar documents (PDF a LaTeX)

Relacionat

ReconĂšixer text en PDFs
ReconĂšixer text en PDFs

Concepte

A vegades, podem tenir una imatge, o un PDF en quù no s’acaba de veure amb total claredat el text o les equacions. Mitjançant un tùcnica anomenada OCR (Optical Character Recognition) es pot aconseguir digitalitzar aquell PDF o Imatge.
Tot i aixĂ­ en general aquesta tĂšcnica no Ă©s perfecte i desprĂ©s s’ha de retocar el LaTeX ajustant el format i corregint algunes faltes menors per aconseguir el resultat desitjat.

Digitalitzacions d’exemple

Doc. Digitalitzat

Exemples avançats

El segĂŒent ja Ă©s bastanta mĂ©s feina (per sonats)
El Castellet digitalitzat
Nota: Ă©s una pĂšrdua de temps innecessĂ ria, no ho feu. Jo ho vaig fer uns dies que m’avorria per tal d’aprendre a fer llibres a LaTeX i dominar el format scrbook perĂČ de veritat que no val la pena. Crear el capĂ­tol 1 encara va ser gratificant i didĂ ctic, perĂČ desprĂ©s calia corregir els altres dotze capĂ­tols un a un i feia molta mandra.
Document inicial (12.4 MB)
Document LaTeX
Llibre digitalitzat (3 MB)

Pas 1. Fer OCR (aconseguir el LaTeX)

Llistat de Software

Hi ha diversos softwares amb els que fer OCR. Alguns dels més comuns
  • Adobe OCR (de pagament)
  • Chat GPT (sorprenentment ho fa bastant bĂ©)
  • Mathpix (PDFs fins a 10 pĂ gines al mes. 20 si Ă©s amb el correu de la uni. Pagant 0.01$ per pĂ gina les que vulguis.)

Mathpix

Procés
  1. Pujar el PDF a Mathpix
  1. Descarregar el fitxer LaTeX (es baixarĂ  com a .zip)
  1. Al Overleaf seleccionar ‘New Project’, ‘Upload Project’ i seleccionar el fitxer .zip descarregat.

ChatGPT

Mirar-s’ho bĂ© aquĂ­.

Pas 2. Retocar el LaTeX (intentar replicar el document original)

Solucionar errors de compilaciĂł

Si no compila fixar-se en els errors, la soluciĂł sol ser alguna de les segĂŒents.
  • CarĂ cters estranys (error de lectura) que caldrĂ  borrar
  • Falta importar algun package necessari
    • Packages tĂ­pics a importar
      % ----------------- PACKAGES TÍPICS ------------------ \usepackage[a4paper, total={6in,8in}]{geometry} % dimensions \usepackage{changepage} % permet fer el 'adjustwidth' \usepackage[T1]{fontenc} % Permet escriure accents i altres \usepackage[utf8]{inputenc} % Permet mostrar accents i altres \usepackage[catalan]{babel} % Triem l'idioma + \lgem \usepackage{graphicx} % Per afegir imatges \usepackage{booktabs} % Per separadors dins d'una taula \usepackage{float} % [H] o [h!] per figures i taules \usepackage{array} % Cas mĂ©s general de aligned, cases... \usepackage{bm} % MatemĂ tiques en negreta \usepackage{amsmath, amssymb, amsfonts, amsthm} % MatamĂ tiques \usepackage{caption} % DescripciĂł d'una taula o figura \usepackage{subcaption} % Permet subfigurues \usepackage{multirow} % Permet taules amb cel·les multifila \usepackage{enumitem} % Per fer llistes \usepackage[catalan, capitalise]{cleveref} % "veure Figura 1" \setlength{\parskip}{1em} % Salt de lĂ­nia correcte \setlength{\footskip}{120pt} % Numeracio peu de pĂ gina \setlength{\parindent}{0pt} % Sagnat % ---------- ALTRES --------- \usepackage{fancyhdr} % Per capçaleres (si el format Ă©s 'article')
  • CarĂ cters ‘\’ llegits malament (buscar en el codi ‘\textbackslash’)

Ajustar el format document

  • Triar la mida de la font a la primera lĂ­nia \documentclass[10pt]{article}
  • Comprovar que el format de tĂ­tols (abstract, section, subsection, subsubsection
) sigui el desitjat.
    • Molt probablement calgui un asterisc (\section*{}) per evitar la numeraciĂł automĂ tica.
    • Utilitzar \centering o \begin{center}\end{center} per centrar tĂ­tols
  • Modificar la geometria del document amb \newgeometry
    • Per exemple \newgeometry{width = 6in, tmargin = 8em, bmargin = 8em}
  • Posar capçalera i peu de pĂ gina manualment si Ă©s necessari
    • Maneres de fer una capçalera
      Article
      Per article podem fer servir \usepackage{fancyhdr}
      Exemple de capçalera amb fancyhdr
      \usepackage{fancyhdr} \pagestyle{fancy} % PEU DE PÀGINA ------------------------------------------ \renewcommand{\footrulewidth}{0pt} \renewcommand{\footruleskip}{10pt} \fancyhf{} % Numeració en el peu de pàgina \fancyfoot[c]{\thepage \hspace{1pt} de \pageref{LastPage}} \addtolength{\textheight}{-0.5in} % CAPÇALERA --------------------------------------------- \setlength{\headheight}{65pt} \renewcommand{\headrulewidth}{1pt} \renewcommand{\headruleskip}{10mm} \lhead{Facultat de Física i Química \\ Semestre de primavera} \chead{} \rhead{19/07/2024 \\ Nom professor}
      Scrbook
      Per scrbook podem fer servir \usepackage{scrlayer-scrpage}
      Exemple de capçalera per scrlayer-scrpage
      \usepackage{scrlayer-scrpage} \pagestyle{scrheadings} \KOMAoptions{headsepline} % Línia horitzontal sota capçalera \renewcommand*{\chaptermarkformat}{} % Traiem la numeració pel heading \automark[chapter]{chapter} % Crec q tria el \headmark \renewcommand{\headfont}{\upshape} % Fem que no estigui en cursiva \clearpairofpagestyles % posa (l,c,r), (e,o) i (head, foot) a {empty} \cehead{\textsc{\MakeLowercase{\headmark}}} \rehead{\pagemark} \lohead{\pagemark} \cohead{\textsc{M. Castellet, I. Llerena}} \cfoot[\pagemark]{} % [] = pàgines d'inici de capítol (numerem a baix)
  • Posar notes de peus de pĂ gina amb \footnote{text nota} a on correspongui
  • SeparaciĂł entre tĂ­tols o equacions
    • Per tĂ­tols fer titlespacing*{\section}{0pt}{2em}{2em} amb \usepackage{titlesec}
    • Per equacions fer \setlength{\abovedisplayskip}{2em} i el mateix amb \belowdisplayskip
  • Modificar mida del text amb \scriptsize, \footnotesize, \normalsize, \large

  • Fer llistes no numerades amb \begin{itemize} \item text \end{itemize}
  • Fer llistes numerades amb \usepackage{enumitem}
    • Per exemple \begin{enumerate}[label = \roman*)] \item text \end{enumerate}

Corregir faltes

Pic i pala, principalment nomĂ©s sĂłn accents que han quedat mal posats o no s’han detectat.