Relacionat
ReconĂšixer text en PDFsConcepte
A vegades, podem tenir una imatge, o un PDF en quĂš no sâacaba de veure amb total claredat el text o les equacions. Mitjançant un tĂšcnica anomenada OCR (Optical Character Recognition) es pot aconseguir digitalitzar aquell PDF o Imatge.
Tot i aixĂ en general aquesta tĂšcnica no Ă©s perfecte i desprĂ©s sâha de retocar el LaTeX ajustant el format i corregint algunes faltes menors per aconseguir el resultat desitjat.
Digitalitzacions dâexemple
Exemples avançats
El segĂŒent ja Ă©s bastanta mĂ©s feina (per sonats)
El Castellet digitalitzat
Nota: Ă©s una pĂšrdua de temps innecessĂ ria, no ho feu. Jo ho vaig fer uns dies que mâavorria per tal dâaprendre a fer llibres a LaTeX i dominar el format scrbook perĂČ de veritat que no val la pena. Crear el capĂtol 1 encara va ser gratificant i didĂ ctic, perĂČ desprĂ©s calia corregir els altres dotze capĂtols un a un i feia molta mandra.
Document inicial (12.4 MB)
Document LaTeX
Llibre digitalitzat (3 MB)
Pas 1. Fer OCR (aconseguir el LaTeX)
Llistat de Software
Hi ha diversos softwares amb els que fer OCR. Alguns dels més comuns
- Adobe OCR (de pagament)
- Chat GPT (sorprenentment ho fa bastant bé)
- Mathpix (PDFs fins a 10 pĂ gines al mes. 20 si Ă©s amb el correu de la uni. Pagant 0.01$ per pĂ gina les que vulguis.)
Mathpix
Procés
- Pujar el PDF a Mathpix
- Descarregar el fitxer LaTeX (es baixarĂ com a .zip)
- Al Overleaf seleccionar âNew Projectâ, âUpload Projectâ i seleccionar el fitxer .zip descarregat.
ChatGPT
Mirar-sâho bĂ© aquĂ.
Pas 2. Retocar el LaTeX (intentar replicar el document original)
Solucionar errors de compilaciĂł
Si no compila fixar-se en els errors, la soluciĂł sol ser alguna de les segĂŒents.
- CarĂ cters estranys (error de lectura) que caldrĂ borrar
- Falta importar algun package necessari
Packages tĂpics a importar
% ----------------- PACKAGES TĂPICS ------------------ \usepackage[a4paper, total={6in,8in}]{geometry} % dimensions \usepackage{changepage} % permet fer el 'adjustwidth' \usepackage[T1]{fontenc} % Permet escriure accents i altres \usepackage[utf8]{inputenc} % Permet mostrar accents i altres \usepackage[catalan]{babel} % Triem l'idioma + \lgem \usepackage{graphicx} % Per afegir imatges \usepackage{booktabs} % Per separadors dins d'una taula \usepackage{float} % [H] o [h!] per figures i taules \usepackage{array} % Cas mĂ©s general de aligned, cases... \usepackage{bm} % MatemĂ tiques en negreta \usepackage{amsmath, amssymb, amsfonts, amsthm} % MatamĂ tiques \usepackage{caption} % DescripciĂł d'una taula o figura \usepackage{subcaption} % Permet subfigurues \usepackage{multirow} % Permet taules amb cel·les multifila \usepackage{enumitem} % Per fer llistes \usepackage[catalan, capitalise]{cleveref} % "veure Figura 1" \setlength{\parskip}{1em} % Salt de lĂnia correcte \setlength{\footskip}{120pt} % Numeracio peu de pĂ gina \setlength{\parindent}{0pt} % Sagnat % ---------- ALTRES --------- \usepackage{fancyhdr} % Per capçaleres (si el format Ă©s 'article')
- CarĂ cters â\â llegits malament (buscar en el codi â\textbackslashâ)
Ajustar el format document
- Triar la mida de la font a la primera lĂnia
\documentclass
[
10pt
]{
article
}
- Comprovar que el format de tĂtols (abstract, section, subsection, subsubsectionâŠ) sigui el desitjat.
- Molt probablement calgui un asterisc (
\section
*{}
) per evitar la numeraciĂł automĂ tica. - Utilitzar
\centering
o\begin
{
center
}
\end
{
center
}
per centrar tĂtols
- Modificar la geometria del document amb
\newgeometry
- Per exemple
\newgeometry
{
width
= 6in,
tmargin
= 8em,
bmargin
= 8em
}
- Posar capçalera i peu de pà gina manualment si és necessari
Maneres de fer una capçalera
Article
Per
article
podem fer servir \usepackage
{
fancyhdr
}
Exemple de capçalera amb fancyhdr
\usepackage{fancyhdr} \pagestyle{fancy} % PEU DE PĂGINA ------------------------------------------ \renewcommand{\footrulewidth}{0pt} \renewcommand{\footruleskip}{10pt} \fancyhf{} % NumeraciĂł en el peu de pĂ gina \fancyfoot[c]{\thepage \hspace{1pt} de \pageref{LastPage}} \addtolength{\textheight}{-0.5in} % CAPĂALERA --------------------------------------------- \setlength{\headheight}{65pt} \renewcommand{\headrulewidth}{1pt} \renewcommand{\headruleskip}{10mm} \lhead{Facultat de FĂsica i QuĂmica \\ Semestre de primavera} \chead{} \rhead{19/07/2024 \\ Nom professor}
Scrbook
Per
scrbook
podem fer servir \usepackage
{
scrlayer-scrpage
}
Exemple de capçalera per scrlayer-scrpage
\usepackage{scrlayer-scrpage} \pagestyle{scrheadings} \KOMAoptions{headsepline} % LĂnia horitzontal sota capçalera \renewcommand*{\chaptermarkformat}{} % Traiem la numeraciĂł pel heading \automark[chapter]{chapter} % Crec q tria el \headmark \renewcommand{\headfont}{\upshape} % Fem que no estigui en cursiva \clearpairofpagestyles % posa (l,c,r), (e,o) i (head, foot) a {empty} \cehead{\textsc{\MakeLowercase{\headmark}}} \rehead{\pagemark} \lohead{\pagemark} \cohead{\textsc{M. Castellet, I. Llerena}} \cfoot[\pagemark]{} % [] = pĂ gines d'inici de capĂtol (numerem a baix)
- Posar notes de peus de pĂ gina amb
\footnote
{
text nota
}
a on correspongui
- SeparaciĂł entre tĂtols o equacions
- Per tĂtols fer
titlespacing
*{
\section
}{
0pt
}{
2em
}{
2em
}
amb\usepackage
{
titlesec
}
- Per equacions fer
\setlength
{
\abovedisplayskip
}{
2em
}
i el mateix amb\belowdisplayskip
- Modificar mida del text amb
\scriptsize
,\footnotesize
,\normalsize
,\large
âŠ
- Fer llistes no numerades amb
\begin
{
itemize
}
\item
text
\end
{
itemize
}
- Fer llistes numerades amb
\usepackage
{
enumitem
}
- Per exemple
\begin
{
enumerate
}[
label
=
\roman
*
)]
\item
text
\end
{
enumerate
}
Corregir faltes
Pic i pala, principalment nomĂ©s sĂłn accents que han quedat mal posats o no sâhan detectat.