Mesclando arquivos PDFs: REGEX e PyPDF2 com Python

Imagine que você tem uma série de documentos em pdf, ou mesmo outro arquivo pdf, para mesclar e manter tudo em apenas um arquivo.

English version

Vamos fazer isso com REGEX e PyPDF2 com python

Você, assim como eu, já foi em sites que mesclam PDF. Mas e se você puder fazer isso de graça com Python? Ou ainda criar seu próprio site para hospedar esse “concatenador” de pdf?

É isso que vamos fazer agora! Nesse projeto, vamos concatenar arquivos PDF com base na data contida no nome do arquivo.

Tabela de conteúdos

Startando o Projeto – Bibiotecas REGEX e PyPDF2
Função de extração da data com re – Regular Expression
Ordenando Arquivos baseado em padrão de string – Data
Função de concatenação dos PDFs
Programa principal
Para mais projetos com Python
Playlist do projeto (em construção)
- Que tal aprender mais?

Startando o Projeto – Bibiotecas REGEX e PyPDF2

Vamos usar as libs PyPDF2, re e os. Com exceção da PyPDF2, tanto a lib os como a re são módulos padrão do Python. Sendo assim, já vem instalada.

Então, a unica a ser instalada neste caso é a PyPDF2. Execute a seguinte instalação em seu ambiente virtual.

pip install PyPDF2

Dentro do código, você vai importa-las dessa forma:

Função de extração da data com re – Regular Expression

Aqui vamos usar a função search da lib re para encontrar as ocorrências do padrão na string.

A string em nosso caso, é o nome do arquivo.

Definimos o padrão usando raw string para que o Python não interprete caracteres especiais em nosso padrão.

pattern = r'\d{4}-\d{2}-\d{2}'

Uma vez definido o padrão, executados a busca e recebemos o resultado. O nosso resultado retornado é composto pela classe Macth da lib re.

Com ela podemos usar diversos métodos que recuperam as infos da busca pelo padrão, tais como: posição, string, início e fim do padrão.

Caso tenhamos um resultado em mãos, iremos executar o método group() que retorna a parte inteira da string que casou com a expressão. Caso contrário, retornamos None.

Da uma olhada em como ficou a função:

def extract_date_from_filename(filename):
    # Utiliza expressão regular para extrair a data do nome do arquivo
    pattern = r'\d{4}-\d{2}-\d{2}'  # Formato de data esperado YYYY-MM-DD
    match = re.search(pattern, filename)
    if match:
        return match.group()
    return None

Ordenando Arquivos baseado em padrão de string – Data

Agora, vamos usar a data extraida do nomes do arquivos para ordernar nossa lista de arquivos.

O primeiro pedaço de código usa um for para colocar dentro de uma lista todos os arquivos de um diretório.

Esse for em uma linha melhora a legibilidade do código e diminui o número de linhas necessárias.

Neste caso, estamos verificando os items dentro do directoy_path e adicionando a lista apenas se o f for um arquivo.

Após a criação da nossa lista (pdf_files_with_date) que receberá as tuplas, vamos chamar os métodos anteriores.

def sorting_files_by_date(directory_path):
    files = [f for f in os.listdir(directory_path)
             if os.path.isfile(os.path.join(directory_path, f))]

    # var lista de tuplas
    pdf_files_with_date = []

    for file in files:
        if file.lower().endswith('.pdf'):
            date = extract_date_from_filename(file)
            if date:
                # tupla: (filename, data_padrao)
                pdf_files_with_date.append((file, date))

    return sorted(pdf_files_with_date, key=lambda x: x[1])

Verificamos se os arquivos são pdf com o método de string endswith(). Caso verdadeiro chamamos a função extract_data_from_file(file), passando o nome do arquivo atual como parâmetro.

Caso haja uma data (correspondente ao padrão) adicionamos a tupla (nome_do_arquivo, data_encontrada) a lista.

Após a varredura a função sorted irá ordernar a lista a parte de uma key (chave).

Ficou confuso com o lambda na história? Então, vamos entender melhor.

Key recebe a função lambda que permite verificar o segundo elemento da tupla.

Neste caso, x é um elemento da lista. Já que a lista é formada por tuplas, seremos capazes de acessar seus items pelos indices 0 e 1.

Sendo assim, x[0] seria o primeiro item, o nome do arquivo. Já x[1] consiste no segundo elemento, a data associada ao arquivo.

Ordenando pela data seremos capazes de mesclar os arquivos desse diretório da maneira correta.

Perceba que a lista realocada toda vez que chamamos a função para um novo subdiretório. Assim, não teremos sobreposição de listas.

Função de concatenação dos PDFs

Vamos então mesclar os arquivos que recebemos para realizar o trabalho de freela.

Neste caso, precisamos criar uma nova estrutura igual a original para que os arquivos pdf estão corretamente associados a cada diretório.

Mas, antes disso vamos ordernar nossos arquivos de cada subdiretório.

Você vai perceber que a var pdf_files_sorted_by_date está recebendo justamente esses arquivos já ordernados.

O próximo passo está em alocar a classe PdfMerger(). Para que possamos adicionar os arquivos a serem escritos em um único arquivo destino.

 pdf_files_sorted_by_date = sorting_files_by_date(directory_path)
 merger = PyPDF2.PdfMerger()

Então, cada arquivo pdf da nossa lista será adicionado ao merger. Lembre-se de adicionar o caminho completo.

def merge_pdfs_sorted_by_date(directory_path, output_file='mesclados.pdf'):

    pdf_files_sorted_by_date = sorting_files_by_date(directory_path)
    merger = PyPDF2.PdfMerger()

    for file, _ in pdf_files_sorted_by_date:
        file_path = os.path.join(directory_path, file)
        merger.append(file_path)

    new_path = '/'.join(['arquivos_mesclados', directory_path.split('/')[1]])
    if not os.path.exists(new_path):
        os.makedirs(new_path)

    output_path = os.path.join(new_path, output_file)
    with open(output_path, 'wb') as output:
        merger.write(output)

    print(f'Arquivos PDF foram mesclados e salvo como {output_file} em {new_path}')

Se você não precisa manter a mesma estrutura da original, após o merge bastaria escrever o merger.write().

Mas no meu caso, o cliente queria dessa forma. Então….

    #definimos o novo caminho e criamos caso não exista
    new_path = '/'.join(['arquivos_mesclados', directory_path.split('/')[1]])
    if not os.path.exists(new_path):
        os.makedirs(new_path)

Definimos o nome do nosso arquivo destino (único pdf).

 output_path = os.path.join(new_path, output_file)

Depois, escrevemos o arquivo unico usando o método write() da classe PdfMerger(). Lembre-se de abrir o arquivo destino como escrita binária (wb).

A função finalizada fica como na imagem a seguir.

Programa principal

Ok, após criarmos todas as nossas funções iremos testar nosso código.

O nome do diretório esta associado a estrutura que tenho no meu projeto com Pycharm. De uma olhada na próxima imagem que você vai entender melhor.

from function import *

# Caminho para o diretório contendo os arquivos PDF
for diretorio in os.listdir('arquivos'):
    # Chama a função para mesclar os arquivos PDF no diretório fornecido
    merge_pdfs_sorted_by_date('arquivos/'+diretorio)

Após a execução do código a minha estrutura ficou assim:

Que tal aprender mais?

Veja minha seleção de Livros que Impulsionaram minha carreira.

Veja Aqui

Para mais projetos com Python

Artigos e tutoriais SR: Projetos com Python em nosso site

Criando CRUD MySQL com Python

Conectando ao MySQL com Python

Instalar Python Windows

Projeto para Portifólio: Sua primeira API com Python e MySQL

Principais Bibliotecas Python para Data Science: Manipulação e Visualização

Python: minhas portas TCP e UDP abertas

Playlist do projeto (em construção)

Para quem prefere vídeos, segue nossa playlista do mini projeto.

Juliana Mascarenhas

Data Scientist and Master in Computer Modeling by LNCC.
Computer Engineer

Controle de Congestionamento em Redes: Otimizando Eficiência e Alocação de Banda

12 de junho de 2025 Nenhum comentário

Este post técnico aborda os mecanismos de controle de congestionamento, com foco na camada de…

Ler mais

AIDE : IDS para Linux Ubuntu Instalação e Configuração

10 de junho de 2025 Nenhum comentário

Apresentamos um tutorial de instalação e configuração do IDS AIDE no Linux Ubuntu. O AIDE…

Ler mais

Packet tracer rede com 1 roteador

27 de maio de 2025 Nenhum comentário

Nesse tutorial, vamos mostrar como configurar uma rede com apenas um roteador no Packettracer. Será…

Ler mais

Como Usar o Snap em Redes com Proxy (Linux)

6 de maio de 2025 Nenhum comentário

Neste post, você vai aprender a configurar o Snap para funcionar atrás de um proxy,…

Ler mais

Como Criar uma Rede com Switch no Packet Tracer: Passo a Passo para Iniciantes

24 de abril de 2025 Nenhum comentário

Neste tutorial prático, vou te mostrar como criar uma rede simples com switch utilizando o…

Ler mais

Por que usar o Kali Linux dentro do VirtualBox?

22 de março de 2025 Nenhum comentário

Neste artigo, veremos os principais motivos para considerar o uso do Kali Linux em um…

Ler mais

https://www.python.org/

Cookie	Duração	Descrição
cookielawinfo-checkbox-advertisement	1 year	Set by the GDPR Cookie Consent plugin, this cookie is used to record the user consent for the cookies in the "Advertisement" category . / Definido pelo plugin GDPR Cookie Consent, este cookie é usado para registrar o consentimento do usuário para os cookies na categoria Publicidade = "Advertisement".
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics". / Este cookie é definido pelo plug-in GDPR Cookie Consent. O cookie é usado para armazenar o consentimento do usuário para os cookies na categoria "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional". / O cookie é definido pelo consentimento do cookie GDPR para registrar o consentimento do usuário para os cookies na categoria"Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary". / Este cookie é definido pelo plug-in GDPR Cookie Consent. Os cookies são usados para armazenar o consentimento do usuário para os cookies na categoria "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other". / Este cookie é definido pelo plug-in GDPR Cookie Consent. O cookie é usado para armazenar o consentimento do usuário para os cookies na categoria "Other.".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance". / Este cookie é definido pelo plug-in GDPR Cookie Consent. O cookie é usado para armazenar o consentimento do usuário para os cookies na categoria "Performance".
CookieLawInfoConsent	1 year	Records the default button state of the corresponding category & the status of CCPA. It works only in coordination with the primary cookie.
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data. / O cookie é definido pelo plug-in GDPR Cookie Consent e é usado para armazenar se o usuário consentiu ou não com o uso de cookies. Não armazena nenhum dado pessoal.

Cookie	Duração	Descrição
_tccl_visit	30 minutes	This cookie is set by the web hosting provider GoDaddy. This is a persistent cookie used for monitoring the website usage performance. / Este cookie é definido pelo provedor de hospedagem na web GoDaddy. Este é um cookie persistente usado para monitorar o desempenho de uso do site.
_tccl_visitor	1 year	This cookie is set by the web hosting provider GoDaddy. This is a persistent cookie used for monitoring the website usage performance. / Este cookie é definido pelo provedor de hospedagem na web GoDaddy. Este é um cookie persistente usado para monitorar o desempenho de uso do site.

Cookie	Duração	Descrição
__gads	1 year 24 days	The __gads cookie, set by Google, is stored under DoubleClick domain and tracks the number of times users see an advert, measures the success of the campaign and calculates its revenue. This cookie can only be read from the domain they are set on and will not track any data while browsing through other sites. / O cookie __gads, definido pelo Google, é armazenado no domínio da DoubleClick e rastreia o número de vezes que os usuários veem um anúncio, mede o sucesso da campanha e calcula sua receita. Este cookie só pode ser lido no domínio em que está configurado e não rastreará nenhum dado durante a navegação em outros sites.
_ga	2 years	The _ga cookie, installed by Google Analytics, calculates visitor, session and campaign data and also keeps track of site usage for the site's analytics report. The cookie stores information anonymously and assigns a randomly generated number to recognize unique visitors. / O cookie _ga, instalado pelo Google Analytics, calcula os dados do visitante, da sessão e da campanha e também acompanha o uso do site para o relatório de análise do site. O cookie armazena informações anonimamente e atribui um número gerado aleatoriamente para reconhecer visitantes únicos.
_ga_4S4FKY1F7W	2 years	This cookie is installed by Google Analytics.
_ga_8V3HHZY0KL	2 years	This cookie is installed by Google Analytics.
_gat_gtag_UA_199766752_1	1 minute	Set by Google to distinguish users. / Definido pelo Google para distinguir os usuários.
_gh_sess	session	GitHub sets this cookie for temporary application and framework state between pages like what step the user is on in a multiple step form.
_gid	1 day	Installed by Google Analytics, _gid cookie stores information on how visitors use a website, while also creating an analytics report of the website's performance. Some of the data that are collected include the number of visitors, their source, and the pages they visit anonymously. / Instalado pelo Google Analytics, o _gid cookie armazena informações sobre como os visitantes usam um site, ao mesmo tempo que cria um relatório analítico do desempenho do site. Alguns dos dados coletados incluem o número de visitantes, sua fonte e as páginas que visitam anonimamente.
CONSENT	2 years	YouTube sets this cookie via embedded youtube-videos and registers anonymous statistical data.

Cookie	Duração	Descrição
test_cookie	15 minutes	The test_cookie is set by doubleclick.net and is used to determine if the user's browser supports cookies. / O test_cookie é definido por doubleclick.net e é usado para determinar se o navegador do usuário oferece suporte a cookies.
VISITOR_INFO1_LIVE	5 months 27 days	A cookie set by YouTube to measure bandwidth that determines whether the user gets the new or old player interface.
YSC	session	YSC cookie is set by Youtube and is used to track the views of embedded videos on Youtube pages.
yt-remote-connected-devices	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt-remote-device-id	never	YouTube sets this cookie to store the video preferences of the user using embedded YouTube video.
yt.innertube::nextId	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.
yt.innertube::requests	never	This cookie, set by YouTube, registers a unique ID to store data on what videos from YouTube the user has seen.

Cookie	Duração	Descrição
_octo	1 year	No description available.
DEVICE_INFO	5 months 27 days	No description
FCCDCF	12 hours	No description available.
GoogleAdServingTest	session	No description / Sem descrição
logged_in	1 year	No description available.

Startando o Projeto – Bibiotecas REGEX e PyPDF2

Função de extração da data com re – Regular Expression

Ordenando Arquivos baseado em padrão de string – Data

Função de concatenação dos PDFs

Programa principal

Que tal aprender mais?

Para mais projetos com Python

Playlist do projeto (em construção)

Posts relacionados