Neste código, é apresentada uma implementação simples de um Audiobook a partir de um PDF. O texto do PDF é lido em formato de áudio para o usuário usando este código.

Introdução
Ler histórias, ensaios ou qualquer texto pode ser cansativo, no entanto, uma leitura em áudio do texto é conveniente e não exige tanta concentração quanto a leitura convencional. Neste projeto, implementei um conversor simples de PDF para áudio. Este código digitaliza página(s) de um PDF e o lê em formato de áudio para o usuário. Embora este projeto seja bom para a leitura de texto simples, ele não funciona bem se um artigo científico com equações for fornecido, porque as equações não são suportadas para leitura na biblioteca pytesseract OCR, que usamos para converter imagem em texto.

Fluxo do Projeto
Aqui está o diagrama do fluxo do projeto:

fluxo do projeto

Primeiro, pegamos o arquivo PDF e convertemos cada página em uma imagem usando o software PyMuPDF.
Em seguida, pegamos a(s) imagem(s) e digitalizamos o texto na imagem usando o software Pytesseract OCR.
Depois, usamos a biblioteca Google Text to Speech (gTTS) para converter o texto em um arquivo de áudio.
Por fim, utilizamos o Pygame mixer para reproduzir o arquivo de áudio em alto volume.

Software Pré-requisito
As bibliotecas de software necessárias para executar este código podem ser instaladas usando:

pip install -r requirements.txt
*Importe os módulos necessários para a conversão de texto em fala
*
from gtts import gTTS # Módulo para conversão de texto em fala
import pygame # Biblioteca para reprodução de áudio
from pygame import mixer # Submódulo para controle de áudio
from PIL import Image # Módulo para manipulação de imagens
import pytesseract # Módulo para reconhecimento óptico de caracteres (OCR)
import os # Módulo para operações do sistema de arquivos
import glob # Módulo para busca de arquivos
import PySimpleGUI as sg # Biblioteca para criar uma interface gráfica simples
import tkinter as tk # Módulo para criar janelas e diálogos
import fitz # Módulo para trabalhar com documentos PDF

Nesta função, obtemos a primeira e última página que desejamos que o software leia

def get_text(value):
string = value
string = string.strip()
if “-” in string:
first_page_number = int(string.split(“-“)[0])
last_page_number = int(string.split(“-“)[1])
else:
first_page_number = int(string)
last_page_number = 0
return first_page_number, last_page_number

def main():
global e, first_page_number, last_page_number

Cria um diretório para o software de texto para fala

current_directory = os.getcwd()
final_directory = os.path.join(current_directory, r’Text_to_speech_software’)
if not os.path.exists(final_directory):
os.makedirs(final_directory)

Interface gráfica

layout = [[sg.Text(‘Escolha o arquivo PDF para ler’), sg.Input(), sg.FileBrowse()],
[sg.Text(‘Digite o número da página ou intervalo separado por – ‘), sg.InputText()],
[sg.Button(‘Ok’), sg.Button(‘Cancelar’)]
]

Cria a janela da interface gráfica

window = sg.Window(‘Input’, layout)
valid = False

while True:
event, values = window.read()
pdf_to_read = values[0]


if event in (None, 'Cancelar'):
    print("Saindo")
    window.close()
    exit()
if event == "Ok":
    if values[0] == "":
        sg.Popup("Digite um valor", "Digite o arquivo PDF a ser transcrito")
    if values[1] == "":
        sg.Popup("Digite um valor", "Digite o número(s) da página a ser transcrito")
    if values[0] != "" and values[1] != "":
        for char in values[1]:
            if char.isdigit() == False:
                sg.Popup("Valor inválido", "Digite um número válido ou números separados por -")
                break
            else:
                valid = True
                break
if valid == True:
    print('Você digitou ', values[1])
    break
if event in (None, 'Cancelar'):
    print("Saindo")
    window.close()
    exit()

if event == "Ok":
    if values[0] == "":
        sg.Popup("Digite um valor", "Digite o arquivo PDF a ser transcrito")
    if values[1] == "":
        sg.Popup("Digite um valor", "Digite o número(s) da página a ser transcrito")

    if values[0] != "" and values[1] != "":
        for char in values[1]:
            if char.isdigit() == False:
                sg.Popup("Valor inválido", "Digite um número válido ou números separados por -")
                break
            else:
                valid = True
                break

if valid == True:
    print('Você digitou ', values[1])
    break
if event in (None, 'Cancelar'):
    print("Saindo")
    window.close()
    exit()

if event == "Ok":
    if values[0] == "":
        sg.Popup("Digite um valor", "Digite o arquivo PDF a ser transcrito")
    if values[1] == "":
        sg.Popup("Digite um valor", "Digite o número(s) da página a ser transcrito")

    if values[0] != "" and values[1] != "":
        for char in values[1]:
            if char.isdigit() == False:
                sg.Popup("Valor inválido", "Digite um número válido ou números separados por -")
                break
            else:
                valid = True
                break

if valid == True:
    print('Você digitou ', values[1])
    break

Enter fullscreen mode Exit fullscreen mode

window.close()
first_page_number, last_page_number = get_text(values[1])

Remove arquivos antigos no diretório de imagens

image_directory = glob.glob(final_directory)
for file in os.listdir(final_directory):
filepath = os.path.join(final_directory, file)
os.chmod(filepath, 0o777)
os.remove(filepath)

Lê as páginas desejadas do PDF e as armazena como imagens em um diretório

doc = fitz.open(pdf_to_read)
k = 1
if last_page_number == 0:
page = doc.loadPage(first_page_number – 1)
zoom_x = 2.0
zoom_y = 2.0
mat = fitz.Matrix(zoom_x, zoom_y)
pix = page.getPixmap(matrix=mat)
output = os.path.join(final_directory, r”image_to_read.png”)
pix.writePNG(output)
else:
for i in range(first_page_number – 1, last_page_number):
page = doc.loadPage(i)
zoom_x = 2.0
zoom_y = 2.0
mat = fitz.Matrix(zoom_x, zoom_y)
pix = page.getPixmap(matrix=mat)
output = os.path.join(final_directory, r”image_” + str(k) + “_to_read.png”)
pix.writePNG(output)
k += 1

print(“Concluído”)

mytext = []

Carrega as imagens criadas na pasta Text_to_speech e lê o texto nas imagens usando OCR

for file in os.listdir(final_directory):
data = pytesseract.image_to_string(Image.open(os.path.join(final_directory, file)), lang=”eng”)
data = data.replace(“|”, “I”)
data = data.split(‘\n’)
mytext.append(data)

language = ‘en’

print(mytext)

Garante que o texto seja lido corretamente, linha por linha

newtext = “”
for text in mytext:
for line in text:
line = line.strip()
if len(line.split(” “)) < 10 and len(line.split(” “)) > 0:
newtext = newtext + ” ” + str(line) + “\n”
elif len(line.split(” “)) < 2:
pass
else:
if line[-1] != “.”:
newtext = newtext + ” ” + str(line)
else:
newtext = newtext + ” ” + line + “\n”

print(newtext)

Passa o texto e o idioma para o mecanismo, marcando slow=False para obter uma fala mais rápida

myobj = gTTS(text=newtext, lang=language, slow=False)

Salva o arquivo de áudio convertido como pdf_audio.mp3

myobj.save(os.path.join(final_directory, “pdf_audio.mp3”))

Carrega e reproduz o arquivo de áudio

pygame.init()
mixer.init()
mixer.music.load(os.path.join(final_directory, “pdf_audio.mp3”))
mixer.music.play()
pygame.event.wait()

if name == ‘main’:
main()

Em resumo, o código apresentou um desempenho satisfatório na leitura de arquivos PDF contendo texto convencional e direto. No entanto, quando o texto inclui equações matemáticas, o leitor não consegue interpretar essas equações de forma adequada. Portanto, podemos concluir que o código é eficaz para a leitura de textos simples, mas não é apropriado para lidar com documentos científicos que contenham equações complexas. No entanto, a leitura de texto comum é realizada com sucesso.

原文链接：Converter PDF em audiolivro usando python

展开阅读全文

文章版权声明 1、本网站名称：拾光赋
2、本站永久网址：https://www.blogs.ink
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长QQ：805375623进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请联系我们我们会第一时间更新。

THE END