Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Problema constante de erro de raspagem #23

Open
Matheuszul opened this issue May 14, 2024 · 1 comment
Open

Problema constante de erro de raspagem #23

Matheuszul opened this issue May 14, 2024 · 1 comment
Assignees
Labels
bug Something isn't working

Comments

@Matheuszul
Copy link

Descreva o bug
Olá, tudo bem? A raspagem não consegue ser concluída com o uso da ferramenta que raspa vários acervos, nem com o uso da ferramenta que raspa um acervo por vez. A correspondência de termos entres os acervos que me interessam variam de 300 a 3000, mas apresenta erro mesmo nos acervos de menor correspondência. O programa gera csv de relatório, textos de busca e erro, mas não gera csv de resultado.

Reproduzir
python pyHDB_acervos.py (ou pyHDB cujo erro é o mesmo)(python3 não funciona como comando na minha versão, mas eu sou leigo, aprendi só o básico para fazer essa tarefa)

Código do acervo: 100439_12

Termo de Busca: "Belford Roxo"
Comportamento esperado
Esperava que o programa, após o comando de busca, retornasse um csv com as informações referentes às correspondências do termo buscado nos acervos

Screenshots
image
image
image

Desktop (por favor, preencha as seguintes informações):

  • SO: Windows 10
  • Versão do Python: 3.12
  • Terminal ou terminal virtual: Py Charm Community 2024.1.1
@Matheuszul Matheuszul added the bug Something isn't working label May 14, 2024
@ericbrasiln
Copy link
Owner

Boa tarde, @Matheuszul
Fico feliz de ver a ferramenta sendo ussada e ajudando na pesquisa.

Eu não consegui reproduzir o errro, pois testei com o raspador de acervo único e funcionou tanto no windows como no Linux.

WhatsApp Image 2024-05-15 at 16 53 23

Eu estou trabalhando em uma atualização do programa para melhorar o desempenho (você pode ver as mudanças no branch issue-22. Em breve (até meados de junho) devo lançar a versão atualizada.

Na minha experiência esse tipo de erro acontece com maior frequência com acervos maiores do que 300 ocorrências mesmo, devido a erros de carregamento da própria HDB.

Eu sugiro que você tente limitar mais a busca, seja fragmentando por décadas, seja talvez utilizando o termo de busca entre aspas ("Belford Roxo") para buscar apenas expressões exatas.

Outra dica que pode ajudar, é encerrar os processos relacionados ao programa após um erro (procurar nos processo em execução - não tenho certeza como fazer isso no windows), ou apenas reiniciar o computador para encerrar todos esses processos que deram erro.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants