Releases · SamEdwardes/spacypdfreader

04 Oct 23:39

SamEdwardes

0.3.2

fa15bd5

0.3.2 Latest

Latest

Changes

Support for Python 3.8 to 3.12 and all future 3.0 versions of Python (#16, #21)
Added local testing to test matrix of supported Python versions.
Switch from poetry to uv for managing project dependencies and building project.
Update dependencies.

Fixes

None

Assets 2

17 Oct 16:16

SamEdwardes

0.3.1

802ec31

0.3.1

Changes

Support for page_range argument (#16, #18).

import spacy
from spacypdfreader import pdf_reader
from spacypdfreader.parsers import pytesseract

nlp = spacy.load("en_core_web_sm")
doc = pdf_reader("tests/data/test_pdf_01.pdf", nlp, pytesseract.parser, n_processes=4, page_range=(2, 3))

Fixes

Remove shed as a dependency. It was removing unused imports that were required (#17).

Assets 2

18 May 03:32

SamEdwardes

0.3.0

24f9d86

0.3.0

Changes

Added support for multi-processing. For example:

import spacy

from spacypdfreader.parsers import pytesseract
from spacypdfreader.spacypdfreader import pdf_reader

nlp = spacy.load("en_core_web_sm")
doc = pdf_reader("tests/data/test_pdf_01.pdf", nlp, pytesseract.parser, n_processes=4)
print(doc._.first_page)
print(doc._.last_page)
print(doc[12].text)
print(doc[12]._.page_number)

Changed the way in which parsers are implemented. They are now implemented with a function as opposed to a class. See https://github.com/SamEdwardes/spacypdfreader/tree/feature/multi-processing/spacypdfreader/parsers for examples.

Fixes

None

Assets 2

09 Jan 18:01

SamEdwardes

0.2.1

f995ea1

0.2.1

Added examples to the API docs.
Added deployment checklist to the docs.

Assets 2

30 Dec 19:12

SamEdwardes

0.2.0

ed830d4

0.2.0

Added support for additional pdf to text extraction engines:
- pytesseract
- textract
Added the ability to bring your own pdf to text extraction engine.
Added new spacy extension attributes and methods:
- doc._.page_range
- doc._.first_page
- doc._.last_page
- doc._.pdf_file_name
- doc._.page(int)
Built a new documentation site: https://samedwardes.github.io/spaCyPDFreader/

Assets 2

10 Dec 19:10

SamEdwardes

0.1.1

ec3bb14

0.1.1

What's Changed

0.1.1 Python ^3.7 support by @SamEdwardes in #2

New Contributors

@SamEdwardes made their first contribution in #2

Full Changelog: https://github.com/SamEdwardes/spaCyPDFreader/commits/v0.1.1

Contributors

SamEdwardes

Assets 2

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

What's Changed

New Contributors

Contributors

Releases: SamEdwardes/spacypdfreader

0.3.2

0.3.1

0.3.0

0.2.1

0.2.0

0.1.1

What's Changed

New Contributors

Contributors