ROB: Rebuild xref table if one entry is invalid (#2528)

pubpub-zz · web-flow · commit f8edf3c0023b · 2024-03-24T14:41:05.000+01:00
Fixes #2523 Situation met: * length field is not correct * xref may contain unordered stream data * xref contains some free entries (i.e. does not contain stream offset)
diff --git a/pypdf/_reader.py b/pypdf/_reader.py
@@ -1274,6 +1274,11 @@ def get_object(
             self.stream.seek(start, 0)
             try:
                 idnum, generation = self.read_object_header(self.stream)
+                if (
+                    idnum != indirect_reference.idnum
+                    or generation != indirect_reference.generation
+                ):
+                    raise PdfReadError("not matching, we parse the file for it")
             except Exception:
                 if hasattr(self.stream, "getbuffer"):
                     buf = bytes(self.stream.getbuffer())
@@ -1452,6 +1457,7 @@ def read(self, stream: StreamType) -> None:
                     try:
                         pid, _pgen = self.read_object_header(stream)
                     except ValueError:
+                        self._rebuild_xref_table(stream)
                         break
                     if pid == id - self.xref_index:
                         # fixing index item per item is required for revised PDF.
diff --git a/tests/test_reader.py b/tests/test_reader.py
@@ -1290,8 +1290,6 @@ def test_reader(caplog):
     caplog.clear()
     # first call requires some reparations...
     reader.pages[0].extract_text()
-    assert "repaired" in caplog.text
-    assert "found" in caplog.text
     caplog.clear()
     # ...and now no more required
     reader.pages[0].extract_text()
@@ -1498,3 +1496,11 @@ def test_xyz_with_missing_param():
     assert reader.outline[0]["/Top"] == 0
     assert reader.outline[1]["/Left"] == 0
     assert reader.outline[0]["/Top"] == 0
+
+
+@pytest.mark.enable_socket()
+def test_corrupted_xref():
+    url = "https://github.com/py-pdf/pypdf/files/14628314/iss2516.pdf"
+    name = "iss2516.pdf"
+    reader = PdfReader(BytesIO(get_data_from_url(url, name=name)))
+    assert reader.root_object["/Type"] == "/Catalog"