• お世話になっております。
    同一のExcelファイルをPDF変換してWordPressメディアライブラリへアップロードした際に、
    AcrobatのPDF作成機能で変換したPDFだけ検索テキスト抽出ができない事象が発生しています。
    Acrobatで作成したPDFから検索テキストを抽出できるようにするために必要な設定などあれば、
    教えていただけないでしょうか。
    (しおりつきPDFにしたいため、できる限りAcrobatでPDFを作成したいです)

    以下に、それぞれの方法で作成したPDFのプロパティから一部項目を書き出しています。
    ほかに確認されたいプロパティ項目があれば、お知らせいただきたいです。

    ?ExcelにてPDF保存 ?テキスト抽出OK
     PDF変換:Microsoft Excel for Microsoft 365
     PDFのバージョン:1.7 (Acrobat 8.x)
     セキュリティ方法:セキュリティなし

    ?AcrobatのPDFメーカーでExcelファイルをPDF化 ?テキスト抽出NG
     PDF変換:Adobe PDF Library 17.11.238
     PDFのバージョン:1.6 (Acrobat 7.x)
     セキュリティ方法:セキュリティなし

    よろしくお願いいたします。

Viewing 6 replies - 1 through 6 (of 6 total)
  • Plugin Author ishitaka

    (@ishitaka)

    こんにちは

    PDF のテキスト抽出は PDF parser ライブラリを使用しており、この PDF parser が対応していない PDF 形式のためテキスト抽出できないものと思われますが、具体的にどの部分が対応していないのかはわかりません。申し訳ございません。m(__)m

    Thread Starter miyagi1977

    (@miyagi1977)

    さっそくのご回答ありがとうございます。
    テキスト抽出をPDF parserに依存している旨理解いたしました。
    一旦、新しいバージョンのAcrobat(2020)を調達できそうなので、そちらで再検証してみたいと思います。
    変わらずNGの場合、サンプルPDFをお渡しして調査いただく、というような対応は可能でしょうか。

    Plugin Author ishitaka

    (@ishitaka)

    サンプルPDFをお渡しして調査いただく、というような対応は可能でしょうか。

    ある程度の調査はしたいと思います。ただし、私自身、PDF フォーマットに詳しい訳ではないので、原因の特定および対応はできない可能性が高いと思われます。その旨は予めご了承ください。

    Thread Starter miyagi1977

    (@miyagi1977)

    返信が遅くなりました。
    事象が再現するサンプルと再現しないサンプルを用意できたのでお渡ししたいのですが、
    どのような方法でお渡しすれば良いでしょうか。
    ご指定の方法があればお知らせいただけるとありがたいです。
    なお、acrobat2020での検証は未実施です。

    • This reply was modified 2 years, 2 months ago by miyagi1977.
    Plugin Author ishitaka

    (@ishitaka)

    その後、PDF parser ライブラリに保護されていないファイルを保護されたファイルと誤検知する不具合が存在することが判明しました。
    https://github.com/smalot/pdfparser/issues/488

    まだパッチがなく残念ながら対応できそうにありません。現状では、PDF ファイルをアップロードして失敗した場合、手動で「検索テキスト」欄にテキストを入力して対応するぐらいしか方法がありません。申し訳ございません。m(__)m

    • This reply was modified 2 years, 2 months ago by ishitaka.
    Thread Starter miyagi1977

    (@miyagi1977)

    ご連絡ありがとうございます。
    PDFパーサーに不具合が特定されたことで少し安心しました。
    今後、PDFパーサーのバグフィックス版がリリースされた場合は、当プラグインにも取り込んでいただきたいと思います。
    よろしくお願いいたします。

Viewing 6 replies - 1 through 6 (of 6 total)
  • The topic ‘Acrobatで作成したPDFの検索テキスト抽出ができない’ is closed to new replies.