• 昨年、表記の件で質問させていただいた宮城と申します。

    近日公開予定のPDF parserのv2.8.0で、ignore encryptionの機能が備わるようです。

    この機能を当プラグインに取り込んでいただけるか、ご検討をお願いしたいです。

    https://github.com/smalot/pdfparser/releases

Viewing 6 replies - 1 through 6 (of 6 total)
  • Plugin Author ishitaka

    (@ishitaka)

    こんにちは

    正式リリース次第対応したいと思います。

    ただし、今回の PDF Parser の修正は一時的な回避策とあり、件の PDF ファイルに対応しているかどうかわかりません。正式リリースがいつになるかもわからないので、プラグインの RC 版を用意しました。こちらで試してみてもらえればと思います。

    Thread Starter miyagi1977

    (@miyagi1977)

    RC版のご用意ありがとうございます。

    ただ、残念ながらRC版でもテキスト抽出に失敗する事象は解消されていないようです。

    もしなんらかのファイル受け渡し方法があれば、事象が再現するサンプルファイルをお渡ししたいのですが、可能でしょうか。

    Plugin Author ishitaka

    (@ishitaka)

    当方でもいくつかテキスト抽出に失敗するファイル(こちらの test.pdf など)を確認してはいるのですが、解決方法を見つけられていない状況です。お役に立てずにすみません m(__)m

    Thread Starter miyagi1977

    (@miyagi1977)

    こちらで事象の切り分けを行ったところ、以下のことが判明しました。
    解決策まで導けるものではないですが、情報提供いたします。

    ?以下の条件で、事象の再現を確認
     条件1:特定の文字列を含む
         例)”出逢頭”
         (この3文字だけのドキュメントでも事象が再現します)
         
     条件2:Excelでドキュメントを作成して、保存時にPDF形式で保存する、
         またはExcel形式で保存後にAcrobatでPDF変換する
         (PrimoPDF、Microsoft Print for PDFなどPDF印刷では再現せず)

    ?条件1で、文字列を”出逢”とすると、抽出されるテキストは”L”となる

    EXCELバージョン:2208 ビルド15601.20538

    Acrobatバージョン:2023.006.20360

    これだけの情報では、AcrobatやOfficeが悪いのか、PDF Parserのバグなのかわからない状況ですが、
    少なくとも当方で発生している事象については、テキスト抽出時に不正な文字コードを受け取っている
    ように思われ、「暗号化してないのに暗号化されていると認識される」事象とは異なるようです。

    以上、よろしくお願いいたします。

    • This reply was modified 11 months, 3 weeks ago by miyagi1977.
    • This reply was modified 11 months, 3 weeks ago by miyagi1977.
    Plugin Author ishitaka

    (@ishitaka)

    PDF parser の RC 版リリース以降に同様の問題(不正な文字を受け取る)が issues に報告されていました。残念ながら解決策はまだ見つかっていません。m(__)m

    https://github.com/smalot/pdfparser/issues/654

    https://github.com/smalot/pdfparser/issues/652

    Thread Starter miyagi1977

    (@miyagi1977)

    ありがとうございます。動向を見守ります。

Viewing 6 replies - 1 through 6 (of 6 total)
  • The topic ‘続?Acrobatで作成したPDFの検索テキスト抽出ができない’ is closed to new replies.