Jili xyz withdrawal.Enjoy Free 888+200 Daily Legal Bonus

miyagi1977
(@miyagi1977)

1 year, 3 months ago

昨年、表記の件で質問させていただいた宮城と申します。

近日公開予定のPDF parserのv2.8.0で、ignore encryptionの機能が備わるようです。

この機能を当プラグインに取り込んでいただけるか、ご検討をお願いしたいです。

https://github.com/smalot/pdfparser/releases

Viewing 6 replies - 1 through 6 (of 6 total)

Plugin Author ishitaka
(@ishitaka)

1 year, 3 months ago

こんにちは

正式リリース次第対応したいと思います。

ただし、今回の PDF Parser の修正は一時的な回避策とあり、件の PDF ファイルに対応しているかどうかわかりません。正式リリースがいつになるかもわからないので、プラグインの RC 版を用意しました。こちらで試してみてもらえればと思います。

Thread Starter miyagi1977
(@miyagi1977)

1 year, 3 months ago

RC版のご用意ありがとうございます。

ただ、残念ながらRC版でもテキスト抽出に失敗する事象は解消されていないようです。

もしなんらかのファイル受け渡し方法があれば、事象が再現するサンプルファイルをお渡ししたいのですが、可能でしょうか。

Plugin Author ishitaka
(@ishitaka)

1 year, 3 months ago

当方でもいくつかテキスト抽出に失敗するファイル（こちらの test.pdf など）を確認してはいるのですが、解決方法を見つけられていない状況です。お役に立てずにすみません m(__)m
Thread Starter miyagi1977
(@miyagi1977)

1 year, 3 months ago
こちらで事象の切り分けを行ったところ、以下のことが判明しました。
解決策まで導けるものではないですが、情報提供いたします。

?以下の条件で、事象の再現を確認
　条件1：特定の文字列を含む
　　　　　例）”出逢頭”
　　　　　（この3文字だけのドキュメントでも事象が再現します）
　　　　　
　条件2：Excelでドキュメントを作成して、保存時にPDF形式で保存する、
　　　　　またはExcel形式で保存後にAcrobatでPDF変換する
　　　　　（PrimoPDF、Microsoft Print for PDFなどPDF印刷では再現せず）

?条件1で、文字列を”出逢”とすると、抽出されるテキストは”L”となる

EXCELバージョン:2208 ビルド15601.20538

Acrobatバージョン:2023.006.20360

これだけの情報では、AcrobatやOfficeが悪いのか、PDF Parserのバグなのかわからない状況ですが、
少なくとも当方で発生している事象については、テキスト抽出時に不正な文字コードを受け取っている
ように思われ、「暗号化してないのに暗号化されていると認識される」事象とは異なるようです。

以上、よろしくお願いいたします。
- This reply was modified 1 year, 3 months ago by miyagi1977.
- This reply was modified 1 year, 3 months ago by miyagi1977.
Plugin Author ishitaka
(@ishitaka)

1 year, 3 months ago

PDF parser の RC 版リリース以降に同様の問題（不正な文字を受け取る）が issues に報告されていました。残念ながら解決策はまだ見つかっていません。m(__)m

https://github.com/smalot/pdfparser/issues/654

https://github.com/smalot/pdfparser/issues/652

Thread Starter miyagi1977
(@miyagi1977)

1 year, 3 months ago

ありがとうございます。動向を見守ります。

Viewing 6 replies - 1 through 6 (of 6 total)

The topic ‘続?Acrobatで作成したPDFの検索テキスト抽出ができない’ is closed to new replies.