Forum Replies Created

Viewing 10 replies - 1 through 10 (of 10 total)
  • Thread Starter miyagi1977

    (@miyagi1977)

    ありがとうございます。動向を見守ります。

    Thread Starter miyagi1977

    (@miyagi1977)

    こちらで事象の切り分けを行ったところ、以下のことが判明しました。
    解決策まで導けるものではないですが、情報提供いたします。

    ?以下の条件で、事象の再現を確認
     条件1:特定の文字列を含む
         例)”出逢頭”
         (この3文字だけのドキュメントでも事象が再現します)
         
     条件2:Excelでドキュメントを作成して、保存時にPDF形式で保存する、
         またはExcel形式で保存後にAcrobatでPDF変換する
         (PrimoPDF、Microsoft Print for PDFなどPDF印刷では再現せず)

    ?条件1で、文字列を”出逢”とすると、抽出されるテキストは”L”となる

    EXCELバージョン:2208 ビルド15601.20538

    Acrobatバージョン:2023.006.20360

    これだけの情報では、AcrobatやOfficeが悪いのか、PDF Parserのバグなのかわからない状況ですが、
    少なくとも当方で発生している事象については、テキスト抽出時に不正な文字コードを受け取っている
    ように思われ、「暗号化してないのに暗号化されていると認識される」事象とは異なるようです。

    以上、よろしくお願いいたします。

    • This reply was modified 1 year, 3 months ago by miyagi1977.
    • This reply was modified 1 year, 3 months ago by miyagi1977.
    Thread Starter miyagi1977

    (@miyagi1977)

    RC版のご用意ありがとうございます。

    ただ、残念ながらRC版でもテキスト抽出に失敗する事象は解消されていないようです。

    もしなんらかのファイル受け渡し方法があれば、事象が再現するサンプルファイルをお渡ししたいのですが、可能でしょうか。

    Thread Starter miyagi1977

    (@miyagi1977)

    ありがとうございます。

    その後検証の結果、検索テキストの文字数と事象の再現性は関連がなさそうであることが判明しました。

    オリジナルファイル(.xlsmファイル)をPDF化したもの
     Excelファイルサイズ ?2,231,963 Byte
     PDFファイルサイズ ?8,656,730 Byte
     テキスト自動抽出 ?成功
     検索文字数 ?2,605,553
     編集画面を開く ?NG
     ※PDF化の工程をやりなおしても再現

    オリジナルファイルを、内容は変更せずに別名保存したものをPDF化したもの
     Excelファイルサイズ ?2,225,136 Byte
     PDFファイルサイズ ?8,674,123 Byte
     テキスト自動抽出 ?エラー(既知事象)
     検索文字数 ?2,806,326
     編集画面を開く ?OK

    テキストの自動抽出に失敗するという既知事象の再現条件は不明です。
    そのため、この既知事象が解消された場合に当事象が再現するかどうかはわからないのですが、オリジナルファイル以外では今のところ再現性がないので、当件はクローズさせていただきたいと思います。
    できればオリジナルファイルを提供させていただければと思ったのですが、機密情報が含まれるファイルなのですみませんが提供は難しいです。

    ありがとうございました。

    Thread Starter miyagi1977

    (@miyagi1977)

    ありがとうございます。

    すみません、追加で質問させてください。
    編集画面で検索テキストに変更をかけなくても、ファイルの更新を行うと制限された文字列で保存されてしまうでしょうか。
    それとも、検索テキストに変更をかけなければ、ファイルの更新を行っても制限前の文字列が保持されるでしょうか。

    よろしくお願いいたします。

    Thread Starter miyagi1977

    (@miyagi1977)

    お世話になっております。
    さっそくのご回答ありがとうございます。

    結局、Out of Memoryはブラウザの環境次第だと思いますので、ご教示いただいた文字数制限の仕組みを用いて当環境でどの程度の文字数まで許容されるかを検証したいと思います。
    ただし現状、すぐにfunctions.phpを触れる環境にないため、以下2点質問させてください。

    ?mb_substr()に指定する数値は、文字種に関わらない文字数でしょうか。(ASCIIでもUTF-8漢字でも1文字で1カウント?)

    ?今回の例だと、ファイルをアップロードした際の動作としては、ファイルの先頭から10万文字を検索テキストとして抽出するような動きになるのでしょうか。

    よろしくお願いいたします。

    Thread Starter miyagi1977

    (@miyagi1977)

    お世話になります。

    すみません、質問に記載した特定ファイルの検索テキスト文字数が誤っていました。

    誤:620万文字
    正:260万文字

    よろしくお願いいたします。

    Thread Starter miyagi1977

    (@miyagi1977)

    ご連絡ありがとうございます。
    PDFパーサーに不具合が特定されたことで少し安心しました。
    今後、PDFパーサーのバグフィックス版がリリースされた場合は、当プラグインにも取り込んでいただきたいと思います。
    よろしくお願いいたします。

    Thread Starter miyagi1977

    (@miyagi1977)

    返信が遅くなりました。
    事象が再現するサンプルと再現しないサンプルを用意できたのでお渡ししたいのですが、
    どのような方法でお渡しすれば良いでしょうか。
    ご指定の方法があればお知らせいただけるとありがたいです。
    なお、acrobat2020での検証は未実施です。

    • This reply was modified 2 years, 6 months ago by miyagi1977.
    Thread Starter miyagi1977

    (@miyagi1977)

    さっそくのご回答ありがとうございます。
    テキスト抽出をPDF parserに依存している旨理解いたしました。
    一旦、新しいバージョンのAcrobat(2020)を調達できそうなので、そちらで再検証してみたいと思います。
    変わらずNGの場合、サンプルPDFをお渡しして調査いただく、というような対応は可能でしょうか。

Viewing 10 replies - 1 through 10 (of 10 total)