2023年1月3日火曜日

PDFの表をEXCELに変換する

のは、めざましい進歩をしているデジタル社会でもまだまだポンッと簡単にはできないことのひとつのようです。

 昨年暮れに、関西大学図書館所蔵ちりめん本の整理.PDF をEXCELにしてデータベース的に使おうとしました。PDFからEXCELへは以前、仕事などでさんざん行ってきた作業なので簡単にすむとおもっていたのですが、泥沼にはまりました。結果はデータベースにできたのですが、忘れないうちに手順を記録しておこうとおもいます。

1.この画像のHPでワード文書(docxファイル)に変換する。

2.このファイルをLibreOfficeのWriter文書ドキュメントで読み込む。これをコピペ(を繰り返)してLibreOfficeのCalc表計算ドキュメントに貼り付ける。

3.Calc表計算ドキュメントからEXCELファイルへ書き出すのは、

メールとして送信が一番楽で確実です。そのメールに添付されたファイルをデスクトップにコピーして完了です。

 ここからは愚痴です。忙しい方は読む必要はありません。

ここの例であげたPDFは大学の研究紀要研究レポート小冊子をPDF化してアップされたものですのであくまで、その冊子の大きさにおさまるように、体裁を整えなければなりませんからそれが第一優先となります。ですから整えるにあたって、たとえばそれをEXCELでおこなったとして、セルの結合やセル内での文字揃えなど様々な処理をおこなうはずです。さらには空白文字で文字位置調整やリターンキーやタブキーなども使うかもしれません。高度なPDFが行えるアプリではそれらも含んでPDF文書にしますから、こんどは逆の操作を行うときにそれらのたくさんのいろいろな目に見えないコードが混乱のもととなってしまうわけです。

 この大学のPDFをEXCEL2019マック版に直接コピーできるのですが結果は散々なことになります。列方向のセルの結合があったり、行方向のセルの結合もあったりで縦方向のセルの結合はレコードの数が変化してしまいますから、データベースを作ろうとするときは致命的です。

 ところがいくつか試行錯誤してみた中で、ここにあげたLibreOfficeはそのセルの結合を無視してくれる貴重なアプリでした。

 こういった表を作るときの鉄則として、EXCELを使うなら「セルの結合は決してつかわない」を徹底して願わずにいられません。たいていは「セルの中で折り返す」にチェックを入れれば解決するのですから、入力するときにはそのままデータベースに使えることを忘れずにいてほしいのであります。せめて、どうしても見た目最優先にするならば、データベースのファイルとそれ専用のファイルの2本立てで行えばよいことなので、是非是非そうすることをのぞみます。

 放送大学にも同じような「放送大学chirimenlst.PDF」があるのですが、上記ファイルと同様でした。

 しかしながら、各研究施設でちりめん本の詳細データ一覧を公表してくれていることは、とてもありがたいことで感謝しています。

 

0 件のコメント:

コメントを投稿