画像になっている表組みを、表組みのままテキスト抽出する方法(WordのOCR機能)

最近のOCR機能(テキストを読み取ってデジタルデータに変換する)は精度もよくなり、なにより手軽に取り込めるものも増えてきました。MicrosoftのWordや、Google ドキュメントにもこの機能が搭載されています。

単なる文章のスキャンであれば簡単なのですが、今回は印刷された表組み(テキストを選択できないもの)のデータ化をご紹介します。

今回使う原稿

元原稿は、A4サイズの印刷物です。まずはデジタルデータにするのに、PCやスマホに画像として取り込まなければいけません。最近では、Office LensEvernote Scannableと言ったスキャンアプリが人気です。傾きも自動で補正してくれますし、色味も整えてきれいなモノにしてくれます。しかしながら、文字をスキャンする際、ゆがみや汚れは誤認識の元になるため、今回はフラットヘッドスキャナで画像取り込みを行いました。原稿の大きさや状態がよければ、スマホで取り込んでも問題ないと思います。

スキャン後の画像形式は、pdfにする

スキャナで取り込む画像の形式は、pdfにします。取り込んだデータは、のちのちWordで開くのですが、その際ファイル形式がjpgやpngだとうまくいきません。pdfに変換するか、あらかじめpdf形式で保存を行います。

OneDriveに登録する

https://onedrive.live.com/about/ja-jp/

OneDriveは、Microsoftが提供しているクラウドストレージサービスです。無料版では5GBまで利用することができます。サービス内容は、Google Driveとほぼ同様のサービスです。OneDriveに登録すると、データの保存領域だけでなく、無料のOfficeも利用することができます。

※ちなみに、このリンクから登録をすると、紹介者特典でお互いに500MBの領域がプラスされます。ぜひご活用ください。
https://onedrive.live.com?invref=e442876877d2268c&invscr=90

OneDriveに登録すると、無料でOffice Onlineが利用できる

「Word」「Excel」「Outlook」「PowerPoint」「OneNote」といった、ビジネスに利用するソフトがなんと無料で利用することができます。製品版よりも一部機能が制限されているものの、個人ユースや、ちょっとした編集などでは、インストール型にも引けを取らないほどです。

「Word」「Excel」「PowerPoint」の御三家は、購入するとなるとそれなりに高価です。これだけでも利用価値は十分です。Microsoftアカウントはぜひ登録しましょう。

次は表組みをテキストデータに変換する方法です。

OneDriveにデータを入れる

あらかじめ準備したpdf形式の原稿を、OneDriveにコピーします。

単にファイルとして保存されますので、シングルクリックでファイルを選ぶとすぐに起動します。(Google Driveはシングルクリックで選択、ダブルクリックでオープンなので、挙動に違いがあります)

そうすると、webブラウザ上で単にpdfファイルをプレビューした状態になります。

画面左上の「開く」から「Word Online で開く」を選択します。

以下がWordで開いた状態です。この状態では、画面に見えるテキストがすでに選択できる状態となっており、ここからコピーすることも可能です。Wordに通すことにより、すでにOCRの機能が働いています。

画面上部にある「Word で編集」ボタンを押して、pdfファイルをWord形式変換することができます。

Word上で、画像が表組みデータに変換されました。表のデザインや内容によっては意図通りの表示とならないこともあるため、ここからは手動での調整や目視による変換ミスがないかどうかチェックをする必要があります。

以下が元のデータです。背景がついた「F」「C」などは、その形から普通のテキストとしては扱ってくれないようでした。また、丸付きの数字も別な文字に変換されたりもしていました。このあたりは、原稿によっては完璧な再現は難しいかもしれません。

おまけ Googleドキュメントに通すとどうなる?

同様のデータを、Google DriveのGoogleドキュメントを通した場合以下のような結果となりました。表の形を保持していないので、表組みのデータとして活用するには再構成の手間が増えてしまいます。

まとめ

元データの形式はpdfとし、OneDrive経由でWordに送ることでテキストデータとして認識させることができます。これ以外にも、Wordから直接開いたり、スマートフォンを活用してOCR機能を利用するなどいくつか手法があるかと思いますので、1つの方法としてご参考にしてください。

Google DriveのOCR機能もなかなか優秀ですので、内容がうまくマッチすればこちらを利用するのもアリです。

  • データ形式はpdfで
  • スキャン(または撮影)の段階で、原稿がきれいな状態であれば、読み取り精度も向上
  • 表組みのデータ化は、Office OnlineのWordを活用する
  • 最後は目視や照らし合わせで誤認識がないかチェックを行う

きれいであれば、

Jimdo

オススメ書籍

10日でSEO&アクセスアップ Jimdoデザインブック

かっこいいだけではなく、人が集まるホームページを作る!

「Jimdo」(ジンドゥー)でのホームページの作成方法と運用方法を解説した書籍。解説記事を順番に読み進めて行くことで、Jimdoを使ったホームページの作成・運用・宣伝・集客の基本を、10日間で習得するのが本書のコンセプトです。12章構成の解説の中で、Jimdoの基本操作とホームページの作成、デザインとコンテンツ(内容)のレベルアップ、そしてSEOやリスティング広告を含む宣伝・集客の基本を解説しています。

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA


ABOUTこの記事をかいた人

株式会社マジカルリミックス 代表取締役CEO/JimdoExpert 宮城県出身。コンピューター系の専門学校を卒業後、仙台のデザイン会社に入社。 Webサイトのデザイン・コーディングをはじめとし、各種デジタルメディアのデザインに従事。2002年退職後すぐにマジカルリミックスを創業。2007年に法人化で株式会社マジカルリミックスを設立。Webサイト運用に関するコンサルティング、社内向けITトレーニング、セミナー出演、執筆など。2005年から仙台の専門学校で、非常勤講師としてWeb制作講義を担当。 主な著書に『10日で作るかっこいいホームページ Jimdo(ジンドゥー)デザインブック』(エムディエヌコーポレーション)『HTML5+CSS3の新しい教科書 基礎から覚える、深く理解できる。』(共著、同)『基礎から覚える、深く理解できる。Webデザインの新しい教科書』(同)。