ＰＤＦファイルから文字を抽出

メモ帳を利用した文字列の流用

　いろんな原稿を書く際に、ＰＤＦファイルの文字の部分をコピーして流用できる。

WEBサイトなどをそのままコピーすると、文字列そのものは問題ないものの、罫線や文字のサイズ、装飾（例えば、フォントのタイプ、太字、色、その他）、リンクなどいろんな属性を引き継いでしまうので、ワードやエクセルに貼り付けて活用する際に不都合なことが多い。

左のページをPDFファイルにすると２ページになる。

着色部から文字抽出を試みると、右のようなメモ帳を作成することができる。

赤枠部分は特殊な入力のため、着色部を文字列として抽出した後、もう一度赤枠部分を抽出して、挿入すると、このような結果になり

ワードやエクセルで利用しやすいものをつくることができる。

オリジナル文書

PDFファイル化

文字抽出結果

画像からの文字抽出は不可能！

　このように、WEB上の各サイトやPDFファイルから文字列の抽出が可能である。

しかし、画像の中にある文字列抽出は不可能である。

試しにこのＨＰのトップページに移動し、右上の部分で試していただくと、

よく理解できる。着色部の下の文字列は、文字をコピーするためのハイライトができるが、着色部の文字列は選択（ハイライトすること）ができない。

すなわちこの部分は、画像として入力されていることを意味する。

上の文字抽出作業をいかにビデオにしておいたので、参考にしてこの手法を活用されるといいだろう。