「Xperia 1 Ⅵ」で、Googleの「Gemini」を使って、文字起こし!びびる便利さ。

取引先(メーカーさん、お客様、、、)からもらう各種資料が、「紙媒体」のとき、、、「PDFとかパワポにしてくれよ」なんて思うことも、昔はありました。。。今は、Geminiのおかげで、そんなわがままなことを思うこともなくなりました。。。
ということで、Googleさんの「AI」、、、それが、「Gemini」。Androidスマホオーナーさんなら、使ったことある人、使っている人、多いんじゃないんだろうか。今回は、その「Gemini」に、紙資料から、文字起こししてもらう!
Geminiを起動

・電源ボタン長押しで、画面下に、Geminiが表示される。

↑もし、Geminiが起動せず、電源メニューが表示されるなら、スマホの「設定→システム→ジェスチャー→電源ボタンを長押し」(設定開いてその検索窓に、電源ボタンと入力してもOK)で、設定変更すればいい。
電源ボタン長押しは、やっぱり、電源メニューがいいんだぜ!って人は、

↑アプリとして、フツーに起動するのでもいい。

↑アプリとして起動の場合は、こんな画面になる。
紙資料を撮影しよう

フツーにカメラアプリで撮影してもいいし、Geminiの左の「+」から「カメラ」を選択して撮影してもいいし。
カメラアプリで撮影したり、すでに撮影したデータを使う場合は、「+」から「ギャラリー」を選択すればOK。
今回使うソニーのカタログを、かなり適当に撮影したのが↑これ。

↑歪んではいるけど、判読はできる。
Geminiに、おねがいしよう!

写真添付後、チャット欄に、「もじおこしして」と入力するか、「音声入力するか」
たったこれだけ。
数秒待つと、、、

↑文字起こし完成。
ちなみに、Xperia 10 Ⅵだと、数倍余計に時間がかかるから、スマホスペックに速度依存してるようだ。
精度を検証してみよう

↑長押しして、テキストをコピーすれば、二次利用が可能だ。
↓コピペしたのがこれ。
はい、承知いたしました。画像の内容を文字起こしします。
SONY
新商品ニュース
G
FE 400-800mm F6.3-8 G OSS
SEL400800G オープン価格 近日発売予定 ※オープン価格商品の価格は、販売店にお問い合わせください
QTMレンズ初*1、焦点距離800mmをカバー。ズーム全域で高い解像性能と高速AFを実現しつつ、インナーズーム方式を採用した超望遠ズームGレンズ
Gレンズで初となる、焦点距離800mmをカバーする超望遠ズームレンズです。別売のテレコンバーターにも対応し、最長1600mmまでの撮影が可能となります。加えて、動きの速い被写体を捉え続ける優れたAF性能とズーム全域で高い解像性能を実現。さらに、インナーズーム方式を採用し、安定したフレーミングとなめらかなズーム操作が可能に。超望遠域での撮影シーンの中でも、野鳥や野生動物、スポーツ、航空機などの容易に近づくことができない動体撮影に最適です。また、圧縮効果を生かした風景の撮影などにも適しています。
主な特長
400mmから800mmをカバーする超望遠ズームGレンズ
□ レンズ初となる焦点距離800mmをカバーする超望遠ズームレンズ
□1.4倍、2倍のテレコンバーターにも対応し、最長1600mmまでの撮影が可能
最新の光学設計による優れた描写力
□ED (Extra-low Dispersion) ガラス6枚を含むエレメントの効果的な配置により、超望遠域で発生しがちな色収差など諸収差を抑制、画面中心から周辺部分まで高い解像性能を実現
□11枚羽根の円形絞りや球面収差の最適化により、Gレンズならではの自然でやわらかなぼけ描写が可能
□最短撮影距離1.7m(ワイド端)、最大撮影倍率0.23倍の高い近接撮影性能を実現
静止画・動画ともに快適な撮影を可能にする優れたAF性能
□リニアモーターを2基搭載し、動きの速い被写体でも高速・高精度・高追随かつ静粛なフォーカシングを実現
□α9 IIIの最高約120コマ/秒の高速連写にも対応するトラッキング性能*2 *3
□フォーカス時のブリージングを抑制し、高品位な映像表現が可能
□ シリーズカメラの「ブリージング補正機能」*4にも対応
高い機動力と洗練された操作性
□重心変化が少なくリング回転角度の小さいインナーズーム方式を採用。なめらかで素早いズーム操作と、高い操作性により安定したフレーミングでの撮影が可能
□あらかじめ合焦する範囲を限定することで、狙った被写体に迅速にフォーカスする「フォーカスレンジリミッター」を搭載
□フォーカスリングを回転させるだけで瞬時にマニュアルフォーカスが可能な「フルタイムDMFスイッチ」を搭載
□光学式手ブレ補正機構を内蔵、対応するカメラとの組み合わせで、ボディと協調したより効果的な制御が可能5
□補正モードは、流し撮り対応のMODE2に加え、MODE36を搭載
使用環境を選ばない優れた操作性・信頼性
□三脚座は厳しい条件下でも信頼性とパフォーマンスを最大化させる、取り外し不可のデザインを採用
□カスタマイズ可能な「フォーカスホールドボタン」を鏡筒部分の90度ごとに3ヵ所配置
□軽量化と十分な強度を両立した新設計のレンズフードを同梱、着脱しやすさに配慮したロックボタンタイプで、円偏光フィルターや可変NDフィルター装着時の操作をしやすくするフィルター操作窓を搭載
□防塵・防滴に配慮した設計*7
□レンズ最前面にフッ素コーティングを採用
*1 2025年2月広報発表時点、ソニー調べ *2 1.4倍のSEL14TCと2倍のSEL20TC *3 ソニー測定条件。撮影条件によっては連続撮影の速度が遅くなります。フォーカスモードがAF-Cのときは、連続撮影の速度が異なります *4 互換情報はこちらを参照してください。https://www.sony.net/dis/breathing/ 本機能を「入」にすると画角と画質がわずかに変化します。本機能を「入」にしても、レンズによっては補正しきれない場合があります *5 対応するカメラはサポートページ(https://www.sony.net/dis/fnc1002/)をご覧ください。補正効果はレンズによって異なります *6 MODE3をお使いいただくには本体ソフトウェアを最新のバージョンにアップデートする必要があります。カメラボディとの機能互換性の詳細はサポートページをご覧ください *7 防塵・防滴に配慮した構造となっていますが、ほこりや水滴の浸入を完全に防ぐものではありません。
ご希望に沿えたでしょうか?
前半赤文字2ヶ所、赤背景2ヶ所は、いずれも、「α」の文字認識ミス。
文字が小さすぎたせいか、文中の備考「*数字」がご認識多いが、最後にまとめた備考の「*数字」はしっかりと認識。
とまぁ、すごい認識率だ。AI以前の、OCRソフトでは、ここまでの認識率はなかった。言葉の意味を理解しての文字起こしだからこその高認識率なんだろうか。
—————————————————————————————————