Googleのオフラインで動くAI音声入力アプリを試した【Gemmaモデル搭載】

Googleがひっそりと、かなり面白いアプリをリリースした。オフラインで動くAI音声入力アプリだ。Gemmaモデルを端末内で実行するため、インターネット接続不要でAI文字起こしが使える。

Wispr Flowなどの競合サービスに対抗する位置づけだが、「オフライン」という一点が大きな差別化になっている。

なぜオフラインが重要か

音声入力ツールの多くはクラウドに音声データを送信して処理する。つまり：

このアプリはすべて端末内で完結するため、これらの問題をまるごと解決している。

セットアップはシンプルで、アプリをインストールするとGemmaモデルが端末にダウンロードされる（約1〜2GB）。

精度について: 日本語の認識精度はまだ完璧ではないが、英語は驚くほど正確だった。技術用語（API、GitHub、Dockerなど）も正確に認識する。

速度: クラウド送信がない分、レスポンスは速い。話し終わった瞬間にテキストが出る感覚。

オフライン動作: 機内モードで試したが問題なく動作した。これは地味に大きい。

「〜という仕様で、〜のAPIを使って、〜を実装したい」という構想を話すと、テキストでメモが残る。アイデアが浮かんだ瞬間に記録できる。

READMEやissueの下書きを音声で作成。後でClaude等で整形する流れが効率的だった。

オフライン処理なので、NDAのある打ち合わせでも安心して使える。

オフラインAI音声入力というカテゴリ自体が新しい。プライバシーを重視する個人開発者や、機密性の高い作業をする副業エンジニアには刺さるツールだ。

日本語精度が改善されれば、メインの音声入力ツールとして十分使えるレベルになるだろう。