Googleのオフラインで動くAI音声入力アプリを試した【Gemmaモデル搭載】
Googleがひっそりと、かなり面白いアプリをリリースした。オフラインで動くAI音声入力アプリだ。Gemmaモデルを端末内で実行するため、インターネット接続不要でAI文字起こしが使える。
Wispr Flowなどの競合サービスに対抗する位置づけだが、「オフライン」という一点が大きな差別化になっている。
なぜオフラインが重要か
音声入力ツールの多くはクラウドに音声データを送信して処理する。つまり:
- 会議の内容がサーバーに送られる
- 個人情報が含まれる音声も外部に出る
- オフライン環境(飛行機・地下など)では使えない
このアプリはすべて端末内で完結するため、これらの問題をまるごと解決している。
実際に使ってみた
セットアップはシンプルで、アプリをインストールするとGemmaモデルが端末にダウンロードされる(約1〜2GB)。
精度について: 日本語の認識精度はまだ完璧ではないが、英語は驚くほど正確だった。技術用語(API、GitHub、Dockerなど)も正確に認識する。
速度: クラウド送信がない分、レスポンスは速い。話し終わった瞬間にテキストが出る感覚。
オフライン動作: 機内モードで試したが問題なく動作した。これは地味に大きい。
個人開発者の使いどころ
1. コード設計の口述
「〜という仕様で、〜のAPIを使って、〜を実装したい」という構想を話すと、テキストでメモが残る。アイデアが浮かんだ瞬間に記録できる。
2. ドキュメント下書き
READMEやissueの下書きを音声で作成。後でClaude等で整形する流れが効率的だった。
3. 会議メモ(社内・クライアント)
オフライン処理なので、NDAのある打ち合わせでも安心して使える。
Wispr Flowとの比較
| 項目 | Google Gemma | Wispr Flow |
|---|---|---|
| オフライン | ✅ | ❌ |
| 日本語精度 | △ | ◎ |
| 価格 | 無料(予定) | 有料 |
| プライバシー | 端末内完結 | クラウド送信 |
まとめ
オフラインAI音声入力というカテゴリ自体が新しい。プライバシーを重視する個人開発者や、機密性の高い作業をする副業エンジニアには刺さるツールだ。
日本語精度が改善されれば、メインの音声入力ツールとして十分使えるレベルになるだろう。
参考: TechCrunch - Google quietly releases an offline-first AI dictation app on iOS
関連記事
Agentive 編集部
AIエージェントを実際に使い倒す個人開発者。サイト制作の自動化を実践しながら、その知見を発信しています。