目次
1.音声を自動で文字にしてくれる神ツールないの…?
Zoom会議の録音、講義のメモ、YouTube動画の字幕づくり。
「あ~これ、全部自動で文字にしてくれたらな〜!」って思ったことありませんか?
そんな夢を叶えるAI音声認識ツールが、OpenAIが開発した Whisper(ウィスパー)。
でも、いざ使おうとすると
- 「インストールってどうやるの?」
- 「黒い画面(ターミナルやコマンドプロンプト)が怖い!」
- 「WindowsとMacでやり方違うんでしょ?」
と、プチパニックになる人も多いはず。
でも大丈夫。このガイドでは超やさしくステップ・バイ・ステップで、
Whisperをローカルに導入して使えるようにしちゃいます。
あなたも終わる頃には「テキスト変換、朝飯前っす」とドヤれるはず!笑
2.Whisperが対応している音声ファイル形式(ffmpegがあるおかげ!)
Whisper単体というより、裏で動いている ffmpeg の力で、ほとんどの音声/動画ファイルを読み込んで文字起こしできます。
以下はその一部です
よく使われる対応形式一覧:
種類 | 拡張子 | 補足 |
---|---|---|
音声ファイル | .mp3 | 一番定番、容量も軽い |
音声ファイル | .m4a | iPhoneボイスメモなどで使われる形式 |
音声ファイル | .wav | 高音質だけど重い |
音声ファイル | .flac | 圧縮あり高音質 |
動画ファイル | .mp4 | YouTubeなどでよくある |
動画ファイル | .mov | iPhoneで撮影した動画など |
動画ファイル | .mkv | 録画・字幕付き動画でよくある |
Whisperが自動で音声抽出してくれる!
たとえば .mp4
の動画ファイルを直接指定しても、Whisperは自動で音声を抽出して文字起こししてくれます:
whisper yourvideo.mp4 --model small --language Japanese
何も変換せずそのままでOKなのがありがたい
非対応形式があっても安心:ffmpegで変換できる!
もしレアな形式(例:.3gp, .aac)に遭遇したとしても、以下のコマンドで .mp3
などに変換できます:
ffmpeg -i input.aac output.mp3
基本的に「音が鳴れば読める」と思ってOK!
Whisper+ffmpegのコンボは無敵。
YouTube動画、Zoom録音、スマホ録音、全部イケます。
3.そもそもWhisperって何?なぜローカルで使うの?
Whisperは、OpenAIが開発した音声→テキストの変換AI。
使い方は大きく分けて以下の2つ:
- クラウド版(ブラウザやAPI経由。手軽だけど制限あり)
- ローカル版(自分のパソコンにインストールして使う。超自由!)無人島でも文字起こしが可能!やらんけど。
ローカルで使うメリットは?
比較項目 | クラウド版 | ローカル版 |
---|---|---|
データの機密性 | サーバー経由(ちょっと不安) | 完全オフラインで安心! |
処理スピード | ネット次第 | PCスペックに依存(爆速も可) |
料金 | API課金あり | 無料で使い放題! |
カスタマイズ | 限定的 | 拡張も自作も自由自在! |
「仕事で機密音声を扱うからオフラインがいい!」とか「文字起こし料金を節約したい!」って人にとって、ローカル版は最強の選択肢なんです
4.導入前の準備(Mac & Windows共通)
まず最初に、Whisperを使うにはちょっとだけプログラミングの基礎が必要。
といっても、「魔法の呪文(コマンド)」をコピーして貼るだけだから安心してね!
必要なもの一覧
項目 | 目的 | 備考 |
---|---|---|
Python(3.9〜3.11) | Whisperを動かす言語 | 難しくないよ! |
Git | ファイルのダウンロードに使用 | ボタンぽちぽちでOK |
ffmpeg | 音声ファイルを変換する道具 | 自動で入る場合も多い |
Whisper本体 | 音声を聞き取ってテキストにするAI | OpenAI謹製 |
ここまでOKなら、次は【Mac版】と【Windows版】で分けて説明していくよ!
コマンドプロンプト?って方はこちら↓AIに助けを借りよう!
5.【Mac版】Whisperローカル導入手順
ステップ1:Homebrewをインストール
HomebrewはMac用の「便利アプリ自販機」みたいなもの!
ターミナルを開いて(Spotlight検索で「ターミナル」と入力)、以下をコピペ:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"
完了したら、
brew --version
でバージョンが出ればOK!
ステップ2:Python と ffmpeg をインストール
brew install python
brew install ffmpeg
この2つで準備完了。ターミナルが「おまかせください、旦那!」状態に。
ステップ3:Whisperをインストール
Python用の「ライブラリ自販機(pip)」でインストール:
pip install -U openai-whisper
動作確認
試しにこのコマンドを打ってみよう(サンプル音声ファイルが必要):
whisper example.mp3 --model small
→ 数秒で example.txt
が生成されていたら大成功
6.【Windows版】Whisperローカル導入手順(ちょっと多いけど大丈夫)
ステップ1:Pythonインストール
- 公式サイトからダウンロー(私はこれpython-3.11.0rc2-amd64.exe) https://www.python.org/downloads/windows/
- インストール時に 「Add Python to PATH」にチェックを入れる!
- コマンドプロンプト(cmd)を開いて確認:Windowsの検索バーにcmbと入力→開く
python --version
バージョンが出ればOK!
ステップ2:ffmpegのインストール
公式サイトから Windows 版をダウンロード
(私は、「Chocolateyを導入」の方でやりました。少し下の所に書いてある。)
以下の手順で安全&簡単にインストールできます!
① サイトの「Windowsマーク(青いアイコン)」をクリック!
画像の左中段あたりにある、青いやつです。
クリックすると「Windows用にビルドされたffmpeg」提供ページへ飛びます。
②「gyaanidev」や「gyan.dev」などに飛んだら…
「ffmpeg-release-full.7z」または「ffmpeg-git-full.7z」を選びましょう!
おすすめは安定版のこちら:
ffmpeg-release-full.7z(安定してて初心者向け)
③ ダウンロード後の手順(ざっくり)
.7z
ファイルを解凍(無料の「7-Zip」などを使ってね)- 解凍して出てきた「ffmpeg」フォルダを
C:\
に置く(例:C:\ffmpeg
) - 環境変数の「Path」に
C:\ffmpeg\bin
を追加
【環境変数Pathの設定方法(詳細)】
- Windowsの「スタートメニュー」または検索バーで「環境変数」と入力
- 出てきた候補から「システム環境変数の編集」をクリック
- 「システムのプロパティ」ウィンドウが開いたら、右下の「環境変数(N)…」をクリック
- 「システム環境変数」または「ユーザー環境変数」の中から「Path」を選択して「編集」をクリック
- 「新規」をクリックして、C:\ffmpeg\bin を入力して「OK」→「OK」で閉じる
- 一度コマンドプロンプトを閉じて、再度開き直し、以下を入力して確認:
ffmpeg -version
バージョン情報が表示されれば設定完了!
【もっと簡単!】Chocolateyを使ってコマンド一発インストール!
「コマンドで簡単に済ませたい!」という人は、以下の方法がおすすめです。
Chocolateyの導入(初回だけ)
- 管理者として「PowerShell」を起動
(Windowsキー →「PowerShell」と検索 → 右クリック →「管理者として実行」) - 以下のコマンドをコピー&貼り付け:
Set-ExecutionPolicy Bypass -Scope Process -Force; `
[System.Net.ServicePointManager]::SecurityProtocol = `
[System.Net.ServicePointManager]::SecurityProtocol -bor 3072; `
iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
ffmpegをインストールするコマンド
Chocolateyが使えるようになったら、以下を実行するだけ!
choco install ffmpeg -y
これだけで自動的にffmpegがインストールされ、Pathも自動設定されます
確認方法
PowerShellまたはコマンドプロンプトで以下を実行:
ffmpeg -version
バージョン情報が表示されれば成功です! “”
ステップ3:Whisperをインストール
コマンドプロンプトで:
pip install -U openai-whisper
動作確認
whisper yourfile.mp3 --model base
テキストが出力されればバッチリ!
ここからは実際の使い方、注意点、Q&A、さらに便利な応用までしっかり紹介していくよ!
7.実際にやってみた!使い方の実例とコツ
Whisperはコマンド1発で「音声→テキスト変換」ができるけど、
実はちょっとした工夫で精度や使いやすさが爆上がりするんです。
基本のコマンド例
whisper myfile.mp3 --model small --language Japanese
オプションの意味をざっくり説明
オプション | 意味 | 例えで言うと… |
---|---|---|
--model | 精度と速度のバランスを指定 | 「速くて軽い」「正確だけど重い」みたいなAIの性格選び |
--language | 音声の言語 | Whisperに「日本語で聞いてね」と伝える大事なポイント |
--output_format | 出力形式(txt, json, srtなど) | YouTube用字幕にしたいときは--output_format srt が便利! |
モデルの種類と選び方(初心者向け)さらに上のモデルが2種類ありますが割愛
モデル名 | 特徴 | おすすめ度 |
---|---|---|
tiny | 超軽いけど精度低め | 💧練習用 |
base | バランス型 | ⭐入門にピッタリ |
small | かなり高精度で軽い | 🌟ガチ運用に |
medium | 高精度だけど重い | 🚀高スペックPC向け |
large | 最強。でも重い | 🧠本気の人向け |
★★★ターミナルやコマンドプロンプトにコマンド打つの面倒くさいからメモ帳とかに書いてコピペすると楽だよ!★★★
8.知っておきたい注意点とトラブル回避法
日本語の精度が悪い?
→ モデルサイズが小さすぎるかも。small
以上を使ってみて!
エラーで止まる・文字化けする?
→ ffmpegのパスが通ってるか、音声ファイルが対応形式かを確認!
「whisperコマンドが見つからない」
→ PythonのPATHが通っていない可能性あり。再起動 or pip install
を再実行してみよう。
初心者によくある質問Q&A
Q. スマホで録音したm4aファイルも使える?
A. もちろんOK!Whisperはmp3, m4a, wavなど多くの形式に対応してます!
Q. 文字化けしたときどうすれば?
A. --language Japanese
を忘れてるかも!明示するとかなり改善されるよ。
Q. 英語の音声もいける?
A. いけます!自動判別もしてくれるけど、英語がメインなら --language English
を指定すると正確性UP!
9.便利な応用ワザ:こんなこともできる!
YouTube動画の文字起こし
- 動画をmp3やwavに変換(例:4K Video Downloaderなど)
- Whisperで文字起こし
--output_format srt
で字幕ファイル生成 → YouTubeにアップ!
会議議事録を自動化!
- Zoomなどで録音したファイルを保存
- Whisperで文字に変換
- テキストをNotionやWordに貼るだけ!
→ もう「議事録係」で疲弊しない
10.まとめ
Whisperは一見ハードルが高そうに見えるけど、
一度使えるようになれば「一生モノの自動文字起こしスキル」になること間違いなし!
何かわからないところがあれば、この記事をブックマークしていつでも戻ってきてね!
あなたも今日から「音声→テキスト職人」の仲間入り
どうしてもできない方はこちらのAIを使った攻略法を参考に!この方法なら初心者でも簡単!私が出来たのだから、あなたも出来る!
文字起こしを爆速にする方法と生成ファイル、モデルについても書いてあるよ↓