【No.L019】動画をテキストに変換!YouTube動画からの文字起こし方法とビジネス活用ガイド

はじめに

最近有益な動画コンテンツが増えてきているが、今回はそんな動画ファイル(Youtube等)から文字起こしをする技術を公開。文字起こしとは、動画や音声ファイル中のセリフをテキストに落とすことで、これができるようになると色々と便利なことがある。以下に簡単な文字起こしの活用事例を紹介。

  • みたい動画の中身をテキスト形式で把握することができる
  • 海外の字幕なし動画の中身を理解できる
  • 【ビジネス】社長メッセージ、経営方針などの長尺動画を要約することができる

いずれも文字起こしを行った後に、ChatGPT/Gemini等に「その内容を日本語で要約して欲しい」と打てば簡単に動画をサマライズ可能。早速、その手法について解説していく。

★関連リンク
業務で活用できるAI技集のまとめはこちら

事例紹介

Youtubeの動画をダウンロードする

まず最初にYoutubeから動画をダウンロードする。Webで変換してくれるサービスも存在するが、今回はPythonで取得する方法を紹介。

まずは必要なライブラリをインストールする。その後、入手したいYouTube動画のURLを入力して実行する。するとPythonを実行したファイルと同階層にmp4ファイルを作成することができる。※当コードを利用する場合はYoutubeの利用規約・著作権に関する部分を十分配慮すること

pip install pytube
from pytube import YouTube

# ダウンロードしたいYouTube動画のURL
url = "https://www.youtube.com/watch?v=xxxxxxxxxxxxxxxxxxxxxxxxxxx"

# YouTubeオブジェクトを作成
yt = YouTube(url)

# 最初のストリーム(最高品質)を選択してダウンロード
stream = yt.streams.get_highest_resolution()

# 動画をダウンロードする
stream.download()

[任意] 動画を音声に変換する

この後のステップとして上記のコードで出力した動画ファイルをGeminiに入力して文字起こしをするのだが、もし上手くいかない場合は経験上、動画ファイルではなく音声ファイルをGeminiに入力すると成功率が高くなる可能性がある。まずはmoviepyをインストールし変換するためのコード(以下)を実行すると動画ファイルと同じ階層に音声ファイルが出力される。

pip install moviepy
from moviepy.editor import AudioFileClip

# MoviePyを使用して音声部分を抽出し、MP3として保存
audio_clip = AudioFileClip("動画ファイル名(.mp4)")
audio_clip.write_audiofile("音声ファイル名(.mp3)")

Geminiを使って文字起こしを行う

まずはGemini Advancedに登録をする。有料サービスだが2024.5.25時点では2か月間無料(要Googleアカウント)。その後、Google AI Studioを開き手続きを進めていくと以下のような画面が出てくるので、右側のModelの選択でGemini 1.5 Proを選択する。

図1.Google AI Stidio起動画面

その後、画面下のほうのUpload to DriveをつかってデータをGeminiにアップロードする。

図2.動画(音声)アップロード画面

その後、以下のようなプロンプトを実行することで動画(音声)ファイルの文字起こしをすることができる。うまくいかない場合は「一言一句文字起こしして」などプロンプト側で上手く調整すると成功する確率が上がる。

このファイルを文字起こしして欲しい
【参考】Google AI Studio
Google Cloud Platform(GCP)上で提供される機械学習(ML)および人工知能(AI)開発のための統合プラットフォームのこと。今回の動画(音声)アップロードは、Gemini Advancedからアクセスすると「サポートされていないファイル形式」といわれて実行できない点に要注意。※以下がGemini Advancedの画面。こちらでは今回の記事内容は実行できないので必ずGoogle AI Studio上で実施すること。

Gladiaを使って文字起こしを行う

Gladiaというサービス(2024.6.7時点で無料)を使うことで高性能な文字起こしを実現することが可能。利用に際してユーザ登録が必要だが、Googleアカウントがあれば代用することができる。文字起こしできるものは音声/動画ファイルの他、URL入力にも対応しているので、実はYoutubeを文字起こししたければここで対象URLを入力するだけで簡単に実現可能。

図3.Gladiaのログイン後画面(Playground)

出力結果は以下のとおり。音声と文字をリンクして表示してくれるのでかなり見やすいのでお勧め。ちなみに今回は1時間20分程度の音声ファイルを約10分弱でテキスト化することができた。


図4.出力画面

コメント