AOKI's copy&paste archive

高専から駅弁大学から東工大を経て大企業へ 浅く広い趣味とかキャリアの日記を

YouTubeのAPI/Python解析の試行

www.youtube.com

上記でライブチャットの価値は同様の感想をもったので,抽出してまとめることでコンテンツ化できないか試してみた.

結果的には無理だった.

 

参考にしたものは以下.

バーチャルYoutuberの配信アーカイブからコメントとスパチャを取得する方法(Python)|おあ|note

youtube_chat_crawler/YoutubeChatReplayCrawler.py at master · geerlingguy/youtube_chat_crawler · GitHub

Python - YouTube Liveのアーカイブからチャットを取得するコードを模写したが上手くいかない @Python|teratail

Python - PythonでYouTube Liveのアーカイブからチャットを取得したいけれどうまくいかない|teratail

上記のものを参考にして普段使わないモジュールも多かったのでインストールして試してみたがうまくいかなかった.

 

脱線だが,Githubってやっぱすごいなと思う.これを作れれば確かに一人前のプログラマーだろう.また今回のモジュールはインターネット関連?で全く使わない分野なので,ソースを見てもどういう構造なのかほとんど分からなかった.

 

さらに調べると以下のような記述も.

 

そもそもYouTube利用規約に違反しています。

利用規約 - YouTube

本サービスの利用には制限があり、以下の行為が禁止されています。

3. 自動化された手段(ロボット、ボットネット、スクレーパなど)を使用して本サービスにアクセスすること。ただし、(a)公開されている検索エンジンを YouTube の robots.txt ファイルに従って使用する場合、または(b)YouTube が事前に書面で許可している場合を除きます。

Googleはほとんどのサービスについてスクレイピングを禁止する代わりにAPIを用意しています。下記のYouTube Live Streaming APIを使用してください。

YouTube Live Streaming API Overview  |  Google Developers

なお、時間や日あたりのAPI呼び出し回数には制限がありますが、一般的な使用では十分な数のはずです。

投稿 

raccy

score 20327

 

Python - python で YouTubeLive のコメントが取得できなくなった|teratail

上述のGithubなどで修正などは見られないし,真偽やその適応は不明だが黒よりのグレーくさい.これの本質的対策が取られた可能性もありそうだ.Googleの力ならばありえる.

そのためTeratailでの質問も控えることとした.

 

個人的には外部でも見ることができるので権利的な問題は薄そうではあるが,こうした読み込みがDDosのような影響に繋がることを考えれば納得できるところでもある.

動画の投稿者はAPIで別途収集する手段もあるらしいので,権利者のみに許されると言えそうだ.

 

ライブ中であればやりようもありそうだが,タイミングが限られるし微妙な印象だ.

YouTube Live チャット欄をAPIでリアルタイム取得 - Qiita

 

方向性としてはこれらで得られたテキストデータをベースにword cloudやその他のクラスター分析をかけてみることが面白そうに感じた.

Word Cloudでツイートを可視化してみた(python) - Qiita

例えば上記の千莉さんなら専門用語が並びそうだし,他のVやエンタメ系は特有の口上が台頭しそうだし,草や海外ニキの程度に違いも見られそうで興味深い.

 

さらに前回の記事で示したライブアーカイブの高付加価値化というテーマでは以下のようなテクニックも使えそうだ.

pytho.hatenablog.com

YouTube Liveの生放送から盛り上がった箇所を自動抽出するCLIを作った話 - Qiita

スキルや人脈があれば,こうしたものから拡張機能やソフトウェア・サービスを作ってビジネスにできそうな気もする.

 

蛇足