YOLO26の紹介: 次世代のビジョンAI。
Ultralytics
イベント

Hugging Faceのオープンソースツールを活用したCVプロジェクトの強化

YOLO Vision 2024の基調講演から、Hugging FaceのオープンソースツールがどのようにAI開発を促進しているかを探るセッションを振り返ります。

ABAbirami Vina
5 min read
Hugging FaceのオープンソースツールによるCVプロジェクトの推進

効果的なコンピュータビジョンソリューションを構築するには、適切なアルゴリズムの選択が不可欠です。AIエンジニアは、大規模なデータセットの取り扱いや、特定のタスクに向けたモデルのファインチューニング、そして実環境でのパフォーマンス向上のためのAIシステム最適化に日々取り組んでいます。AIアプリケーションの導入が急速に進む中、これらのプロセスを簡素化するツールの必要性も高まっています。

Ultralyticsが主催する年次ハイブリッドイベントYOLO Vision 2024 (YV24)では、AIの専門家や技術愛好家が一堂に会し、コンピュータビジョンの最新イノベーションを探求しました。このイベントでは、AIアプリケーション開発を加速させる方法など、さまざまなトピックについて議論が交わされました。

イベントのハイライトの1つとして、モデルのトレーニング、最適化、デプロイメントを効率化するオープンソースAIプラットフォーム、Hugging Faceに関する基調講演が行われました。Hugging FaceのMachine Learning EngineerであるPavel Iakubovskii氏は、同社のツールが、画像内の物体検出、画像をグループごとに分類する画像分類、特定の例で事前トレーニングを行わずに予測を行うゼロショット学習といった、コンピュータビジョンのタスクのワークフローをどのように改善するかについて解説しました。

Hugging Face Hubでは、Ultralytics YOLO11などのさまざまなAIやコンピュータビジョンモデルがホストされており、アクセス可能です。この記事では、Pavel氏の講演の重要なポイントをまとめ、開発者がHugging Faceのオープンソースツールを活用してAIモデルを迅速に構築・デプロイする方法を紹介します。

YV24のステージ上のPavel

図1:YV24のステージに立つPavel氏。

Link to this sectionAI開発を加速させるHugging Face Hub#

Pavel氏は講演の冒頭で、Hugging Faceを、多様なアプリケーションに対応する事前学習済みモデルを提供するオープンソースAIプラットフォームとして紹介しました。これらのモデルは、自然言語処理(NLP)、コンピュータビジョン、マルチモーダルAIなど、AIのさまざまな分野向けに設計されており、テキスト、画像、音声といった異なる種類のデータを処理することを可能にします。

Pavel氏によれば、Hugging Face Hubではすでに100万以上のモデルがホストされており、開発者は自身のプロジェクトに適したモデルを簡単に見つけることができます。Hugging Faceは、モデルのトレーニング、ファインチューニング、デプロイのためのツールを提供することで、AI開発の簡素化を目指しています。開発者がさまざまなモデルを試すことができれば、AIを実世界のアプリケーションに統合するプロセスはより単純なものになります。

Hugging Faceは当初NLPで知られていましたが、現在ではコンピュータビジョンやマルチモーダルAIにも拡大しており、開発者はより幅広いAIタスクに取り組めるようになりました。また、フォーラムやDiscord、GitHubを通じて開発者が協力し、知見を共有し、サポートを得られる強力なコミュニティも存在します。

Link to this sectionコンピュータビジョンアプリケーション向けのHugging Faceモデルを探求する#

さらに詳細な説明として、Pavel氏はHugging Faceのツールがどのようにコンピュータビジョンアプリケーションの構築を容易にするかを説明しました。開発者は、画像分類、物体検出、ビジョン・言語アプリケーションなどのタスクにこれらを利用できます。

また、同氏は、これらのコンピュータビジョンタスクの多くがHugging Face Hubで入手可能な事前学習済みモデルで処理できることを指摘し、ゼロからトレーニングする必要性を減らすことで時間を節約できると述べました。実際、Hugging Faceは食品分類、ペット分類、感情認識用など、画像分類タスク向けに13,000以上の事前学習済みモデルを提供しています。

これらのモデルのアクセシビリティを強調し、同氏は「おそらく、プロジェクトのために自分でモデルをトレーニングする必要はないでしょう。コミュニティの誰かがすでにトレーニングしたモデルをHubで見つけられるはずです」と述べました。

Link to this section物体検出のためのHugging Faceモデル#

別の例として、Pavel氏は、画像内の物体を識別および特定するために使用されるコンピュータビジョンの重要な機能である物体検出において、Hugging Faceがどのように役立つかを詳しく説明しました。ラベル付きデータが限られている場合でも、Hugging Face Hubで入手できる事前学習済みモデルを使用することで、物体検出をより効率的に行えます。

また、彼はHugging Faceで見つけることができる、このタスク向けに構築されたいくつかのモデルの概要を簡潔に紹介しました:

  • リアルタイム物体検出モデル: 速度が重要となる動的な環境向けに、Detection Transformer (DETR) などのモデルはリアルタイムの物体検出機能を提供します。DETRはCOCOデータセットでトレーニングされており、マルチスケールの特徴を効率的に処理するように設計されているため、時間に敏感なアプリケーションに適しています。
  • ビジョン・言語モデル:これらのモデルは画像処理とテキスト処理を組み合わせ、AIシステムが画像と説明を照合したり、トレーニングデータに存在しない物体を認識したりすることを可能にします。例としてCLIPやSigLIPがあり、これらはテキストと視覚情報を関連付けることで画像検索を改善し、AIソリューションが文脈を理解することで新しい物体を識別できるようにします。
  • ゼロショット物体検出モデル:これらは画像とテキストの関係を理解することで、これまで見たことのない物体を識別できます。例としてOwlVit、GroundingDINO、OmDetがあり、これらはゼロショット学習を使用して、ラベル付きのトレーニングデータなしで新しい物体を検出します。

Link to this sectionHugging Faceモデルの使用方法#

次にPavel氏は、Hugging Faceモデルを実際に活用する方法に焦点を移し、開発者がそれらを利用する3つの方法(モデルの探索、迅速なテスト、およびさらなるカスタマイズ)について説明しました。

彼は、開発者がコードを書かずにHugging Face Hubで直接モデルを閲覧し、インタラクティブなインターフェースを通じて簡単にモデルを即座にテストできる方法を実演しました。「コードを1行も書かずに、あるいはコンピュータにモデルをダウンロードせずに試すことができます」とPavel氏は付け加えました。一部のモデルはサイズが大きいため、Hub上で実行することで、ストレージや処理の制限を回避できます。

Hugging Faceモデルの使用方法

図2:Hugging Faceモデルの使用方法。

また、Hugging Face Inference APIを使用すると、開発者は単純なAPI呼び出しでAIモデルを実行できます。これは、複雑なセットアップを必要とせず、迅速なテストや概念実証(PoC)プロジェクト、プロトタイピングに最適です。

より高度なユースケースでは、開発者は、PyTorchとTensorFlowの両方をサポートしながらテキスト、視覚、音声タスク用の事前学習済みモデルを提供するオープンソースツール、Hugging Face Transformersフレームワークを使用できます。Pavel氏は、わずか2行のコードでHugging Face Hubからモデルを取得し、画像プロセッサなどの前処理ツールとリンクさせて、Vision AIアプリケーションのために画像データを分析できると説明しました。

Link to this sectionHugging FaceでAIワークフローを最適化する#

次に、Pavel氏はHugging FaceがどのようにAIワークフローを効率化できるかを説明しました。彼が取り上げた重要なトピックの1つは、ディープラーニングモデルの中核機能であり、入力データの中で最も関連性の高い部分に焦点を当てるのに役立つ、Transformersにおけるアテンションメカニズムの最適化です。これは言語処理やコンピュータビジョンのタスクにおける精度を向上させますが、リソースを大量に消費する可能性があります。

アテンションメカニズムを最適化することで、速度を向上させながらメモリ使用量を大幅に削減できます。Pavel氏は「例えば、より効率的なアテンションの実装に切り替えることで、最大1.8倍のパフォーマンス向上が見込めます」と指摘しました。

Hugging Faceは、Transformersフレームワーク内でより効率的なアテンション実装のサポートを組み込んでいます。開発者は、モデルの読み込み時に代替のアテンション実装を指定するだけで、これらの最適化を有効にできます。

Link to this sectionOptimumとTorch Compile#

また、彼は量子化についても触れました。これは、パフォーマンスに大きな影響を与えることなく、モデルが使用する数値の精度を低下させることで、AIモデルを軽量化する手法です。これによりモデルのメモリ使用量が減り、実行速度が向上するため、スマートフォンや組み込みシステムのような処理能力が限られたデバイスに適したモデルになります。

効率性をさらに向上させるため、Pavel氏はモデルの最適化とデプロイ専用のツールセットであるHugging Face Optimumライブラリを紹介しました。わずか数行のコードで、開発者は量子化手法を適用し、モデルをONNX (Open Neural Network Exchange)のような効率的なフォーマットに変換できるため、クラウドサーバーやエッジデバイスなど、さまざまなハードウェア上でスムーズに実行できるようになります。

Optimumライブラリとその機能について語るPavel

図3:Optimumライブラリとその機能について語るPavel氏。

最後に、Pavel氏は、AIモデルがデータを処理する方法を最適化し、より高速かつ効率的に実行できるようにするPyTorchの機能、Torch Compileの利点について触れました。Hugging FaceはTransformersおよびOptimumライブラリにTorch Compileを統合しており、開発者は最小限のコード変更でこれらのパフォーマンス向上を享受できます。

モデルの計算構造を最適化することで、Torch Compileは推論時間を短縮し、精度や品質を損なうことなくフレームレートを29から150fpsへと向上させることが可能です。

Link to this sectionHugging Faceツールを使用したモデルのデプロイ#

次にPavel氏は、適切なモデルを選択し、開発に最適なアプローチを選択した後、開発者がHugging Faceツールを使用してVision AIモデルを拡張およびデプロイする方法について簡単に触れました。

例えば、開発者はGradioやStreamlitを使用してインタラクティブなAIアプリケーションをデプロイできます。Gradioは機械学習モデル用のWebベースのインターフェースを構築でき、StreamlitはシンプルなPythonスクリプトを使用してインタラクティブなデータアプリケーションを構築するのに役立ちます。

Pavel氏は「すべてをゼロから書く必要はありません」と指摘し、Hugging Faceが提供するガイド、トレーニングノートブック、サンプルスクリプトに言及しました。これらのリソースは、開発者が最初からすべてを構築することなく、迅速に開発を開始するのに役立ちます。

YV24でHugging Faceの機能について議論するPavel

図4:YV24でHugging Faceの機能について議論するPavel氏。

Link to this sectionHugging Face Hubの利点#

基調講演の締めくくりとして、Pavel氏はHugging Face Hubを利用する利点をまとめました。同氏は、モデル管理とコラボレーションがどのように簡素化されるかを強調しました。また、初心者から専門家まで、AIモデルの理解と実装に役立つガイドやノートブック、チュートリアルが利用可能であることにも注目を集めました。

「Hubにはすでに素晴らしいスペースがたくさんあります。似たようなものを探し、共有されたコードをクローンし、数行修正して、モデルを自分自身のものに置き換え、再度プッシュすることができます」と彼は説明し、プラットフォームの柔軟性を活用するよう開発者に推奨しました。

Link to this section重要なポイント#

YV24での講演中、Pavel氏はHugging FaceがAIモデルのトレーニング、最適化、デプロイをサポートするツールをどのように提供しているかについて共有しました。例えば、Transformers、Optimum、Torch Compileといったイノベーションは、開発者がモデルのパフォーマンスを向上させるのに役立ちます。

AIモデルの効率化が進む中、量子化とエッジデプロイメントの進歩により、リソースが限られたデバイス上での実行が容易になっています。これらの改善は、Hugging FaceやUltralytics YOLO11のような高度なコンピュータビジョンモデルといったツールと組み合わさることで、スケーラブルで高性能なVision AIアプリケーションを構築するための鍵となります。

成長を続ける私たちのコミュニティに参加しましょう!GitHubリポジトリを探索してAIについて学び、YOLOライセンスをチェックしてVision AIプロジェクトを始めましょう。ヘルスケアにおけるコンピュータビジョン農業におけるコンピュータビジョンのようなイノベーションに興味がありますか?ソリューションページにアクセスして詳細をご覧ください!

Explore solutions

Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら
Real-time AI that works with your team

ロボティクスにおけるAI

Ultralytics YOLOモデルで、よりスマートなマシンを実現しましょう。ロボティクスにおけるビジョンAIは、自律航行、認識、物体追跡、リアルタイム制御を推進します。

詳細はこちら
Real-time AI that works with your team

物流におけるAI

Ultralytics YOLOモデルで物流を効率化しましょう。ビジョンAIにより、荷物の検査、仕分け、車両追跡、リアルタイムの倉庫安全モニタリングが可能になります。

詳細はこちら
Real-time AI that works with your team

小売業界におけるAI

Ultralytics YOLOモデルで小売を再定義しましょう。ビジョンAIは、在庫追跡、棚のモニタリング、キュー管理、そしてより賢明な顧客インサイトを促進します。

詳細はこちら
Real-time AI that works with your team

ヘルスケアにおけるAI

Ultralytics YOLOモデルを使用してヘルスケアソリューションを構築しましょう。ヘルスケア分野におけるビジョンAIは、より高速な医療画像診断、よりスマートな診断、患者モニタリングを推進します。

詳細はこちら
Real-time AI that works with your team

製造におけるAI

Ultralytics YOLOモデルで製造を最適化しましょう。ビジョンAIは、品質管理、欠陥検出、PPEコンプライアンス、組立ラインの自動化を促進します。

詳細はこちら
Real-time AI that works with your operation

自動車におけるAI

Ultralytics YOLOモデルを使用して、自動車分野にコンピュータビジョンを適用しましょう。ビジョンAIは、道路の安全性、運転支援、車両の自動化を向上させ、よりスマートな道路を実現します。

詳細はこちら
Real-time AI tailored to your operation

農業におけるAI

Ultralytics YOLOモデルを使用して、スマート農業にビジョンAIを導入しましょう。作物モニタリング、家畜のトラッキング、精密農業を強化し、より高くスマートな収穫を実現します。

詳細はこちら

AIの未来を共に築き上げましょう!

機械学習の未来とともに旅を始めましょう