ヨロビジョン深圳
深セン
今すぐ参加

Hugging FaceのオープンソースツールでCVプロジェクトを強化

Abirami Vina

5分で読めます

2025年2月11日

Hugging FaceのオープンソースツールがAI開発をどのように進歩させているかを探求することに焦点を当てた、YOLO Vision 2024からの基調講演を再訪します。

適切なアルゴリズムを選択することは、影響力のあるコンピュータビジョンソリューションを構築する上でのほんの一部にすぎません。AIエンジニアは、多くの場合、大規模なデータセットを扱い、特定のタスクに合わせてモデルを微調整し、実世界のパフォーマンスに合わせてAIシステムを最適化します。AIアプリケーションの採用が急速に進むにつれて、これらのプロセスを簡素化するツールの必要性も高まっています。

Ultralyticsが主催する年次ハイブリッドイベントであるYOLO Vision 2024(YV24)では、AIの専門家と技術愛好家が集まり、コンピュータビジョンの最新のイノベーションを探求しました。このイベントでは、AIアプリケーション開発を加速する方法など、さまざまなトピックに関する議論が活発に行われました。

イベントの重要なハイライトは、モデルのトレーニング、最適化、およびデプロイメントを効率化するオープンソースのAIプラットフォームであるHugging Faceに関する基調講演でした。Pavel Lakubovskii氏は、Hugging Faceの機械学習エンジニアであり、画像内のオブジェクトの検出、画像を異なるグループへの分類、特定の例に関する事前トレーニングなしで予測を行う(ゼロショット学習)など、コンピュータビジョンタスクのワークフローを改善する方法を共有しました。

Hugging Face Hubは、Ultralytics YOLO11のようなさまざまなAIおよびコンピュータビジョンモデルをホストし、アクセスを提供します。この記事では、Pavel氏の講演からの重要なポイントをまとめ、開発者がHugging Faceのオープンソースツールを使用してAIモデルを迅速に構築およびデプロイする方法を見ていきます。

図1. YV24でのPavel氏のステージ。

Hugging Face Hubは、より迅速なAI開発をサポートします

Pavel氏は、Hugging Faceをさまざまなアプリケーション向けの事前トレーニング済みモデルを提供するオープンソースのAIプラットフォームとして紹介することから講演を始めました。これらのモデルは、自然言語処理(NLP)、コンピュータビジョン、マルチモーダルAIなどのAIのさまざまな分野向けに設計されており、システムはテキスト、画像、オーディオなどのさまざまな種類のデータを処理できます。

Pavel氏によると、Hugging Face Hubは現在100万を超えるモデルをホストしており、開発者は特定のプロジェクトに適したモデルを簡単に見つけることができます。Hugging Faceは、モデルのトレーニング、微調整、およびデプロイメントのためのツールを提供することにより、AI開発を簡素化することを目指しています。開発者がさまざまなモデルを試すことができると、AIを実際のアプリケーションに統合するプロセスが簡素化されます。

Hugging Faceは当初NLPで知られていましたが、その後コンピュータビジョンとマルチモーダルAIに拡張し、開発者はより広範なAIタスクに取り組むことができるようになりました。また、開発者がフォーラム、Discord、GitHubを通じて共同作業を行い、洞察を共有し、サポートを受けることができる強力なコミュニティもあります。

コンピュータビジョンアプリケーション向けのHugging Faceモデルの探索

さらに詳しく説明すると、Pavel氏は、Hugging Faceのツールがコンピュータビジョンアプリケーションの構築をどのように容易にするかを説明しました。開発者は、画像分類、物体検出、ビジョン-言語アプリケーションなどのタスクにそれらを使用できます。

彼はまた、これらのコンピュータビジョンタスクの多くは、Hugging Face Hubで利用可能な事前トレーニング済みモデルで処理できるため、ゼロからトレーニングする必要性を減らすことで時間を節約できると指摘しました。実際、Hugging Faceは、食品分類、ペット分類、感情検出などの画像分類タスク用に13,000を超える事前トレーニング済みモデルを提供しています。

これらのモデルのアクセシビリティを強調して、彼は次のように述べています。「おそらく、プロジェクトのためにモデルをトレーニングする必要さえありません。コミュニティの誰かがすでにトレーニングしたモデルをHubで見つけることができるかもしれません。」 

物体検出のためのHugging Faceモデル 

別の例として、Pavel氏は、Hugging Faceが物体検出にどのように役立つかを詳しく説明しました。物体検出は、画像内の物体を識別して特定するために使用されるコンピュータビジョンの重要な機能です。ラベル付きデータが限られている場合でも、Hugging Face Hubで利用可能な事前トレーニング済みモデルを使用すると、物体検出をより効率的に行うことができます。 

彼はまた、Hugging Faceで見つけることができるこのタスク用に構築されたいくつかのモデルの簡単な概要を説明しました。

  • リアルタイム物体検出モデル:速度が重要な動的環境の場合、Detection Transformer(DETR)のようなモデルは、リアルタイムの物体検出機能を提供します。DETRはCOCOデータセットでトレーニングされており、マルチスケール機能を効率的に処理するように設計されているため、時間に敏感なアプリケーションに適しています。
  • ビジョン-言語モデル:これらのモデルは、画像とテキストの処理を組み合わせることで、AIシステムが画像を説明と一致させたり、トレーニングデータを超えてオブジェクトを認識したりすることを可能にします。例としては、テキストをビジュアルにリンクして画像検索を改善し、AIソリューションがコンテキストを理解することで新しいオブジェクトを識別できるようにするCLIPおよびSigLIPなどがあります。
  • ゼロショット物体検出モデル:画像とテキストの関係を理解することで、以前に見たことのないオブジェクトを識別できます。例としては、ラベル付きトレーニングデータを必要とせずにゼロショット学習を使用して新しいオブジェクトを検出するOwlVit、GroundingDINO、OmDetなどがあります。

Hugging Faceモデルの使用方法

次に、Pavel氏は、Hugging Faceモデルを実際に使用することに焦点を移し、開発者がそれらを活用できる3つの方法(モデルの探索、迅速なテスト、およびさらにカスタマイズ)について説明しました。

彼は、開発者がコードを記述せずにHugging Face Hubでモデルを直接参照し、インタラクティブなインターフェイスを通じてモデルを即座にテストする方法を実演しました。「コードを1行も記述したり、モデルをコンピューターにダウンロードしたりせずに試すことができます」とPavel氏は付け加えました。一部のモデルはサイズが大きいため、Hubで実行すると、ストレージと処理の制限を回避できます。

図2. Hugging Faceモデルの使用方法

また、Hugging Face Inference APIを使用すると、開発者は簡単なAPI呼び出しでAIモデルを実行できます。複雑なセットアップを必要とせずに、迅速なテスト、概念実証プロジェクト、および迅速なプロトタイピングに最適です。

より高度なユースケースでは、開発者はHugging Face Transformersフレームワークを使用できます。これは、テキスト、画像、および音声タスク用の事前トレーニング済みモデルを提供するオープンソースツールであり、PyTorchとTensorFlowの両方をサポートしています。Pavel氏の説明によると、開発者はわずか2行のコードで、Hugging Face Hubからモデルを取得し、画像プロセッサなどの前処理ツールにリンクして、Vision AIアプリケーションの画像データを分析できます。

Hugging FaceによるAIワークフローの最適化

次に、Pavel氏はHugging FaceがAIワークフローをどのように効率化できるかを説明しました。彼が取り上げた重要なトピックの1つは、Transformerの注意機構の最適化でした。これは、入力データの中で最も関連性の高い部分に焦点を当てるのに役立つ深層学習モデルの中核機能です。これにより、言語処理やコンピュータビジョンに関連するタスクの精度が向上します。ただし、リソースを大量に消費する可能性があります。

注意機構を最適化すると、メモリ使用量を大幅に削減しながら、速度を向上させることができます。Pavel氏は、「たとえば、より効率的な注意機構の実装に切り替えることで、最大1.8倍のパフォーマンス向上が見込めます」と指摘しました。

Hugging Faceは、Transformersフレームワーク内で、より効率的な注意機構の実装を組み込みでサポートしています。開発者は、モデルのロード時に代替の注意機構の実装を指定するだけで、これらの最適化を有効にできます。

OptimumとTorch Compile

彼はまた、量子化についても話しました。量子化とは、パフォーマンスに大きな影響を与えることなく、AIモデルが使用する数値の精度を下げることで、モデルを小さくする手法です。これにより、モデルのメモリ使用量が減り、実行速度が向上するため、スマートフォンや組み込みシステムなど、処理能力が限られたデバイスに適しています。

効率をさらに向上させるために、Pavel氏はHugging Face Optimumライブラリを紹介しました。これは、モデルを最適化およびデプロイするために設計されたツールセットです。開発者は、わずか数行のコードで、量子化技術を適用し、モデルをONNX(Open Neural Network Exchange)のような効率的な形式に変換できます。これにより、クラウドサーバーやエッジデバイスなど、さまざまな種類のハードウェア上でスムーズに実行できます。

図3. Pavel氏がOptimumライブラリとその機能について講演しました。

最後に、Pavel氏はTorch Compileの利点について言及しました。Torch Compileは、AIモデルがデータを処理する方法を最適化し、実行速度と効率を向上させるPyTorchの機能です。Hugging Faceは、TransformersおよびOptimumライブラリ内でTorch Compileを統合しており、開発者は最小限のコード変更でこれらのパフォーマンス向上を活用できます。 

モデルの計算構造を最適化することにより、Torch Compileは、精度や品質を損なうことなく、推論時間を短縮し、フレームレートを29フレーム/秒から150フレーム/秒に向上させることができます。

Hugging Faceツールを使用したモデルのデプロイ

次に、Pavel氏は、適切なモデルを選択し、開発に最適なアプローチを選択した後、Hugging Faceツールを使用してVision AIモデルを拡張およびデプロイする方法について簡単に触れました。

たとえば、開発者はGradioとStreamlitを使用して、インタラクティブなAIアプリケーションをデプロイできます。Gradioを使用すると、開発者は機械学習モデル用のWebベースのインターフェイスを作成でき、Streamlitは、簡単なPythonスクリプトでインタラクティブなデータアプリケーションを構築するのに役立ちます。 

Pavel氏はまた、Hugging Faceが提供するガイド、トレーニングノート、サンプルスクリプトに触れ、「すべてをゼロから書き始める必要はありません」と指摘しました。これらのリソースは、開発者がすべてを最初から構築しなくても、迅速に開始できるように支援します。

図4. YV24でHugging Faceの機能について議論するPavel氏。

Hugging Face Hubの利点 

Pavel氏は基調講演のまとめとして、Hugging Face Hubを使用する利点を要約しました。彼は、モデル管理とコラボレーションをいかに簡素化するかを強調しました。また、初心者と専門家の両方がAIモデルを理解し、実装するのに役立つガイド、ノート、チュートリアルの利用可能性にも注意を促しました。

「Hubにはすでに多くのクールなスペースがあります。類似のものを見つけ、共有コードをクローンし、数行修正し、モデルを自分のものと置き換え、それをプッシュバックすることができます」と彼は説明し、開発者にプラットフォームの柔軟性を活用するように促しました。

主なポイント 

YV24での講演中、Pavel氏は、Hugging FaceがAIモデルのトレーニング、最適化、デプロイをサポートするツールをどのように提供しているかを共有しました。たとえば、Transformers、Optimum、Torch Compileなどのイノベーションは、開発者がモデルのパフォーマンスを向上させるのに役立ちます。

AIモデルがより効率的になるにつれて、量子化とエッジ展開の進歩により、リソースが限られたデバイス上でAIモデルを実行することが容易になっています。これらの改善は、Hugging Faceのようなツールや、Ultralytics YOLO11のような高度なコンピュータビジョンモデルと組み合わせることで、スケーラブルで高性能なVision AIアプリケーションを構築するための鍵となります。

成長を続けるコミュニティに参加しましょう!AIについて学ぶためにGitHubリポジトリを探索し、Vision AIプロジェクトを開始するためにyoloライセンスをチェックしてください。ヘルスケアにおけるコンピュータビジョン農業におけるコンピュータビジョンのようなイノベーションに興味がありますか?ソリューションページにアクセスして、詳細をご覧ください。

AIの未来を
共に築きましょう!

未来の機械学習で、新たな一歩を踏み出しましょう。

無料ではじめる
クリップボードにコピーしました