AIがPCを操作する時代へ - Claude 3.5の新機能と性能向上を解説
2024年10月23日、AnthropicはClaude 3.5の大規模なアップデートを発表しました。
このアップデートでは、Claude 3.5 Sonnetの性能が大幅に向上し、新モデル「Claude 3.5 Haiku」が追加。さらに新機能「Computer Use」が導入されました。
Claude 3.5 Sonnetの主な改善点:
コーディング能力の大幅な向上(SWE-benchで49.0%を達成)
ツール使用能力の進化(TAU-benchで最大69.2%を達成)
処理速度と価格の維持(従来と同じ価格帯で提供)
新モデル「Claude 3.5 Haiku」は、Claude 3 Opusと同等以上の性能を維持しながら、より高速で低コストな処理を実現します。
特にコーディングタスクでは、SWE-bench Verifiedで40.6%というスコアを達成しています。
最も注目すべき新機能「Computer Use」は、AIがコンピュータを人間のように操作できる画期的な機能です。
APIを通じて利用可能で、マウス操作やキーボード入力、画面認識などの基本的なコンピュータ操作を実現します。
本記事では、Claude 3.5の性能向上の詳細、新モデルHaikuの特徴、そして後半でComputer Use機能の使い方などについて解説します。
Claude 3.5 Sonnetの性能向上
性能改善の概要
今回のアップデートで、Claude 3.5 Sonnetは全体的な性能を維持しながら、特定の分野で大きく性能を上げています。
最も顕著な向上が見られたのは、ソフトウェアエンジニアリングとツール使用の分野です:
コーディング能力(SWE-bench Verified)が33.4%から49.0%に向上
ツール使用能力(TAU-bench)が小売分野で62.6%から69.2%に、航空分野で36.0%から46.0%に改善
これらの改善は、従来の処理速度と価格を維持したまま実現されています。
ベンチマーク結果の詳細解説
主要なベンチマークでの性能を見ていきましょう:
基礎的な理解力と推論
大学院レベルの推論(GPQA): 65.0%
学部レベルの知識(MMLU Pro): 78.0%
コード理解(HumanEval): 93.7%
数学・問題解決能力
数学問題解決(MATH): 78.3%
高校数学コンペ(AIME 2024): 16.0%
視覚的理解力
視覚的質問応答(MMMU): 70.4%
これらの結果は、GPT-4o、Gemini 1.5 Pro、GPT-4o miniといった競合モデルと比較しても優位性を示しています。
実際のユーザーフィードバック
企業での実践的な使用でも、性能向上が確認されています:
GitLabでは、DevSecOpsタスクにおいて最大10%の精度向上を報告
Cognitionでは、コーディング、計画立案、問題解決において大幅な改善を確認
The Browser Companyは、Webベースのワークフロー自動化において、これまでテストした全モデルの中で最高のパフォーマンスを報告
これらの改善は、特に複雑な開発タスクや多段階の問題解決において、より効率的な作業を可能にしています。
新モデル「Claude 3.5 Haiku」
Haikuの特徴
Claude 3.5 Haikuは、高速処理と効率性を重視した新しいモデルです。
Claude 3 Haikuと同等の速度とコストを維持しながら、以下の性能向上を実現しています:
主な性能指標:
コーディング(SWE-bench Verified): 40.6%
大学院レベルの推論(GPQA): 41.6%
学部レベルの知識(MMLU Pro): 65.0%
数学問題解決(MATH): 69.4%
特筆すべき点として、多くの評価指標でClaude 3 Opus(前世代の最上位モデル)を上回る性能を示しています。
Sonnetとの比較
Claude 3.5 HaikuとSonnetの使い分けについて、具体的な特徴を比較します:
Haikuの優位点
低レイテンシー
より正確な指示の理解
ツール使用の精度向上
大量データの高速処理
最適な用途
ユーザー向け製品の開発
特定タスクに特化したサブエージェント
大量の購買履歴、価格、在庫データの分析
リアルタイム性が求められる処理
提供形態
今月後半より以下のプラットフォームで提供開始
Anthropic API
Amazon Bedrock
Google Cloud Vertex AI
初期はテキストのみの対応で、画像入力は後日追加予定
Haikuは、Sonnetの高度な機能を必要としない日常的なタスクや、速度が重視されるアプリケーションに最適です。