AIがPCを操作する時代へ - Claude 3.5の新機能と性能向上を解説

ChatGPT研究所

2024年10月23日 23:26

2024年10月23日、AnthropicはClaude 3.5の大規模なアップデートを発表しました。

このアップデートでは、Claude 3.5 Sonnetの性能が大幅に向上し、新モデル「Claude 3.5 Haiku」が追加。さらに新機能「Computer Use」が導入されました。

Claude 3.5 Sonnetの主な改善点：

コーディング能力の大幅な向上（SWE-benchで49.0%を達成）
ツール使用能力の進化（TAU-benchで最大69.2%を達成）
処理速度と価格の維持（従来と同じ価格帯で提供）

新モデル「Claude 3.5 Haiku」は、Claude 3 Opusと同等以上の性能を維持しながら、より高速で低コストな処理を実現します。

特にコーディングタスクでは、SWE-bench Verifiedで40.6%というスコアを達成しています。

最も注目すべき新機能「Computer Use」は、AIがコンピュータを人間のように操作できる画期的な機能です。

APIを通じて利用可能で、マウス操作やキーボード入力、画面認識などの基本的なコンピュータ操作を実現します。

本記事では、Claude 3.5の性能向上の詳細、新モデルHaikuの特徴、そして後半でComputer Use機能の使い方などについて解説します。

https://www.anthropic.com/news/3-5-models-and-computer-use

Claude 3.5 Sonnetの性能向上

性能改善の概要

今回のアップデートで、Claude 3.5 Sonnetは全体的な性能を維持しながら、特定の分野で大きく性能を上げています。

最も顕著な向上が見られたのは、ソフトウェアエンジニアリングとツール使用の分野です：

コーディング能力（SWE-bench Verified）が33.4%から49.0%に向上
ツール使用能力（TAU-bench）が小売分野で62.6%から69.2%に、航空分野で36.0%から46.0%に改善

これらの改善は、従来の処理速度と価格を維持したまま実現されています。

ベンチマーク結果の詳細解説

主要なベンチマークでの性能を見ていきましょう：

基礎的な理解力と推論

大学院レベルの推論（GPQA）: 65.0%
学部レベルの知識（MMLU Pro）: 78.0%
コード理解（HumanEval）: 93.7%

数学・問題解決能力

数学問題解決（MATH）: 78.3%
高校数学コンペ（AIME 2024）: 16.0%

視覚的理解力

視覚的質問応答（MMMU）: 70.4%

これらの結果は、GPT-4o、Gemini 1.5 Pro、GPT-4o miniといった競合モデルと比較しても優位性を示しています。

実際のユーザーフィードバック

企業での実践的な使用でも、性能向上が確認されています：

GitLabでは、DevSecOpsタスクにおいて最大10%の精度向上を報告
Cognitionでは、コーディング、計画立案、問題解決において大幅な改善を確認
The Browser Companyは、Webベースのワークフロー自動化において、これまでテストした全モデルの中で最高のパフォーマンスを報告

これらの改善は、特に複雑な開発タスクや多段階の問題解決において、より効率的な作業を可能にしています。

新モデル「Claude 3.5 Haiku」

Haikuの特徴

Claude 3.5 Haikuは、高速処理と効率性を重視した新しいモデルです。

Claude 3 Haikuと同等の速度とコストを維持しながら、以下の性能向上を実現しています：

主な性能指標：

コーディング（SWE-bench Verified）: 40.6%
大学院レベルの推論（GPQA）: 41.6%
学部レベルの知識（MMLU Pro）: 65.0%
数学問題解決（MATH）: 69.4%

特筆すべき点として、多くの評価指標でClaude 3 Opus（前世代の最上位モデル）を上回る性能を示しています。

Sonnetとの比較

Claude 3.5 HaikuとSonnetの使い分けについて、具体的な特徴を比較します：

Haikuの優位点

低レイテンシー
より正確な指示の理解
ツール使用の精度向上
大量データの高速処理

最適な用途

ユーザー向け製品の開発
特定タスクに特化したサブエージェント
大量の購買履歴、価格、在庫データの分析
リアルタイム性が求められる処理

提供形態

今月後半より以下のプラットフォームで提供開始
- Anthropic API
- Amazon Bedrock
- Google Cloud Vertex AI
初期はテキストのみの対応で、画像入力は後日追加予定

Haikuは、Sonnetの高度な機能を必要としない日常的なタスクや、速度が重視されるアプリケーションに最適です。

Computer use機能とは？

どんな機能？何ができる？

ここから先は

3,226字 / 20画像

AGIラボ

¥2,980 / 月

300以上の過去記事から最新の記事まで全て読み放題。AGIラボはGPTs Difyなど、最前線のAI活用情報に特化したマガジン・コミュニティです。実践的なAI活用術を含む記事で得られる知見で業務の効率化、自動化から創造的なタスクまですぐに活用可能。生成AI革命の最前線をお届け。

メンバー限定コミュニティに参加できます
300以上のオリジナル過去記事へのアクセス
メンバー限定の会員証が発行されます
活動期間に応じたバッジを表示
メンバー限定掲示板を閲覧できます
メンバー特典記事を閲覧できます
メンバー特典マガジンを閲覧できます

このメンバーシップの詳細

ログイン

この記事が参加している募集

#AIとやってみた

47,844件

ChatGPT全機能まとめ記事を受け取る

LINE登録でChatGPTの全機能をまとめた特別記事をプレゼント中です。ぜひご活用ください。