TECH PLAY

Python

Pythonは明確で読みやすい構文を持っているため、プログラミング初心者にもおすすめの言語です。また多くのコミュニティがあり、それぞれがライブラリ開発やフレームワーク開発に貢献しています。

イベント

マガジン

技術ブログ

本日、 Amazon Bedrock と Claude Platform on AWS で Claude Fable 5 が利用可能になったことをお知らせいたします。Claude Fable 5 は、Mythos レベルの機能をすべてのお客様が利用できるようにするとともに、より広く安全に使用できるように設計された強力な保護手段を備えています。Fable 5 は、テストされたほぼすべてのベンチマークで最先端であり、ソフトウェアエンジニアリング、ナレッジワークタスク、ビジョンにおいて並外れたパフォーマンスを発揮し、野心的で長期にわたる作業向けに構築されています。 Claude Fable 5 on Bedrock を使用すると、既存の AWS 環境内で構築し、推論ワークロードをスケールできます。また、Claude Platform on AWS を通じて Claude Fable 5 を使用することも可能です。これにより、Anthropic のネイティブプラットフォームエクスペリエンスが得られます。 Anthropic によると、Claude Fable 5 は、AI モデルで達成できることの段階的な変化を表しています。このモデルの利点は次のとおりです。 長時間の非同期実行 – Claude Fable 5 は、以前のモデルでは維持できなかった複雑なタスクを処理し、コーディングやナレッジワークのタスクを介入なしに長期間実行します。 高度なビジョン機能 – Claude Fable 5 は、ファイルや PDF にネストされた図、チャート、表を理解します。これにより、財務、法務、分析、建築、ゲームにおけるリサーチや文書を多用する作業が可能になります。コーディングでは、モデルは忠実度の高い設計を実装し、ビジョンを使用してそのアウトプットを目標と照らし合わせます。 積極的な自己検証 – 本モデルは学習内容に基づいてスキルを自己更新し、独自のハーネスと評価を開発します。 Claude Fable 5 には、誤用のリスクが高い特定の領域でのパフォーマンスを制限する保護手段が含まれています。サイバーセキュリティ、生物学、化学、健康に関連する有害なプロンプトは、代わりに Opus 4.8 からの応答を受け取るようにフォールバックします。Anthropic はより強力な保護手段を開発することで、Claude Fable 5 の最先端機能のほぼすべてへのアクセスを拡大することができます。制限のない同一モデルが Claude Mythos 5 であり、精査された少数のお客様のみが利用できます。 動作中の Claude Fable 5 モデル Claude Fable 5 は Amazon Bedrock と Claude Platform on AWS の両方でご使用いただけます。この投稿では、Amazon Bedrock へのアクセス方法と使用方法に関するガイダンスをご紹介します。Claude Platform on AWS に関するガイダンスについては、 ドキュメント にアクセスして詳細をご確認ください。 Amazon Bedrock の使用を開始するには、 Anthropic Messages API を使用してプログラムでのみモデルにアクセスし、Anthropic SDK を介して bedrock-runtime エンドポイントまたは bedrock-mantle エンドポイントを呼び出します。 AWS コマンドラインインターフェイス (AWS CLI) と AWS SDK を介して bedrock-runtime の Invoke API と Converse API のみ引き続き使用できます。 コンソールのサポートは近日開始予定です。 Claude Fable 5 モデルにアクセスするには、モデルを呼び出す前に Data Retention API を使用し、 provider_data_share を設定してデータ共有を有効にする必要があります。リリース時には、この設定用のコンソールユーザーインターフェイスはありません。 curl -X PUT https://bedrock-mantle.us-east-1.api.aws/v1/data_retention \ -H "x-api-key: <your-bedrock-api-key>" \ -H "Content-Type: application/json" \ -d '{ "mode": "provider_data_share" }' bedrock-runtime エンジンを使用している場合は、以下のサンプルスクリプトを実行してください。 curl -X PUT https://bedrock.us-east-1.amazonaws.com/data-retention \ -H "Authorization: Bearer <your_bearer_token>" \ -H "Content-Type: application/json" \ -d '{ "mode": "provider_data_share" }' このモードでは、Amazon Bedrock は推論データをモデルプロバイダーの要件に従って保持し、共有できます。Anthropic では、30 日間のインプットとアウトプットの保持と、人間によるレビューが必要です。詳細については、「 Amazon Bedrock の乱用検知 」をご覧ください。 まずは Anthropic SDK for Python から、 bedrock-mantle エンドポイントで Messages API を使ってみましょう。Anthropic SDK をインストールします。 pip install anthropic Claude Fable 5 モデルを呼び出すための Python コードのサンプルは次のとおりです。 import anthropic client = anthropic.Anthropic( base_url="https://bedrock-mantle.us-east-1.api.aws/anthropic", api_key= <your-bedrock-api-key> ) message = client.messages.create( model="anthropic.claude-fable-5", max_tokens=4096, messages=[ { "role": "user", "content": "Design a distributed architecture on AWS in Python that should support 100k requests per second across multiple geographic regions", }, ], ) print(message.content[0].text) 詳細については、複数のユースケースとさまざまなプログラミング言語に対応した Anthropic Messages API のコード例 と ノートブックの例 をご覧ください。 Bedrock コンソー ルで Claude Fable 5 を使用できるようになりました。 Playground で Claude Fable 5 を選択してテストします。 bedrock-mantle におけるコンソールサポートは近日中に実装予定です。 また、Claude Fable 5 を bedrock-runtime エンドポイントの Invoke API と Converse APIと併用することもできます。AWS SDK for Python (Boto3) を使用して Converse API を呼び出し、統一されたマルチモデルエクスペリエンスを実現する例を次に示します。 import boto3 bedrock_runtime = boto3.client("bedrock-runtime", region_name="us-east-1") response = bedrock_runtime.converse( modelId="global.anthropic.claude-fable-5", messages=[ { "role": "user", "content": [ { "text": "Design a distributed architecture on AWS in Python that should support 100k requests per second across multiple geographic regions." } ] } ], inferenceConfig={ "maxTokens": 4096 } ) print(response["output"]["message"]["content"][0]["text"]) 詳細については、AWS SDK を使用して Amazon Bedrock ランタイムを使用する方法を示す コード例 をご覧ください。 知っておくべきこと 役立つと思われる重要な技術的詳細をいくつかご紹介します。 モデルアクセス – Claude Fable 5 へのアクセスは、すべての AWS アカウントに徐々に拡張されます。アカウントにまだアクセスできない場合は、Bedrock の使用状況にもよりますが、すぐに有効になります。このモデルにすぐにアクセスしたい場合は、通常の AWS サポートにお問い合わせください。 価格設定 – 有害なプロンプトが Fable 5 ではなく Opus 4.8 にルーティングされた場合、支払うのは Opus の料金のみです。会話の途中でリクエストがブロックされた場合、最初のトークンは Fable レートで請求され、その後のトークンはOpus レートで請求されます。詳細については、「 Amazon Bedrock の料金 」ページにアクセスしてください。 データ保持 – 同等かそれ以上の機能レベルを持つBedrock の Fable 5、Mythos 5、および将来のモデルでは、Anthropic は Mythos クラスモデルのすべてのトラフィックを 30 日間保存する必要があります。データを一定期間保持することで、Anthropic は、1 回のやりとりでは見えない悪用のパターンを検出できます。データ保持を選択すると、データは AWS のデータとセキュリティの境界から外れます。 Claude Mythos 5 on Bedrock (限定プレビュー) – 脆弱性の発見、ドラッグデザイン、バイオディフェンススクリーニングなど、サイバーセキュリティとライフサイエンスに関する Anthropic の最も有能なモデルも使用できます。これらのドメインは二重使用であるため、現在アクセスは制限されています。詳細については、 モデルカードのドキュメント をご覧ください。 今すぐご利用いただけます Anthropic の Claude Fable 5 モデルは、本日から、米国東部 (バージニア北部) および欧州 (ストックホルム) リージョンの Amazon Bedrock でご利用いただけます。今後のアップデートについては、 リージョンの全リスト をご確認ください。Claude Fable 5 は、北米、南米、欧州、アジアパシフィックリージョンの Claude Platform on AWS でもご利用いただけます。 Claude Platform on AWS の Amazon Bedrock API を使用して Claude Fable 5 をお試しいただき、 AWS re:Post for Amazon Bedrock に、または AWS サポートの通常の連絡先を通じて、ぜひフィードバックをお寄せください。 – Channy 原文は こちら です。
はじめに 本記事では、Oracle Alloy上で提供される、最高峰の自律型データベース「Autonomous AI Database」にスポットを当てます。あらゆるデータタイプを単一のDBMSで統合処理する「Converged Autonomous」の真価、最新のイン-データベースAI機能と内蔵された強力なローコード開発環境について解説します。 1. Autonomous AI Databaseの核心 「Autonomous AI Database」を語る上で避けて通れないのが、そのシステムを支える究極の下支えインフラ、すなわちOracle Exadataの存在です。Auto
こんにちは、サイオステクノロジーの藤井です。 生成AIのテクニックとして、システムプロンプトに「あなたは優秀なエンジニアです」みたいなペルソナを付けるっていう方法聞いたことありませんか? それで、ある日ふと疑問に思ったのですが、「優秀な」っていらなくないですか? だって、「優秀な」ってつけるだけで優秀になるなら「とても優秀な」ってつけたらもっと優秀になるし「超ウルトラスーパー優秀な」ってつけたら超ウルトラスーパー高性能AIになるわけですよね?そんなわけなくね? ということで軽く調べてみました。 すると、そもそも「ペルソナには効果が無い、どころか悪影響である」という衝撃的な記事を見つけました。 ほんとかよと思ったので、実際に検証して確かめてみました。 先行研究について ペルソナプロンプティングの効果については、研究者の間でも意見が分かれているようです。調べた範囲で整理してみました。 肯定的な研究 Li et al. の “Large Language Models Understand and Can be Enhanced by Emotional Stimuli”(2023年7月)では、プロンプトに「This is very important to my career」のような感情的刺激を追加すると、GPT-4やLlama 2などで8〜115%の性能改善が見られたとしています。 Xu et al. の “ExpertPrompting”(2023年5月)では、詳細にカスタマイズされた専門家の背景を自動生成し、その専門家として回答させることで品質が向上したと報告されています。 懐疑的な研究 一方で、効果に否定的な研究も多くあります。 Zheng et al. の “When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models”(2023年11月)は、162種類のロール × 2,410問で評価した結果、ペルソナの効果はほぼランダムだったと報告しています。2023年の時点で既に懐疑的な結果が出ていたということです。 Basil, Mollick et al. の “Playing Pretend: Expert Personas Don’t Improve Factual Accuracy”(2025年12月)は、6モデルをGPQA DiamondとMMLU-Proで評価した結果、ドメイン内の専門家ペルソナでも有意な改善がなかったと報告しています。逆に、素人や幼児のような低知識ペルソナでは精度が悪化しました。 Bai, Holtzman, Tan の “‘You are a brilliant mathematician’ Does Not Make LLMs Act Like One”(2025年10月)は、タイトルがそのまま今回の問いに対する答えになっています。数学・心理学・法律の3ドメインで検証した結果、「否定ペルソナ」(あなたは数学者ではありません)が肯定ペルソナと同等以上のスコアを出し、ドメインプライミング(「これは数学の問題です」)が最も安定していたとのことです。 Hu, Rostami, Thomason の “Expert Personas Improve LLM Alignment but Damage Accuracy”(PRISM, 2026年3月)は、ペルソナがアライメント(人間の好みとの一致度)を改善する一方で精度を損なうことを示しました。タスクの種類によって効果が逆転するという結果です。 研究によって結論が違うのは、タスクや評価指標やモデルの違いが大きそうです。せっかくなので自分でもやってみることにしました。 実験設計 5つのペルソナ条件 実験では、システムプロンプトに設定するペルソナを5パターン用意しました。 条件 システムプロンプト 意図 P0: 中立 「ユーザーの質問に回答してください。」 ベースライン P1: 役割のみ 「あなたはソフトウェアエンジニアです。」 役割付与の効果 P2: 形容詞付き 「あなたは 優秀な ソフトウェアエンジニアです。」 形容詞の上乗せ効果 P3: ドメインプライミング 「以下はソフトウェアエンジニアリングに関するタスクです。」 人ではなくタスクを修飾 P4: 否定 「あなたはソフトウェアエンジニアではありません。」 否定した場合の影響 先行研究で指摘されていた「ドメインプライミング」をP3として独立させてみました。 ベンチマークと評価方法 ベンチマーク 概要 問題数 評価方法 MMLU(CS系) コンピュータサイエンスの知識問題 250問 4択一致 HumanEval Pythonのコーディング問題 164問 テストケース通過 MATH Level 4–5 高校〜大学レベルの数学 250問 \boxed{} 値一致 モデルは gpt-5.4-nano、temperature=0で固定しました。 実験結果 全体結果 各ベンチマークの正答率 ペルソナ MMLU HumanEval MATH 平均 P0 中立 64.4% 79.9% 54.0% 66.1% P1 役割のみ 65.6% 79.9% 51.2% 65.6% P2 形容詞付き 64.0% 78.7% 53.2% 65.3% P3 ドメインプライミング 64.8% 82.9% 54.8% 67.5% P4 否定 63.6% 79.9% 53.6% 65.7% 全体の傾向としては、P3 > P0 > P4 > P1 > P2 とドメインプライミングが最も正答率が高くなりました。 ペルソナ有りはペルソナ無しより正答率が低く、「優秀な」をつけたペルソナではさらに低くなりました。 とはいえ、あまり大きな差ではなく、今回の問題数だと誤差の可能性も十分にあります。 考察 この結果をどう解釈すべきか、3つの観点で整理してみます。 ペルソナはフィルター(スタイル変更)であり、能力向上ではない。 ペルソナを設定すると回答のトーンや形式は変わります。しかし、正答率という意味での「能力」は統計的には改善しませんでした。むしろ、凝ったペルソナを付けるほど微減する傾向すらあります(P0: 66.1% → P1: 65.6% → P2: 65.3%)。これは PRISM の「アライメントは改善するが精度を損なう」という知見とも一致します。 ドメインプライミング(P3)がわずかにプラス傾向。 今回の実験でも P3 は平均 67.5% と最も高く、特に HumanEval で 82.9% を記録しました。統計学的な有意差には至っていませんが、Bai et al. の「ドメインプライミングが最も安定」という知見と一致しています。ペルソナ(人に対する修飾)よりも、タスクに対する修飾のほうが方向性を定めやすいのかもしれません。 「優秀な」は曖昧すぎて、条件付き生成の方向を定められない。 「優秀な」と言われても、何をどう優秀にすればいいのかモデル側で解釈しようがありません。結果として有意な改善は生じず、むしろ微減する傾向がある、というのは納得できる話です。 実践的な結論 実験結果と先行研究を踏まえて、プロンプトの書き方を整理しました。 書き方 評価 理由 「あなたは優秀なエンジニアです」 曖昧な形容詞は無意味。むしろ微減する可能性がある 「あなたはエンジニアです」 出力のスタイルは変わるが、精度改善にはつながらない 「このタスクはPythonのasyncioに関する問題です」 ドメインプライミング。タスクの文脈を明示する 具体的な制約や文脈を与える ExpertPromptingの本質。「優秀」ではなく「何をどう解くか」を伝える プロンプトに書くべきは「あなたが何者か」ではなく「このタスクが何であるか」です。ペルソナに形容詞を積むよりも、具体的な制約条件や期待する出力形式を書いたほうが生産的だと思います。 余談 最後に、実験中に気づいた副産物を書いておきます。 temperature=0でもシステムプロンプトだけで回答が結構変わる。 temperature=0(決定的出力の設定)にしていますが、MMLUの20.8%、MATHの32.4%の問題でペルソナ間で回答が異なりました。ペルソナによって回答の内容には影響していますが、正答率の方向には効いていない様です。 「エンジニアではありません」と否定しても正答率は落ちない。 P4(否定ペルソナ)の正答率は65.7%で、P0(中立)の66.1%とほぼ同じです。「あなたはエンジニアではありません」と言われても、エンジニアリングの問題は普通に解けていました。 実務タスクでも差は出なかった。 ベンチマークだけでなく、実際のシステム企画書のレビューでも試してみましたが、条件間で目立った差はありませんでした。(ただし、この試行はモデルに対してタスクが難しすぎたかもしれません) この記事で書いたこと 生成AIのペルソナに効果はあるのか、また、「優秀な」の様な形容詞をペルソナに付けることは有効か実験した 先行研究は肯定と懐疑に分かれており、今回の実験結果は懐疑側の知見と一致した 「あなたは優秀なエンジニアです」のような形容詞付きペルソナで精度改善は見られず、むしろ微減する傾向があった 5ペルソナ × 3ベンチマーク(3,320回)の実験で、条件間の差は大きくても4%程度。誤差の可能性も十分にある ドメインプライミング(P3)だけがわずかにプラス傾向を示した プロンプトには「あなたが何者か」より「このタスクが何であるか」を書くほうが良さそう 参考文献 Li et al. (2023). “Large Language Models Understand and Can be Enhanced by Emotional Stimuli.” arXiv:2307.11760 Xu et al. (2023). “ExpertPrompting: Instructing Large Language Models to be Distinguished Experts.” arXiv:2305.14688 Zheng et al. (2023). “When ‘A Helpful Assistant’ Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models.” arXiv:2311.10054 Basil, Mollick et al. (2025). “Playing Pretend: Expert Personas Don’t Improve Factual Accuracy.” arXiv:2512.05858 Bai, Holtzman, Tan (2025). “‘You are a brilliant mathematician’ Does Not Make LLMs Act Like One.” OpenReview Hu, Rostami, Thomason (2026). “Expert Personas Improve LLM Alignment but Damage Accuracy.” arXiv:2603.18507 ご覧いただきありがとうございます! この投稿はお役に立ちましたか? 役に立った 役に立たなかった 1人がこの投稿は役に立ったと言っています。 The post AIにペルソナ設定は効果ないって本当?検証してみた first appeared on SIOS Tech Lab .

動画

書籍