コラム
AI実装

Fable 5とOpus 4.8をどう使い分けるか——モデルの切り替えは言語化しづらい職人技になる

Fable 5とOpus 4.8を実際にどう使い分けているか、しくじりも含めて書きます。何を作るかはFable 5、どう作るかは下位モデル。この線引きは両側に踏み外せて、A/Bでは検証しづらい。触れた回数の肌感覚に依存する、職人に近い技術になりつつあります。

上村 謙輔

株式会社サードパーティートラスト / 代表取締役

AIは、この一、二年で内製化を一気に進めました。

これまで多くの会社は、自社の専門でない領域を外に出してきました。得意な人に任せ、足りない強みを補う。商売の基本です。ところがLLM(大規模言語モデル)が、生半可な専門家くらいの仕事をこなすようになった。中級以下の専門業務なら、外注せず自社で片づく場面がかなり増えました。

Fable 5は、その流れに小さな逆流を作ったと思っています。

前回、Fable 5が従量課金前提になっていくこと、日本の予算文化とは相性が悪いことを書きました。ここでは繰り返しません。今回書きたいのは、その制約の下で私が実際に何をしているか、しくじりも含めた手つきの話です。

仕様はFable 5、実装は落とす

やっていることは、単純に言えば「何をやるかはFable 5、どう作るかはOpus 4.8」です。

プロジェクトの最初——方針、仕様、スケジュール、抜け漏れや欠陥のチェック。ここはFable 5に任せた方が明らかに良い。ただ、Fable 5にいきなり良い依頼は投げられません。無駄のない依頼を組み立てる作業そのものは、下位モデルのOpus 4.8にやらせています。「どう考えてほしいか」を整えるだけなら、4.8で十分なクオリティです。

Fable 5が固めた仕様を具体に落とし、コーディングする。ここもOpus 4.8で足ります。

結果、トークンの大半は下位モデルを通ります。ざっくり、Opus 4.8が8割、Fable 5が2割くらいの配分に落ち着きました。

「射程が広い」の中身

Fable 5の何が違うのか。抽象的に「賢い」と言っても仕方ないので、具体で書きます。

弊社では、バグとセキュリティのチェックをAIのフレームワークとして回しています。Fable 5が出る前、Opus 4.8の時点で、そのチェックはほぼ満点でした。指摘が出ないところまで来ていた。Fable 5に替えても、バグやコーディングのミスが新しく見つかったわけではありません。そこはOpus 4.8で既に十分だった。

差が出たのは、もっと外側でした。

Opus 4.8の視野は、基本的にファイル単位か、その近くに収まります。Fable 5は、ファイルをまたいだ構成や、アプリケーション全体の組み方まで見て指摘してくる。しかも、コードの外にも出ていく。この機能はさらに作り込む価値があるのか。誰に向けたプロダクトで、競合と比べてどこで勝てるのか。そういう判断まで返してきました。

一番驚いたのは、機能を削れという提案が出たことです。

足す提案なら、どのモデルもします。減らせ、というマイナスの提案はOpus 4.8にはなかった。事業を分かっていないと、削る判断はできません。単なる技術サポートではなく、ビジネスを理解した人間に近いと感じました。だから、何を作るかを決める最初の段階にこそ、Fable 5の価値があります。

しくじりは、両側にある

この線引きは、両方に踏み外せます。私はどちらもやりました。

最初は、面倒くささに負けて、初手から実装まで全部Fable 5に丸投げしていました。人間なので、モデルを切り替えるのは手間です。でもそれだと、トークンがどんどん膨らむ。試しに、初期依頼を下位モデルで作り、Fable 5で仕様を固め、コーディングはOpus 4.8に戻してみたら、消費トークンが全然違いました。面倒がっていた分を、そのまま無駄にしていた。

逆の失敗もあります。

自社のSaaSにちょっとした機能を足したくて、下位モデルだけで仕様を作り、一度は満足して実装まで終えました。念のためFable 5に同じ仕様を考えさせてみたら、視点の違う、もっと根本のところから技術仕様が変わってきた。明らかに良かったので、結局ゼロからやり直しました。下位モデルで一周した実装を、丸ごと捨てたわけです。その分のトークンも無駄になりました。

使いすぎても、使わなさすぎても、コストを損なう。線は、思ったより細い。

比べられないから、経験則になる

厄介なのは、この「どこで差が小さいか」が、きれいには検証できないことです。

コーディングは、Opus 4.8でもそう不都合が起きません。だからこそ、毎回ふたつ出力して並べて比べる、というのが難しい。差が小さい領域ほど、比較で決着がつかない。最後は、これまで何回触ってきたかの感覚で線を引いています。

コンテンツ生成でも同じです。Opus 4.8は、指示が甘いと質も落ちる。けれど指示が良ければ、4.8でも十分に戻ってくる。モデルの差というより、こちらの指示の差で結果が動く場面がかなりある。

宮大工が木の癖を読むように、モデルの癖を読む。私は元々ウェブ分析をやってきましたが、あの分野でも、勘所を言葉にするのは難しかった。分かっているのに、説明できない。Fable 5とOpus 4.8の差も、突き詰めると、この手触りの差が大きいと感じています。

内製化が進むほど、残るもの

ここが、今の話の面白いところです。

AIは中級以下の専門を自社に取り込み、内製化を進めました。ところが同じ流れの中で、モデルを指揮してコストを設計するという、言語化しづらい専門性が新しく立ち上がってきた。これは、AI部門を持ち、AIに詳しい経営層がいる会社でなければ、内側に育てるのがかなり難しい。

内製化が進むほど、内製化しにくいものが残る。

その残るものが、この感覚値です。モデルはこれからも入れ替わります。けれど、どのモデルをどこで使うかを見極める手触りは、そう簡単には陳腐化しません。