制作の記録2026年7月2日約 6 分で読めます

AIの相棒が新型になったので、今までの相棒と対決させてみた（まさかの3対0）

新しいAIモデル（Fable 5）が使えるようになったので、今までの相棒（Opus 4.8）と『同じ仕事』を目隠しで競わせてみました。審判は私。ベンチマークでは新型が上のはずが、結果は3対0で今までの相棒Opus 4.8の勝ち。数字の強さと『自分に合う』は別物でした。実験のやり方も全部公開します。

先に結論：新しいAIモデル（Fable 5）と今までの相棒（Opus 4.8）に、まったく同じ仕事を3つ頼んで、どちらが書いたか伏せたまま私が判定しました。結果は3対0で、今までの相棒の勝ち。テストの点数では新型が上と報じられているのに、です。「性能が高い」と「自分に合う」は、どうやら別物でした。

こんにちは、アイランドネームです。

今日、私の使っているClaude Codeで、新しいAIモデル「Fable 5（フェーブル・ファイブ）」が選べるようになっているのに気づきました。ニュースでは、プログラムの修正能力を測るテストで、今までの最上位モデル「Opus 4.8（オーパス）」を大きく上回る点数だと報じられています。

ワクワクしますよね。「新型に乗り換えたら、もっとすごいことができるのでは？」と。

でも、ここで立ち止まりました。このサイトの約束は「数字も失敗も正直に」。それなら、乗り換える前に確かめるべきです。新型は本当に、私にとって良い相棒なのか？　というわけで、新旧の相棒に同じ仕事をさせて、目隠しで判定する対決をやってみました。

対決のルール（公平さが命）

比べ方が雑だと、結果に意味がなくなります。そこで次のルールにしました。

同じ仕事を3つ用意して、両方のモデルにまったく同じ文面でお願いする（一字一句同じ）
同時にスタートさせる（片方だけ有利にしない）
結果は「A」「B」とだけ名前を伏せて、私が読み比べて判定する
判定が終わるまで、どちらがどのモデルか私には知らされない

面白いのは、この対決の進行役を新型のFable 5自身にやってもらったことです。新型が司令塔になって、6体のAI（3つの仕事×2モデル）を同時に動かし、結果を集めて、名前を伏せた比較表を作ってくれました。私がやったのは「こういう実験をしたい」と伝えて、最後に読み比べて判定しただけです。

出した3つのお題

私が普段AIに頼む仕事から選びました。

記事の下書きを書く（このサイトの新記事を1本、丸ごと）
過去の記事を読んでダメ出しする（AIに上手に頼むコツ5つのレビュー）
アクセスの数字を分析して「次の一手」を提案する（昨日公開したGoogle検索の数字を渡して）

文章力、読む力、考える力。相棒に求める3つの力をそれぞれ試すイメージです。

結果：まさかの3対0

読み比べて、私はぜんぶ「A」を選びました。そして答え合わせをしたら——Aは今までの相棒、Opus 4.8でした。

お題	私の判定	正体
記事の下書き	A	Opus 4.8（今までの相棒）
記事のダメ出し	A	Opus 4.8
数字の分析	A	Opus 4.8

新型のFable 5、まさかの0勝。テストの点数では上のはずなのに、私の心には今までの相棒の文章のほうが響いたのです。

たとえば記事の下書き。Aの文章は長めでじっくり型、「なぜそうするのか」の理屈と失敗談が厚くて、読んでいて「わかる、そうなんだよ」と頷けました。Bも簡潔で良かったのですが、私にはAのほうが「自分のサイトの声」に近く感じられました。

ちなみにこのお題で2つのAIが書いた下書きは、勝った方を土台に、負けた方の良いところを合体させて、「AIに記事を書いてもらう、私の頼み方」として公開しました。対決の副産物まで、無駄なく使っています。

でも、新型が負けっぱなしだったわけではない

ここからが大事なところです。判定は3対0でしたが、細かく見ると新型にも確かな勝ち点がありました。

ダメ出しのお題で、新型は過去記事に実際にあった誤字を2種類も発見しました。今までの相棒は同じ記事を「誤字なし」と判定していて、これは明らかな見落とし（あとで確認したら、新型の指摘はぜんぶ本当でした）
記事の下書きは、新型のほうが3割ほど速く仕上がりました

そして正直に書くと、両方ともミスをしました。今までの相棒は、分析の冒頭になぜか英語の一文を混ぜてきました。新型は、日本語の記事の中に「answers」という英単語をポロッと混入させました。新旧どちらも、完璧ではないのです。

一番面白かったこと：正反対のアドバイス

数字の分析のお題では、もっと面白いことが起きました。同じデータを見たのに、2つのAIが正反対の助言をしたのです。

今までの相棒「記事のタイトルを検索向きに書き直そう」
新型「書き直しこそ今やってはダメ。表示4回では効果を測れない。観客が4人しかいない舞台で衣装を悩むようなものだ」

どちらの言い分にも理屈が通っています。つまり、AIの答えは「正解」ではなく「意見」なんです。2つ並べてはじめて、自分はどちらに納得するかを考えられる。1つのAIの答えを鵜呑みにするのは危ない、といういい教訓になりました。

この結果を、どう受け止めたか

学びは3つです。

テストの点数と「自分に合う」は別物。新型はプログラム修正の点数が高くても、私が求める「サイトの声に合う文章」では旧型が好みだった
目隠しで比べる価値は大きい。「新しいほうがすごいはず」という思い込みを外せる
適材適所でいい。文章はじっくり型の旧相棒、誤字チェックや急ぎの作業は新型、と使い分ければ、対決は共存になる

ちなみにこの記事の下書きは、負けたほうの新型（Fable 5）と一緒に書いています。自分が3対0で負けた実験の記事を、本人が正直にまとめる。ちょっと不思議で、でもこのサイトらしい風景だなと思います。

まとめ

新型AIが来たので、今までの相棒と目隠し対決をさせた（同じお題・同じ文面・同時スタート）
判定は3対0で今までの相棒の勝ち。ただし新型も誤字発見や速さで勝ち点あり
同じデータから正反対の助言が出た。AIの答えは「意見」。決めるのは人間
乗り換えるかどうかは点数でなく、自分の仕事で試してから決めればいい

「新しいAIが出た」というニュースはこれからも次々来ると思います。そのたびに慌てなくて大丈夫。今回のような小さな対決は、AIに進行役を頼めば非エンジニアでもできます。あなたも相棒を選ぶときは、ぜひ「自分のいつもの仕事」で試してみてください。

今日も読んでいただき、ありがとうございました。また次の記録で。

AIの相棒が新型になったので、今までの相棒と対決させてみた（まさかの3対0）

対決のルール（公平さが命）

出した3つのお題

結果：まさかの3対0

でも、新型が負けっぱなしだったわけではない

一番面白かったこと：正反対のアドバイス

この結果を、どう受け止めたか

まとめ

次に読む

プライバシーポリシーと免責事項を、相棒と相談して作った話

ブログに『いいね』やコメントを付けるか迷って、付けないことにした話

AIがつけた日付が、ぜんぶ未来になっていた話（相棒の失敗を、私が見つけた）