AI相棒ノート
記録一覧へ
制作の記録6 分で読めます

AIの相棒が新型になったので、今までの相棒と対決させてみた(まさかの3対0)

新しいAIモデル(Fable 5)が使えるようになったので、今までの相棒(Opus 4.8)と『同じ仕事』を目隠しで競わせてみました。審判は私。ベンチマークでは新型が上のはずが、結果は3対0で今までの相棒Opus 4.8の勝ち。数字の強さと『自分に合う』は別物でした。実験のやり方も全部公開します。

先に結論:新しいAIモデル(Fable 5)と今までの相棒(Opus 4.8)に、まったく同じ仕事を3つ頼んで、どちらが書いたか伏せたまま私が判定しました。結果は3対0で、今までの相棒の勝ち。テストの点数では新型が上と報じられているのに、です。「性能が高い」と「自分に合う」は、どうやら別物でした。

こんにちは、アイランドネームです。

今日、私の使っているClaude Codeで、新しいAIモデル「Fable 5(フェーブル・ファイブ)」が選べるようになっているのに気づきました。ニュースでは、プログラムの修正能力を測るテストで、今までの最上位モデル「Opus 4.8(オーパス)」を大きく上回る点数だと報じられています。

ワクワクしますよね。「新型に乗り換えたら、もっとすごいことができるのでは?」と。

でも、ここで立ち止まりました。このサイトの約束は「数字も失敗も正直に」。それなら、乗り換える前に確かめるべきです。新型は本当に、私にとって良い相棒なのか? というわけで、新旧の相棒に同じ仕事をさせて、目隠しで判定する対決をやってみました。

対決のルール(公平さが命)

比べ方が雑だと、結果に意味がなくなります。そこで次のルールにしました。

  • 同じ仕事を3つ用意して、両方のモデルにまったく同じ文面でお願いする(一字一句同じ)
  • 同時にスタートさせる(片方だけ有利にしない)
  • 結果は「A」「B」とだけ名前を伏せて、私が読み比べて判定する
  • 判定が終わるまで、どちらがどのモデルか私には知らされない

面白いのは、この対決の進行役を新型のFable 5自身にやってもらったことです。新型が司令塔になって、6体のAI(3つの仕事×2モデル)を同時に動かし、結果を集めて、名前を伏せた比較表を作ってくれました。私がやったのは「こういう実験をしたい」と伝えて、最後に読み比べて判定しただけです。

出した3つのお題

私が普段AIに頼む仕事から選びました。

  1. 記事の下書きを書く(このサイトの新記事を1本、丸ごと)
  2. 過去の記事を読んでダメ出しする(AIに上手に頼むコツ5つのレビュー)
  3. アクセスの数字を分析して「次の一手」を提案する(昨日公開したGoogle検索の数字を渡して)

文章力、読む力、考える力。相棒に求める3つの力をそれぞれ試すイメージです。

結果:まさかの3対0

読み比べて、私はぜんぶ「A」を選びました。そして答え合わせをしたら——Aは今までの相棒、Opus 4.8でした。

お題 私の判定 正体
記事の下書き A Opus 4.8(今までの相棒)
記事のダメ出し A Opus 4.8
数字の分析 A Opus 4.8

新型のFable 5、まさかの0勝。テストの点数では上のはずなのに、私の心には今までの相棒の文章のほうが響いたのです。

たとえば記事の下書き。Aの文章は長めでじっくり型、「なぜそうするのか」の理屈と失敗談が厚くて、読んでいて「わかる、そうなんだよ」と頷けました。Bも簡潔で良かったのですが、私にはAのほうが「自分のサイトの声」に近く感じられました。

ちなみにこのお題で2つのAIが書いた下書きは、勝った方を土台に、負けた方の良いところを合体させて、「AIに記事を書いてもらう、私の頼み方」として公開しました。対決の副産物まで、無駄なく使っています。

でも、新型が負けっぱなしだったわけではない

ここからが大事なところです。判定は3対0でしたが、細かく見ると新型にも確かな勝ち点がありました。

  • ダメ出しのお題で、新型は過去記事に実際にあった誤字を2種類も発見しました。今までの相棒は同じ記事を「誤字なし」と判定していて、これは明らかな見落とし(あとで確認したら、新型の指摘はぜんぶ本当でした)
  • 記事の下書きは、新型のほうが3割ほど速く仕上がりました

そして正直に書くと、両方ともミスをしました。今までの相棒は、分析の冒頭になぜか英語の一文を混ぜてきました。新型は、日本語の記事の中に「answers」という英単語をポロッと混入させました。新旧どちらも、完璧ではないのです。

一番面白かったこと:正反対のアドバイス

数字の分析のお題では、もっと面白いことが起きました。同じデータを見たのに、2つのAIが正反対の助言をしたのです。

  • 今までの相棒「記事のタイトルを検索向きに書き直そう」
  • 新型「書き直しこそ今やってはダメ。表示4回では効果を測れない。観客が4人しかいない舞台で衣装を悩むようなものだ」

どちらの言い分にも理屈が通っています。つまり、AIの答えは「正解」ではなく「意見」なんです。2つ並べてはじめて、自分はどちらに納得するかを考えられる。1つのAIの答えを鵜呑みにするのは危ない、といういい教訓になりました。

この結果を、どう受け止めたか

学びは3つです。

  • テストの点数と「自分に合う」は別物。新型はプログラム修正の点数が高くても、私が求める「サイトの声に合う文章」では旧型が好みだった
  • 目隠しで比べる価値は大きい。「新しいほうがすごいはず」という思い込みを外せる
  • 適材適所でいい。文章はじっくり型の旧相棒、誤字チェックや急ぎの作業は新型、と使い分ければ、対決は共存になる

ちなみにこの記事の下書きは、負けたほうの新型(Fable 5)と一緒に書いています。自分が3対0で負けた実験の記事を、本人が正直にまとめる。ちょっと不思議で、でもこのサイトらしい風景だなと思います。

まとめ

  • 新型AIが来たので、今までの相棒と目隠し対決をさせた(同じお題・同じ文面・同時スタート)
  • 判定は3対0で今までの相棒の勝ち。ただし新型も誤字発見や速さで勝ち点あり
  • 同じデータから正反対の助言が出た。AIの答えは「意見」。決めるのは人間
  • 乗り換えるかどうかは点数でなく、自分の仕事で試してから決めればいい

「新しいAIが出た」というニュースはこれからも次々来ると思います。そのたびに慌てなくて大丈夫。今回のような小さな対決は、AIに進行役を頼めば非エンジニアでもできます。あなたも相棒を選ぶときは、ぜひ「自分のいつもの仕事」で試してみてください。

今日も読んでいただき、ありがとうございました。また次の記録で。

次に読む