AIの相棒が新型になったので、今までの相棒と対決させてみた(まさかの3対0)
新しいAIモデル(Fable 5)が使えるようになったので、今までの相棒(Opus 4.8)と『同じ仕事』を目隠しで競わせてみました。審判は私。ベンチマークでは新型が上のはずが、結果は3対0で今までの相棒Opus 4.8の勝ち。数字の強さと『自分に合う』は別物でした。実験のやり方も全部公開します。
先に結論:新しいAIモデル(Fable 5)と今までの相棒(Opus 4.8)に、まったく同じ仕事を3つ頼んで、どちらが書いたか伏せたまま私が判定しました。結果は3対0で、今までの相棒の勝ち。テストの点数では新型が上と報じられているのに、です。「性能が高い」と「自分に合う」は、どうやら別物でした。
こんにちは、アイランドネームです。
今日、私の使っているClaude Codeで、新しいAIモデル「Fable 5(フェーブル・ファイブ)」が選べるようになっているのに気づきました。ニュースでは、プログラムの修正能力を測るテストで、今までの最上位モデル「Opus 4.8(オーパス)」を大きく上回る点数だと報じられています。
ワクワクしますよね。「新型に乗り換えたら、もっとすごいことができるのでは?」と。
でも、ここで立ち止まりました。このサイトの約束は「数字も失敗も正直に」。それなら、乗り換える前に確かめるべきです。新型は本当に、私にとって良い相棒なのか? というわけで、新旧の相棒に同じ仕事をさせて、目隠しで判定する対決をやってみました。
対決のルール(公平さが命)
比べ方が雑だと、結果に意味がなくなります。そこで次のルールにしました。
- 同じ仕事を3つ用意して、両方のモデルにまったく同じ文面でお願いする(一字一句同じ)
- 同時にスタートさせる(片方だけ有利にしない)
- 結果は「A」「B」とだけ名前を伏せて、私が読み比べて判定する
- 判定が終わるまで、どちらがどのモデルか私には知らされない
面白いのは、この対決の進行役を新型のFable 5自身にやってもらったことです。新型が司令塔になって、6体のAI(3つの仕事×2モデル)を同時に動かし、結果を集めて、名前を伏せた比較表を作ってくれました。私がやったのは「こういう実験をしたい」と伝えて、最後に読み比べて判定しただけです。
出した3つのお題
私が普段AIに頼む仕事から選びました。
- 記事の下書きを書く(このサイトの新記事を1本、丸ごと)
- 過去の記事を読んでダメ出しする(AIに上手に頼むコツ5つのレビュー)
- アクセスの数字を分析して「次の一手」を提案する(昨日公開したGoogle検索の数字を渡して)
文章力、読む力、考える力。相棒に求める3つの力をそれぞれ試すイメージです。
結果:まさかの3対0
読み比べて、私はぜんぶ「A」を選びました。そして答え合わせをしたら——Aは今までの相棒、Opus 4.8でした。
| お題 | 私の判定 | 正体 |
|---|---|---|
| 記事の下書き | A | Opus 4.8(今までの相棒) |
| 記事のダメ出し | A | Opus 4.8 |
| 数字の分析 | A | Opus 4.8 |
新型のFable 5、まさかの0勝。テストの点数では上のはずなのに、私の心には今までの相棒の文章のほうが響いたのです。
たとえば記事の下書き。Aの文章は長めでじっくり型、「なぜそうするのか」の理屈と失敗談が厚くて、読んでいて「わかる、そうなんだよ」と頷けました。Bも簡潔で良かったのですが、私にはAのほうが「自分のサイトの声」に近く感じられました。
ちなみにこのお題で2つのAIが書いた下書きは、勝った方を土台に、負けた方の良いところを合体させて、「AIに記事を書いてもらう、私の頼み方」として公開しました。対決の副産物まで、無駄なく使っています。
でも、新型が負けっぱなしだったわけではない
ここからが大事なところです。判定は3対0でしたが、細かく見ると新型にも確かな勝ち点がありました。
- ダメ出しのお題で、新型は過去記事に実際にあった誤字を2種類も発見しました。今までの相棒は同じ記事を「誤字なし」と判定していて、これは明らかな見落とし(あとで確認したら、新型の指摘はぜんぶ本当でした)
- 記事の下書きは、新型のほうが3割ほど速く仕上がりました
そして正直に書くと、両方ともミスをしました。今までの相棒は、分析の冒頭になぜか英語の一文を混ぜてきました。新型は、日本語の記事の中に「answers」という英単語をポロッと混入させました。新旧どちらも、完璧ではないのです。
一番面白かったこと:正反対のアドバイス
数字の分析のお題では、もっと面白いことが起きました。同じデータを見たのに、2つのAIが正反対の助言をしたのです。
- 今までの相棒「記事のタイトルを検索向きに書き直そう」
- 新型「書き直しこそ今やってはダメ。表示4回では効果を測れない。観客が4人しかいない舞台で衣装を悩むようなものだ」
どちらの言い分にも理屈が通っています。つまり、AIの答えは「正解」ではなく「意見」なんです。2つ並べてはじめて、自分はどちらに納得するかを考えられる。1つのAIの答えを鵜呑みにするのは危ない、といういい教訓になりました。
この結果を、どう受け止めたか
学びは3つです。
- テストの点数と「自分に合う」は別物。新型はプログラム修正の点数が高くても、私が求める「サイトの声に合う文章」では旧型が好みだった
- 目隠しで比べる価値は大きい。「新しいほうがすごいはず」という思い込みを外せる
- 適材適所でいい。文章はじっくり型の旧相棒、誤字チェックや急ぎの作業は新型、と使い分ければ、対決は共存になる
ちなみにこの記事の下書きは、負けたほうの新型(Fable 5)と一緒に書いています。自分が3対0で負けた実験の記事を、本人が正直にまとめる。ちょっと不思議で、でもこのサイトらしい風景だなと思います。
まとめ
- 新型AIが来たので、今までの相棒と目隠し対決をさせた(同じお題・同じ文面・同時スタート)
- 判定は3対0で今までの相棒の勝ち。ただし新型も誤字発見や速さで勝ち点あり
- 同じデータから正反対の助言が出た。AIの答えは「意見」。決めるのは人間
- 乗り換えるかどうかは点数でなく、自分の仕事で試してから決めればいい
「新しいAIが出た」というニュースはこれからも次々来ると思います。そのたびに慌てなくて大丈夫。今回のような小さな対決は、AIに進行役を頼めば非エンジニアでもできます。あなたも相棒を選ぶときは、ぜひ「自分のいつもの仕事」で試してみてください。
今日も読んでいただき、ありがとうございました。また次の記録で。
次に読む
- 制作の記録
プライバシーポリシーと免責事項を、相棒と相談して作った話
個人ブログにもプライバシーポリシーや免責事項っているの?と相棒(AI)に聞いたら、『プライバシーポリシーは実質必須、免責事項も強く推奨』との答え。その理由(ステマ規制や自分を守る話)と、サイトを重くせずに“ただのページ”で用意できた記録です。
- 制作の記録
ブログに『いいね』やコメントを付けるか迷って、付けないことにした話
noteみたいに『いいね』やコメントの機能を付けた方がいいのか、相棒(AI)に相談しました。返ってきたのは『今は付けないほうがいい』という助言。その理由(私の知らなかった裏側の話)と、代わりに全記事へ『noteで感想を』の導線をつけた記録です。
- 制作の記録
AIがつけた日付が、ぜんぶ未来になっていた話(相棒の失敗を、私が見つけた)
このサイトの記事の日付が、なぜか『未来』になっていました。原因は、相棒(AI)が日付を機械的に振っていたから。今回は、AIの失敗を私が見つけて、二人で直した記録です。AIは間違えないわけじゃない、という正直な話。