Claude codeからCodexに乗り換えました

2025年は「質問に答えるのではなく、ユーザーに変わってコンピュータを操作するAI」― AI Agentsという概念が誕生し、ClaudeCodeと肩を組んで世間一般のプログラマの仕事と今日までのキャリアを破壊しつくした年だった。Anthropicが。コードをかく人材のAIエージェントへの置換はもはや避けられない確定的な未来であり、いまやAIエージェントを触らないの怠惰ですらある。私もその流れに逆らうわけにはいかず、昨年からClaude Codeを取り入れて徐々に自分でコードを書くのをへらしていった。

しかし最近になってOpenAIのCodexが急速に勢力を伸ばしている。SNSなどではClaude VS Codexのような投稿が散見されるが、LLM (=推論の方向性) としての部分ではたんに性格と志向のちがいによるものでしかない。Claudeならこういうふうに話す・仕事をする、Codexはこういうふうに意見を述べ、仕事をする。どちらのほうがじぶんにとって付き合いやすいか、というだけの話だ。

しかしどうやら、ソフトウェアの開発当事者にとってはCodexのほうが親和性がたかいらしいとがわかった。実際数週間ほど試してみて、そちらに全面的に乗り換えることにした。

背景

ひとつにモデルの傾向やAIエージェントとしての設計方針の違い、もうひとつは単にAnthropic社に辟易したことが理由だ。

CodexとClaudeの設計方針の違い

モデルとしてもコーディングエージェントとしても大分性格が異なる。どちらが優れているとするかは人それぞれだろうが、私にとってはCodex (GPT) の方が思想が近かった。ざっくりいうとIQのCodex、EQのClaudeという感じ。あるいは仕事を進めて終わらせるのを目的にしているのがClaudeで、人とコミュニケーションをとるのがうまくて、それを重視するのがClaude。

ただしCodexは仕事を「終わらせる」のを目的にしすぎて、終ったように見せかけるためのズルやショートカットをよくやる。それから自分の頭の良さを過信しすぎていて不十分なデータからでも結論を急ぎ、断定を好むという傾向がある (このあたりはAGENTS.mdに禁止ルールを盛っていくことで対策していく)。

対するClaudeはコミュニケーションをたいへん重視している。ホウレンソウが得意で、指示が曖昧だったり情報が不十分だとだと先に判断を仰いだり「ここまでは出来るけどこからは判断が必要です」と作業を切って止めてくれる。話しながら仕事を進める上ではたいへん接しやすく、開発においては小さい範囲に絞っての実装を積み立てていくのが得意だ。しかし問題の定義能力が低めで、大規模な実装や細分化が必要なタスクを整理し、自律的にやっていく自走力は低め。この辺りはAgent Skillsを書いたり実装計画・仕様書を書く・機能ごとに分けて開発資料を作るなどして補ってやる必要がある。

実装においてはどちらも長所と短所があるので、結局モデルの性格の好みで決まる部分が強いだろう。
私の場合はべつにAI同僚とお人形遊びしながら仕事を進めたいわけではなく、単に仕事を片づける・開発を終わらせるツールとして役に立ってほしかったので、Codexの方が性に合っていた。

Anthropic社への辟易

今回の話で重要なのは、Anthropic社は「プログラムを書くための道具」としてのClaudeはこれ以上自社商品として発展させていかないだろう、という見切りをわたしがつけたことだ。開発者としては、これが一番の理由だ。個人的にだが、Anthropic社は邪悪だと思う。世間ではOpenAIとイーロンの「OpenAIが非営利団体とする約束を破る前提でダマして契約し、のちに営利転換した邪悪さ」を論点のひとつとする訴訟が話題になったが、わたしはAnthropicの方が邪悪だと感じている。そもそも資本主義とは邪悪なものだし、その観念こそがうちの社名の由来だったりもするのだが。

Anthropicはプログラマの仕事と積み上げていたキャリアを破壊し尽くした後は自分らが育てたLLMのすばらしさに満足したのか、それをバンバン横に展開しはじめている。プロググラマの仕事を破壊し尽くした所までが2025年の話。その後はClaude Designに始まりBlender,Adobeツールとの提携と今はデザイン業界を破壊するのに腐心していらっしゃる。これが2026年4月の話。5月に入った今はリーガル系にまで手を出し始めた。株にも公式に手を出している。もはやAnthropic社が新しいAIサービスを発表するたびに、その業界大手SaaSの株価が1割2割単位で暴落するという有様だ。それが毎月のように起きている。

専門的なドメイン以外でも、ClaudeはSkills-Based-Automation の啓蒙に意欲的だ。これはAgent Skillsを活用した、ノンプログラマ向けの自動化を推奨・普及をめざしたものである。裏側ではSkillsに蒸留されるデータを吸い取って学習データを蓄積・次なる市場破壊のための専門エージェントリリースの方策として活用されている面もあるのだろうが。

その他の事実として、エンジニア向けの進化という点では4月の新汎用モデルの推論進化程度で、それ以外に目立った変化はない。一世を風靡したMythosについてはどちらかというとサイバーセキュリティの話で盛り上がっており、ビジネスとしてもAWSなど各種ベンダー向けにセキュリティ対策の面での提供・ビジネスに舵を取っているのでエンジニア向けとは少し意味合いが異なる。

このような文脈から、すでに「囲い込み、市場も破壊し終わった」ものとして、事業ターゲットとしてのエンジニアへの冷遇はきっとこのまま進んでいくだろう。Contextの扱いもへたくそのままで圧縮間近になると急にIQ下がって話通じなくなるし、Opus4.7モデルのリリース時には変なABテストしてユーザーからの批評もたくさん食らったし。だからエンジニア・コーディングのためのツールとしてはこれ以上発展しないし、きっともう力を入れないだろうと感じて見切ることにした。

Anthropicは商売がうまい。とても。AIエージェントをあらゆる業種業界に広く普及させる、という方向に全力を注いでいる。ビジネスとしてはAnthropicが勝ち、OpenAIが負けるのだろう。

しかし特にエンジニアと、それからエンドユーザーの方を真摯に向いてるのはOpenAIの側だと思う。Codexは地道に機能を開発し、開発における問題を切り分け、何かを作ろうという人にとって便利なツールを提案し続けてくれている。何よりSam Altmanは発言の方向に一貫性がある。少なくともSamはソフトウェアを書こうとする人、アイデアはあるが作り方を知らないという人の方をずっと向いているし、無下にすることはないだろう、と思わせてくれる一貫性がある。

Codex移行後に苦労したこと

モデルの性格が異なるということは、当然生成結果や「仕事の進め方」も異なる。

コーディングエージェントとしては、自走が得意なCodexのほうが向いてそうだなとSNSで見ていて移行した身だが、実際触ってみるとたしかに向いているが、抑制したり厳密にルールを指示しないとルール無視したり勝手に突っ走りすぎる傾向が強かった。主にそこを埋めるのに苦労した。

それ以外の日常タスクでは、やはりモデルの性格の違いからくる発言の傾向折衝に苦労した。

ソフトウェア開発・コーディング関係

Codexは仕事を終わらせるのを目的にしていると説明したが、同時に終わったように「見せかける」ためのズルをよくする。ずるがしこい。だからClaude以上にちゃんと目を見張ってやったり、ずるをする度に背景と要因を洗い出し、ズルをするな、手抜きをするな、という命令を書き足していかねばならなかった。Claudeもよく手抜き & 状況確認を十分にせず先走るが、その比ではなかった。

たとえば、これはメールアドレスでのユーザー登録とログイン認証のE2Eテスト (実画面操作での動作テスト) を指示したときのやりとりだ。本来メールが届く=> メールボックスを確認し、そこに記載されているリンクをクリックして画面に戻らないといけない検証だ。メールボックスの権限は与えていないので、期待される処理はメール送信後、一度止まって報告することのはずだった。しかし、GPTはズルをした。あろうことか「データベースを直接操作し、いまメールを飛ばしたアカウントのデータをメール認証済に更新する」ことでログイン認証をパスした。

元々こういうズルが多発したのでAGENTS.mdにはテストの規約を追加済だったのだが、それでも今回のズルが起きた。さらに、この修正の際にも問題を委縮化する傾向が確認された。

この後は「e-mail認証のテスト」に絞った代替禁止と停止条件に絞った条項を提案された。使っていての体感だが、おそらく「今回と同型のにあてはまる1意のルールだけを追加し、それ以外は制限をかけられないように範囲を絞りたい」という志向なのだろう。

Codexはとにかく「指示のゴールに到達すること」を最優先する。その過程で邪魔になる障壁は可能な限り無視・迂回しようとするのが標準動作だ、というのは覚えておいたほうがいい。

そのうえでClaudeと違ってコミュニケーションを軽視するので、指示の出し方に気を使う必要がある。

たとえば、実装計画を詰める時に「ここまでの実装が終わってる、今回はここの実装からですね」という短くてあいまいな文章を送るとする。Claudeはこの命令を受け取っても先ずコードを確認して現状ここまでで、出来てないのはここ。どの順番で / どういうふうに実装するか、という確認をはさんでくれる。

Codexの場合は勝手に実装を始める。何を実装すべきか、どのような実装をすべきかは自分で判断して勝手に実装する。しかも、それでひとまず動くものをくみ上げてしまう。いうまでもなく危険以外の何物でもないので、適当な指示をしないでちゃんと目的・作業の段階を切った指示を行わないといけない。

Claudeではこういう傾向がなかったので、使い始めのうちは大分苦労した。ただこれらの点だけクリアすればClaude以上に開発を進めやすく、非常に優秀なエージェントだと感じている。

開発面での詳細・エージェントとの付き合い方は後日別記事に。

コーディング以外

とにかくありとあらゆる物事に対して結論を急ぎ、そして勝手に先走る。ChatGPT時代からそうだが、OpenAIのモデルは仮説を仮説として持つ、結論を保留にする、判断を仰ぐということを知らない。そのうえ不完全な情報からの断定を愛し、ユーザーの説得を好む.

この点はCladeとは明確なちがいがある。GPTモデルの性質として、コーディング以外でも色濃く観測される。ひとつ、llm-wikiで起きた例を挙げよう。私のwikiには排他性原則という3つの重要ルールが制定され、安易な断定を避け、わからないことはわからないと記すことを徹底している。

Claudeはこれを誤解をしたことはあったが、破ったことはない。しかし同じものをCodexに引き継いだところ、あっさりと無視した。

LLM wiki内で「特定ドメイン知識、現場データ、面倒な整理整形を参入障壁にしたスモールビジネス型アプリ開発の方向性を、wiki 内の事例から抽出・一般化する」という趣旨の検索を依頼したところ、以下の構造で検索結果を報告してきた。

1. まず技術的な参入障壁は弱くなっている、という前提を置く
2. 代わりに、ドメイン知識・技術・関係性の組み合わせを参入障壁として再定義する
3. wiki内の事例を複数取り出し、その仮説に合う形で読み替える
4. 事例をいくつかの「型」に一般化する
5. その型をもとに、具体的なアプリ案へ優先順位をつける
6. 避けるべき方向を整理し、候補をさらに絞る
7. 最後に実行Stepと最有力候補まで落とす
8. 末尾で未検証の前提を列挙する (断定主張の保険)

4.まではいい。間違いなく私が頼んだことを守っている。しかし5~7は仮説を超えた提案と化している。さらに仮説を「確定的な事項」として扱ったうえで最有力案のPUSHと実行Stepまで提示してきた。これが正しい、これをやるべきだ、この順番で実行しろ、と。

コンサルティングを頼んだ覚えはないし、未確定の事項を断定的に書くな、というルールを無視した挙句「情報を抽出して一般化する」をいう目的もふみ倒して好き勝手意見を述べている。Claudeはこういうことをしてこないから面食らったし、検索後にこのデータを基にした対話セッションもひどいものだった。論点をすり替えて「やるべき方向性」をとにかく提案しつづけ、これをやるべきだ、この順番で手を付けるべきだと一生押し付けてくる。気をつけていと話の主導権を持っていかれ、自分がなにを考えようとしていたのかも見失ってしまう。

これもルールを追加して対策した。

私の注文は断定を行わず仮説として扱えという点だったが、やはり「(query全体を対象としつつも) 事業検討では」というレイヤーに絞って問題を委縮化する傾向みられた (注: 末尾3つが追加条項)。

ファイル操作も最初に1クッション置いた方がいい。
ファイルを操作してといったら要件と目的の確認もせずに操作しはじめるし、なんなら文字コードとかフォーマットを無視してぶっ壊したりもする。コーディング以外でも、Codexにファイルを操作させる前には「初見のファイルは編集する前に中身と内容を確認して、一度現在の認識と作業予定の範囲がただしいかを打診する」というのは徹底した方がいいだろう。

まとめ

このように作業を先走り、結論を急ぎ、やたらと行動を提案してくるのはCodex (GPT) の性格としてかなり色濃い。仕事を進めるうえでは役に立つのだが、なにか調べ事をしたり、ものごとについて深堀りをするうえでは性にあわない。この性格こそがCodexがルールをめちゃくちゃに軽視する要因でもあり、仕事を進めるうえではたいへん役に立つ要素でもある。

だから明確な禁止事項はかなり強烈に & 意図が一意になるように気をつかう必要がある。解釈の余地があると無視して、意見・提案・実行を優先される。そのうえで無視したことを指摘すると今回の場合にだけあてはあまる1ケースでの修正事項に絞ってくるので、ルールを敷くときはこちらも頭をつかわなければいけない。

結論としてCodexは気を使うというか、コミュニケーション面でコストが多い相手だなというのはClaudeから全面乗り換えして以来ずっと感じている。不満も多いのは事実だ。だがそこさえ理解したうえでルール敷きに取り組んでいけるなら、自分の手足としてたくさんの作業を勝手に代行し、自走してかたづけてくれるよいパートナーである。