OpenAI vs Google 画像編集対決 – gpt-image-1 と Gemini 2.5 Flash Image の“一貫性”を検証してみた

OpenAI vs Google 画像編集対決
gpt-image-1 と Gemini 2.5 Flash Image の"一貫性"を検証してみた
近年、OpenAIの ChatGPT、Googleの Gemini、Anthropicの Claude
が生成AIの主要プレイヤーとして存在感を高めていますが、このうち画像の生成・編集を提供しているのは OpenAI と Googleの2社です。
本記事では、OpenAIの gpt-image-1(2025年7月時点)と、GoogleのGemini 2.5 Flash Image(通称 Nano Banana、Web UI 2025年8月時点)に焦点を当て、画像の 一貫性と日本語テキストの扱いを中心に、実際の出力例を交えて比較します。
1. gpt-image-1、Flash Image とは何か
-
gpt-image-1(OpenAI)
ChatGPTの「4o ImageGeneration」の基盤モデル。強力な生成・編集能力を持ち、インペインティング(マスク編集)**に対応。
なお、フル機能はAPI経由での利用が前提です。 -
Gemini 2.5 Flash Image(Google)
高速・軽量な画像生成機能で、参照画像を用いた生成に対応。無料ユーザーでも使える点が特徴です(愛称
Nano Banana)。
2. 画像生成AIが抱える弱点:一貫性
AIで画像を繰り返し生成・編集すると、「元の見た目から少しずつズレていく」問題が発生しがちです。
いわゆる「一貫性の欠如」で、人物の顔・体型・衣服の質感、背景の構造などが回数を重ねるほど変化してしまいます。
- Flash Image(2025年8月)はこの点が比較的安定しており、登場直後からSNS上でも話題に。
- gpt-image-1も(2025年7月)に導入されたパラメータinput_fidelityにより、編集時の一貫性が向上しました。
3. アウトプット比較①:人物のポーズ編集
お題:車の後部座席の画像に、家族写真の人物たちを自然に座らせる。
![]() |
![]() |
---|
3-1. gpt-image-1
gpt-image-1は複数画像の直接参照(A画像にB画像の人物を配置)ができないため、事前に簡易合成(下処理)を実施。
家族写真を雑に切り抜いて座席画像の上に重ねました。もちろん input_fidelity = high
を設定しています。
使用したプロンプト
Make this family photo look natural and realistic:
- Fix lighting to match car interior lighting
- Add natural shadows under people
- Adjust color temperature to match
- Make people look naturally seated
- Blend edges smoothly
- Keep faces unchanged but make them fit the scene
- Add subtle reflections on windows if visible
出力例
所感:服のディテールや内装の細部に差異はあるものの、座り姿勢や影の収まりも一度の生成で十分自然に見えるものが出力されました。input_fidelityの効果か、人物の顔や大きさなども違和感の少ない出来栄えでした。
3-2. Gemini 2.5 Flash Image
参照画像機能を使用し、座席画像と家族写真を指定。
同等の意図で以下を入力しました。
使用したプロンプト
In the image of the car’s back seat, place the three people from the provided family photo, making it look natural as if they are sitting together.
- Fix lighting to match car interior lighting
- Add natural shadows under people
- Adjust color temperature to match
- Make people look naturally seated
- Blend edges smoothly
- Keep faces unchanged but make them fit the scene
- Add subtle reflections on windows if visible
- Make clothing wrinkles look natural for sitting position
出力例(抜粋)
![]() |
![]() |
---|---|
![]() |
![]() |
![]() |
![]() |
![]() |
所感:複数回の試行で人物スケールや座り姿勢の一貫性が向上。
参照画像ありの方が良質でした。とくに車内の構造・材質は高い一貫性で再現。多少気になる点はあるものの、手軽にここまで整う点は大きな強みです。
参照画像なしの出力(参考)
![]() |
![]() |
---|---|
![]() |
![]() |
所感:大きな傾向変化は少なめ。参照画像ありの方が安定という結論です。
3-3. 人物編集のまとめ
- gpt-image-1:下処理の一手間はあるが、精度の高い合成が可能。input_fidelityにより人物の一貫性が保ちやすい。
- FlashImage:参照画像機能で手軽に高品質。数回のリトライで座り姿勢・サイズ感が十分に整う。
- 共通:内装や照明など背景一貫性は両者とも良好。
4. アウトプット比較②:文字を使った編集(日本語)
課題意識:一貫性に加え、生成AIは日本語テキストの精密再現が難しい傾向があります。
そこで、人物が手に持つ雑誌の表紙を「日本語タイトル・特集文言」に差し替えるタスクで比較しました。
使用したプロンプト(日本語)
手に抱えている雑誌を以下の内容に置き換えてください。
- 日本の雑誌で、「旅立ち」というタイトル
- おしゃれでモダンな方向性
- 寺院の特集で表紙はお寺の写真をフィーチャー
- 表紙にはコンテンツ紹介の文言をレイアウト
※ タイトルを日本語にしたいため、プロンプトは日本語で統一。
4-1. gpt-image-1(インペインティング使用)
雑誌部分をマスク指定して編集(自作アプリで実行)。
出力例\
![]() |
![]() |
---|---|
![]() |
![]() |
所感:タイトル「旅立ち」は正しく日本語で生成。ただし細かい本文テキストは崩れがち。
4-2. Flash Image(プロンプトのみ)
インペインティング非対応のため、全体をプロンプト指定で実行。プロンプト内容は同等。
出力例
![]() |
![]() |
---|---|
![]() |
![]() |
所感:雰囲気は再現できるものの、細部の日本語テキストの精密さはgpt-image-1 に一歩譲る印象。
5. 結論と使い分け
観点 | gpt-image-1 | Flash Image 2.5 |
---|---|---|
タイトル再現 | 正確に日本語で出る | 雰囲気重視 |
小文字の再現 | 崩れやすい | 難あり |
操作性 | マスク機能で場所の指定が可能 | プロンプトで指定 |
6. 結果まとめ
観点 | gpt-image-1 | Flash Image 2.5 |
---|---|---|
一貫性 | 高い(input_fidelityで強化) | 高い(参照画像で安定) |
編集機能 | マスク編集対応 | 参照画像対応 |
日本語テキスト | タイトルは良好 | 雰囲気重視 |
利便性 | API経由で利用(上級者向け) | Web UIで手軽に利用可能 |
要点まとめ
- 精度・制御力重視ならgpt-image-1(特にマスク編集が活きるタスク)。
- 手軽さ・スピード重視なら Flash Image(参照画像を活用)。
- 日本語テキストは両者とも「雰囲気」は出せるが、小さな文字や本文の精緻さはまだ発展途上。
どちらも非常に完成度が高く、特に「全体の雰囲気が崩れない」という点で、以前の世代とは段違いです。
継続的に検証を進めながら、プロンプト設計や生成パラメータのチューニングについてはもちろん、新しいモデルについての検証なども今後共有していく予定です。
関連記事 | Related Posts
We are hiring!
【UI/UXデザイナー】クリエイティブ室/東京・大阪・福岡
クリエイティブ室についてKINTOやトヨタが抱えている課題やサービスの状況に応じて、色々なプロジェクトが発生しそれにクリエイティブ力で応えるグループです。所属しているメンバーはそれぞれ異なる技術や経験を持っているので、クリエイティブの側面からサービスの改善案を出し、周りを巻き込みながらプロジェクトを進めています。
生成AIエンジニア/AIファーストG/東京・名古屋・大阪・福岡
AIファーストGについて生成AIの活用を通じて、KINTO及びKINTOテクノロジーズへ事業貢献することをミッションに2024年1月に新設されたプロジェクトチームです。生成AI技術は生まれて日が浅く、その技術を業務活用する仕事には定説がありません。