生成AIでグラフィカルアブストラクトを作る (2)
またまた半年ぶりに試してみました。
というのも、仕事でGeminiに文章をまとめた概要図のアイディアの相談をしてみたところ思いのほかちゃんと図が出てきて驚いちゃいまして、もしや論文のグラフィカルアブストラクトくらいもう作れるようになってるんじゃないかと思った次第です。
と言うわけで今回はChatGPTではなくてGeminiのフリー版 (version 2.5 Flash)で試してみました。
1年くらい前まではプロンプトに工夫がいるとか、プロンプトエンジニア、みたいな考え方がありましたけど、このところの生成AIでは、普通に指示出せば違和感全然ないものが返ってきますね。諸行無常。盛者必衰。
フリー版のGeminiはPDFが直接読み込めないみたいなので、アブストの英語を貼り付けます。
今回もこちらの論文で試してます。
論文のアブストラクトを貼り付けますので、ここからグラフィカルアブストラクトを作成してもらえますか。
--- アブスト (英語のまま) 貼り付け---
今回記事を書くにあたって前の投稿を見直したんですけど、英語でプロンプト書いてる時がありましたね。普段から業務で生成AIを使っていますけど、今は特に日本語のやりとりで違和感ないんで「プロンプトは英語の方がいい」とか、「日本語はうまく理解できない」とか、古の知恵みたいな感じがありますね。おそろし。
と言うわけで上のプロンプトで出てきた図はこちら。

えー、なにこれ、すごすぎる。過去イチいい感じ。ChatGPTはこれまで一体なにをやってきたのって感じ。文字がちゃんと出てくるのが感動的ですね。糠漬けの漬樽が土鍋になってるのと、論文の対象はナスなのにキュウリになっているところ、意味不明な矢印があったり、論旨が真逆の解釈になってるなどなど、引っかかるところはあるけど、読める文字の図が出てるってだけで褒めちゃう。他の生成AIを試していないのでわからないけど、Geminiが優勝。
文字を図として出力することはできるけど、論理を読み取ってそれを図にする、と言うところまではまだできないのかも。
とはいえ、2024年の1月からやり始めたことですが、1年9ヶ月でかなり近いところまで辿り着いている気がする。は〜、たまらんね。AIエンジニアのみなさま、すごい。
生成AIでグラフィカルアブストラクトを作る
半年ぶりに試してみました。
生成AIの高性能化が止まりませんが、このジャンルはどうですかね。前より上手く描けるようになったかな。
今回は新しく利用できるようになったChatGPT4.5でやってみます。
まずはいつも通り、論文のPDFをアップロードしてグラフィカルアブストラクトを作成してみるようにお願いすると、こんな回答。
現在の環境では画像生成ができないため、グラフィカルアブストラクトの図そのものを作成することはできません。
代わりに、先ほど提示した構成を元に、ご自身で図を作成される際のイラスト指示書(アートプロンプト)を以下に提案します:
- 中央に野菜(大根)を配置。
- そこから矢印を2つに分岐させる。
- 上段:条件C(寒冷地)を表現するために、燻煙(煙のアイコン)と低温(雪の結晶)を描き、米ぬか床に漬け込む様子。
- 下段:条件W(温暖地)を表現するために、天日乾燥(太陽のアイコン)と常温(温度計)を描き、米ぬか床に漬け込む様子。
- 特定微生物(Halomonas, Halanaerobium, Marinobacter, Lactobacillus)を特徴的な細菌アイコンで示し、それらが優占している様子を強調。
- グルタミン酸と乳酸が増加していることを矢印または上向きのアイコンで強調。
内部で勝手にDELL・Eを参照して画像生成ができなくなってるのか、たまたまできなかったのか。
よくわかりませんが、ひとまずこのアートプロンプトを改めてDELL・Eに入力すると、こんな図が返ってきました。


んー、ちょっと何を示しているのかわからないなぁ。
つまるところ、生成AIにとっても、作ったものがテキストで入力されたものとあっているかどうかっていうのはざっくりとしかわからない、ってことなのかね。
イメージが明確な単語の処理は得意だったとしても、どう表現したらいいかわからない単語、例えばLactic acidとかGlutamic acidとかを表現するのは苦手なのかも。
そして手順の流れや思考の流れを図で理解するのも難しいのかもね。出力したものがあっているかどうかを調べることができなくて、フィードバックが効かないのかも。
ChatGPTによると
AI(特に画像生成モデル)が苦手なことは以下の通りです。
- 文字やラベルを正しく描写すること
- 細かな数値や正確なデータの表現
- 厳密な科学的正確性を求める図
→ AIを「最終成果物作成」ではなく、「初期アイデアやイメージ作成」に使うのが現実的です。
とのことです。これ以外にも苦手なことはありそうだけど。
そのうちモデルが発達すればこれも解決するのかねぇ。図から情報を読み取るのは文字から情報を読み取るよりもバージョンや揺れ・ブレが大きくて難しいのか。というかそもそも大規模「言語」モデルっていうんだから、図から意味を読み取ってフィードバックするっていうのは難しい、ってことなんだろうかね。
意味が正しいかどうか、ではなくて、現実にありうる姿かどうか、だけをチェックしているっていうのが今のところの生成AIによる画像・動画生成、って感じなのかなぁ。
もうちょっと時間がかかるのかもね。
ChatGPT4oでグラフィカルアブストラクトを作成する (2)
先週に引き続き、ChatGPT4oでチャレンジ中です。
思い切って発想を変えまして、論文を読んでもらった感想を図で表してもらうのがいいのかもと思い立ち、「印象」を図にする、という方針でやってみます。
まずは論文PDFを読んでもらいつつ、こちらのプロンプト。
この論文を読んで、あなたが感じたこと、考えたこと、思ったことについて、自由な発想で図にしてもらえますか。
実際にイラストレーターさんにお願いしたらすごく困る発注だなと思いつつ、こちらが出力されました。

書いてある内容は支離滅裂、というかキーワードが散りばめられて、野菜を微生物が関わっているんだよ、ということを伝えようとしていることはわかる。図にある謎のモチーフが混乱の元の予感。
イラストではなくて、幾何学的なパターンで表した方が良いのかも?
もう少し幾何学的な感じのイラストであなたの考えや読み取ったことを表現することはできますか?
返ってきたのはこちら。

読んだ論文に対してどんな印象を持ったのかはちょっとわからなくなってしまった。
今度は図の内容ではなくて図のテイストだけ指定してみる。
ポップなイラストにするとどうでしょうか。

いや、論文の内容は全く伝わらない。
印象だけで押し切るのはちょっと難しそうなので、方向づけを少しずつ。
発酵条件の違いについてはどう感じましたか?あまり重要ではないなという感じがしましたか?
あくまでも印象ベースのお願い。

やっぱり文字が怖すぎるんですよね。。。この後いくつか発酵条件の違いや製造工程の違いを意識してもらって印象を図にしてもらいましたが、似たり寄ったり。
というわけで
無理に説明的な画像を生成しなくても大丈夫です。印象を表現してください。
もう一度念押しで、印象を表現してもらいます。

印象の割合が急に増えました。しかし、まあ、グラフィカルアブストラクトには向いてないというか、まあ何を言おうとしているのかはわからないですね。。。世界観的なものはなんとなくわかるようなわからないような。
印象から切り込んでいくのもちょっと違うのかもしれない。また次回。
ChatGPT4oでグラフィカルアブストラクトを書いてみる(4ヶ月半ぶりに再チャレンジ)
大型連休にチャレンジしてから、なかなかうまくいかないことに嫌気がさしてしまい、ちょっと諦めていました。先日、たまたまなんとなくアクセス解析のページをみたところ、5月まで自分しか閲覧していないような状態だったのに、最近はどなたかが見れくれているようで、モチベーションが回復しました。誰かが見てくれていると思うと、やる気が出るものですね。ありがたい。
というわけで、題材としている論文は変えずに、もう一度チャレンジしていきます。この4ヶ月でChatGPTは4oになり(GW明けでしたね)、さらにo1-previewが公開されてより賢くなったのかなとも思いますが、論文原稿からグラフィカルアブストラクトを描けるようになったのか、チャレンジしてみます。
まずは4oでどう変わったかを確認してみます。
論文を貼り付けて、グラフィカルアブストラクトを描きたい、とだけ伝えると、こんな感じ。

書いてある文字は謎。やっぱり前提なしていきなり書いてもらうとこんな感じね。
というわけで、
論文に示された内容を読み取って、図にまとめるグラフィカルアブストラクトを作成したいと思っています。あなたと一緒に作っていきたいと思うのですが、協力してもらえますか。
とこんな感じでお尋ねすると
論文の要点や主なテーマ: 論文の核心となる内容、研究の目的や結論など。
図にしたい主要なデータやプロセス: グラフィカルアブストラクトに含めたい実験結果、モデル、プロセス、または図示すべきデータなど。
デザインやレイアウトのイメージ: シンプルで見やすい図、イラストレーション、フロー図など、どのようなスタイルが良いか。
を教えてと返ってきました。というわけで、
論文の要点や主なテーマは論文から読み取ってもらい、図にしたい主要なデータやプロセスを指定することに。
図にしたい主要なデータやプロセスの指示については
図にしたいプロセスはConditionCとConditionWの漬物製造工程の違いです。乾燥させる方法に違いがあることと漬け込み期間の温度と期間が違うことがわかるように示したいです。図にしたい主要な結果はCondition Cは乳酸菌のabundanceが発酵がすすんでもさほど高くならないのに対し、ConditionWは乳酸菌のabundanceが増える、という点です。これによって乳酸やグルタミン酸の含有量が異なる点がわかるように図示したいです。
追加で
乳酸菌の割合をグラフ化するときはFig. 2Aの結果に一致するようにして欲しいです。グルタミン酸と乳酸の濃度をグラフ化する時はFig. 3Bの結果に一致するようにして欲しいです。
とすると、一旦こんなグラフが出力されてきて

データは実際の結果と一致していないような気がするけど一旦置いておいて、ではこのグラフを使って全体を描いてもらうようにお願いすると、出てきた図はこちら。

やっぱり難しいみたい。そしてきゅうりがお好き。アメリカは漬物と言えばキュウリなんだよねぇ。
一気に全体を描いてもらおうとするのが良くないのかなと思い直して、まずは製造工程だけを描いてもらうことに。ダイコンの乾燥工程と漬け込み工程の条件が違うことがわかるように描いてもらいます。

矢印が持つ意味、図形が持つ意味みたいなものは踏まえられていない感じですね。
今度は一方の条件だけの工程を描いてもらうことにすると、

箸みたいなものから煙が出ていますが、これが燻し工程を表現しているみたい。伝わりにくい。「印象」とか「雰囲気」以外の要素を伝える図を作るのは難しいみたいですね。。。
さらに細かくステップを踏んで、乾燥工程だけを作図してもらうと

しかし描かれているものの現実感はない。さらにステップを刻んでダイコンを一つずつ紐で縛って簾状にしている図を書いてもらうことにします。

おどろおどろしい感じになってるな。なかなか近づかない。
大根を垂直に吊るすんじゃなくて、水平になるように縛って吊るす、というのが全然伝わらない。そもそもそういう発想がないのかもしれない。
というわけで今回はここで終了。
ChatGPT 4oにどういうふうに指示を出したら思い通りの図になるかを聞いてみると
具体的な指示をさらに細かく: 図の寸法、角度、向き、構成要素の配置について、詳細な数値や位置を明確にすることで、より正確に反映できる可能性があります。
視覚的参考を活用: 例として提供いただいた写真や図の詳細な説明があると、私が図を作成する際により精密な再現が可能になります。形状の特徴や物体同士の距離感、向きを明確にすることが重要です。
ステップごとのフィードバック: 段階ごとにフィードバックをいただきながら、段階的に図を改良することで最終的な形に近づけることができます。これは精度の向上に大きく貢献します。
繰り返し修正: 一度にすべてを忠実に再現することが難しいため、試行錯誤を通じて近づけるアプローチが有効です。
とのこと。
ここまで指示が出せるほとイメージが固まっているなら自分で書いた方が早いかも?
ChatGPTでグラフィカルアブストラクトを描く
このブログを始めたときの意欲的な更新頻度と比べると随分緩くなっていますが、引き続きやっていきます。
前回Diagramsを使うと良さそうな感じだったので、こちらで一度やってみる。
Diagramsのプロンプトの例でSequence diagram explaining internet、というのが出ていたんで、思い切って
please draw a sequence diagram explaining the production process of fermented cucumber pickles
とするとMermaidがバックグラウンドで動いてこんな感じのものが出力される。
ふむふむ。こういう感じで返してくれるのか。これをベースにして実際の論文の内容に沿って直す、というのはありだけど、ちょっとシンプルすぎると言えばシンプルすぎるような。
can you make this figure more attractive and fancy?
とすると、こんな感じ(日本語にしてもらいました)
うーん、色が変わっただけだなぁ。
please draw the conceptual version of this diagram.
とすると
おー、アイコンがつきました。
でもよくよくみるとEdit the codeのリンクがあって、ここからMermaidのコードを直接直すことができるわけね。ふむふむ。ざっくり大枠をDiagramsに作ってもらって、細かい修正は人の手でやる、って感じなのかなぁ。
今のところの感想としては、ChatGPTの創作活動についてはうまく使いこなせば6〜7割くらいまでのところを一気にやってもらえる、って感じですかねぇ。なので6〜7割くらいの完成度のトライアンドエラーのコストが劇的に低くなるので色々試せる、っていうのはあるのかも?
ChatGPTで図を書く
引き続きAIで図を書いてみる試み。
「なんとなくこんな感じのイメージ」という図は描けても、「この論文に書かれている事実に基づいたイメージ」を書くのはまだ難しいのかなという印象だけど、どうでしょうか。
そこで細かく指示を出したらどうなるかしら?をやってみました。
書いてもらうのは横長の図で縦に3等分し、左から赤、黒、青に塗りつぶした図。
さらに黒で塗りつぶしたところに白の長方形を5つ縦に等間隔で並べて長方形と長方形の間にオレンジの下向きの矢印を配置する、というもの。
まずはImage Generatorでやってみる。
プロンプトは以下の通り。
サイズは横長の800ピクセル x 600 ピクセルで用意してください。画面を縦に3つに均等に分け、背景色を右側は赤、中央は黒、左側は青色で塗ってください。中央の区画には長方形を5つ中央揃えで配置し、長方形の間に下向きの矢印を配置してください。長方形は全て白で塗り、矢印ははオレンジで塗ってください。
出力された画像はこんな感じ。

うーん。そうじゃないよなぁ。。。
一気に伝えるのが良くないのかも?ということで1つずつ情報を追加していく方針にしてみる。ひとまず中央に長方形を配置するのをやめて、3分割のトリコロールを出すところまでやってみる。
もう一度最初から指示を出します。描画の指示を出すまで画像を出力しないでください。
描画領域を縦に同じ面積になるように3分割
背景を、左から赤、黒、青で塗りつぶす
指示以外のものは何も付け加えずに描画してください

宇宙的な?センスが過剰すぎやしませんかね。
もう一度最初から指示を出します。描画の指示を出すまで画像を出力しないでください。
左側の長方形は枠なしで赤で塗りつぶし。中央の長方形は枠なしで黒で塗りつぶし。右側の長方形は枠なしで青で塗りつぶし。
指示以外のものは何も付け足さないでください。では描画してください。

山の絵!センス出したがっちゃう感じがいじらしい。どこからこの指示きたんだろう?
ちょっとImage Generatorでは無理がある?
続きまして、Diagrams: Show meでやってみます。
プロンプトは
こちら画像サイズは800ピクセル x 600ピクセルの横長で用意してください。画像を縦に3等分し、左から赤、黒、青に塗りつぶしてください。

おー。すごい。こういうのはDiagramsのほうが得意なのかしら。
長方形と矢印も配置するプロンプトを追加していきます。
この図にさらに要素を追加してください。黒の領域に白の長方形を5つ等間隔に並べてください。ただし、一番上の長方形の上端は、画像上端から5ピクセル下の位置に配置し、一番下の長方形の下端は画像下端から5ピクセル上の位置に配置してください。
黒の領域に配置した白の長方形のサイズは横150ピクセル、縦50ピクセルで描画してください。
中央に配置した白の長方形と長方形の間に下向きの矢印を加えてください。矢印はオレンジで塗りつぶしてください。ただし矢印の大きさは白の長方形と重ならないように調整してください。

一番したの長方形の配置がちょっと違うけど、ほぼ指示通り。ここから両端の領域にアーティステックな要素を追加したり、中央の長方形に文字を入れたりできるといいなと思いつつ、今日はこの辺でおしまい。
この程度なら自分で描いた方が速いので、このやり方はAIツールの使い方としては間違っているということがわかりました。描いて欲しいものが抽象的ではなくて具体的に、ディテールまで決まっている時にどうやって描いてもらうのかっていうのはまだよく掴めない・・・。
次回に続きます。
グラフィカルアブストラクトをAIに描いてもらう (4)
いろいろと慌ただしく中途半端になってしまったこの取り組みを再開。
ChatGPTもバージョンアップされている中で、他の描画ツールも試してみつつ比較してみます。以下の手順で出力してもらいます。
自発的発酵による乳酸発酵を利用して作られる伝統的な漬物に関する研究です。
伝統的な漬物は人為的な温度調節などをしないため、作られる地域の気候によって働く微生物が異なると考えられます。そこで、温暖な地域と寒冷な地域で働く微生物にどの様な違いがあるか、そしてその違いによってどの様な成分の違いが生まれるかについて検討しました。 重要な結果は、温暖な地域で作られたものは発酵が進み、乳酸菌や好塩細菌などの少数の属の微生物が占有するのに対し、寒冷な地域で作られたものは発酵がほとんど進まず、微生物も原料の細菌叢と大きく変化しない、ということがわかったことです。最終製品に含まれるアミノ酸や有機酸にも違いがあり、温暖な地域で作られたものは乳酸やグルタミン酸が大幅に増えていましたが、寒冷な地域で作られたものは原料のアミノ酸や有機酸の組成からほとんど変化していませんでした。
発酵原料は大根です。ぬかを使った糠漬けたくあんが最終製品です。これらを踏まえてグラフィカルアブストラクトを作成してもらえますか。
寒冷な地域は日本の秋田県、温暖な地域は日本の愛知県です。
寒冷な地域と温暖な地域の結果の違いが対比されるような図にしてほしいです。中央に漬物の製造手順、左側に関連な地域の結果、右側に温暖な地域の結果を表示してください。中央に表示する漬物の製造手順は次のとおりです。1. 原料を洗う 2. 原料を乾かす(温暖な地域は天日干し、寒冷な地域は燻製)3. ぬかにつける
<Diagrams: Show Me>
フローチャートのアイコンなのでグラフィカルアブストラクトとはちょっと違うかなと思いつつ、やってみた結果がこちら。
ほー。こういう感じになるのか。グラフィカルアブストラクトというよりも、考察の時にこういう図があるとロジックを積み重ねるのにいいのかもしれない。
<image generator>
文字が怖すぎる。そしてChatGPTでグラフィカルアブストラクトをお願いして出てくる図のテイストと同じなので、ChatGPTに頼むとこれが後ろで動いているのかな、という感じ。
<AI Drawing Image Generator>

プロンプトに研究内容を入力したら、
中央には大根の漬物製造プロセスを示します。このプロセスは3つのステップで構成され、1) 原料を洗う、2) 原料を乾かす(左側に燻製で乾燥させたイメージを、右側に天日干しのイメージを配置)、3) ぬかに漬ける、のイラストを配置します。
左側には秋田県を象徴する寒冷な地域の特徴を示し、ここでは発酵がほとんど進まない様子、多様な微生物が共存していること、そして原料のアミノ酸や有機酸の組成が大きく変化しないことを表現します。寒冷な地域の象徴として雪や冷たい風を含めることができます。
右側には愛知県を象徴する温暖な地域の特徴を示し、ここでは発酵が進んで乳酸菌や好塩細菌などの微生物が占有する様子、乳酸やグルタミン酸が大幅に増えたことを表現します。温暖な地域の象徴として太陽や暖かい風を含めることができます。
全体のデザインは、寒冷地域と温暖地域の違いが一目でわかるような対比が効いたものにし、各地域の微生物の違いや成分の違いが視覚的に理解しやすいようにします。
こんな素敵な解釈内容が返ってきたのに、これに基づいて作図するとこうなっちゃうのかね、という感じ。有言不実行感が強くてなんだか裏切られた感じさえする。
<Technical Drawing>
先に示した内容をプロンプトに入力すると、
中央(製造手順): 中央部分には、大根の漬物の製造プロセスを順番に示します。このプロセスは三段階に分かれています。 原料を洗う:大根が水で洗われている様子を描きます。 原料を乾かす:左側(寒冷地域)では燻製のイメージ、右側(温暖地域)では天日干しのイメージをそれぞれ描き、乾燥方法の違いを示します。 ぬかにつける:大根をぬか床に漬ける工程を描きます。これは中央で一貫して表示されます。
左側(寒冷地域の結果): 秋田県を象徴する冷たい色調(例えば、青や紫)を用いて、微生物の多様性が原料の細菌叢と大きく変わらないことを示します。発酵がほとんど進まない様子や、アミノ酸や有機酸の組成が原料から大きく変化しないことを視覚化します。
右側(温暖地域の結果): 愛知県を象徴する温かい色調(例えば、オレンジや赤)を用いて、発酵が進み、乳酸菌や好塩細菌などの少数の属が占有する様子を示します。乳酸やグルタミン酸が大幅に増加したことを象徴するグラフや図を用いて、成分の違いを視覚化します。
これまた、こんな素敵な提案をしていただきました。これを踏まえて図を出力してもらおうとしたけど、エラーで出力できず。。。惜しい。
逆にこれをChatGPTに入力してみましたが、結局特に大きく変化しない。どういう指示にすればいいカンジのグラフィカルアブストラクトになるのかしら。。。
うーん。次回に続く。