GPT4-VのAPIが解放されたため試してみています👀
手軽に高性能なVLMが扱えるのは良いですね。
GPT4-VのAPIをお試し👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2023年11月7日
惜しいけど、日本的なものの理解度もかなり高い🦔 pic.twitter.com/6PJyTdyDqO
GPT4VのAPIでお試しお試し👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2023年11月7日
プロンプトしだいなところもあるけど、流石の性能だ🤔 pic.twitter.com/J4VIPnS0fI
API化されたことによって、システムからもサクッと使えるようになりました。
とりあえず仕事用のAWSのLambdaから呼んで、定期監視を構築してみました(お仕事関係なのでココに結果は載せれませんが)
今回お試しで書いたスクリプト(2個目の事例のやつ)は以下です。
システムロールの設定もちゃんと有効に動きますね。
import requests
import cv2
# OpenAI API Key
image_path = "sample.jpg"
image = cv2.imread(image_path)
_, imencode_image = cv2.imencode('.jpg', image)
headers = {
}
system_text = """
### 指示 ###
画像の内容を理解した上で、出力形式にあわせて回答してください。
### 出力の制約 ###
- 日本語
- 天気は一言でまとめ、分からない場合は一番近いと思われる天気を回答する
- 道路状況は詳細を説明する
- 障害物がない場合は、なしとだけ回答する
- 障害物がある場合は、障害物の名称のみを回答する
### 出力形式 ###
天気:
道路状況:
障害物:
"""
payload = {
"model":
"messages": [
{
"role": "system",
"content": system_text
},
{
"role":
"user",
"content": [
{
"type": "text",
"text": "この画像には何が映っていますか?"
},
{
"type": "image_url",
"image_url": {
"url":
}
},
]
},
],
"max_tokens":
300
}
response = requests.post(
headers=headers,
)
cv2.waitKey(-1)