OpenAI の Moderation API（問題発言検出 ※暴力とかセクシャルとか）を味見👀 - 高橋かずひとのプログラミング、その他、備忘録。

ちょっと興味あって、OpenAI の Moderation API を味見しています👀

「The moderations endpoint is a tool you can use to check whether text is potentially harmful. Developers can use it to identify content that might be harmful and take action, for instance by filtering it.」
ざっくり言うとテキストが有害なものかどうか判定する。というところでしょうか。

ちょっと興味出て、OpenAI の Moderation API を見てる👀

以前試してた人が「かなり直接的な言葉じゃないとTrueにならないから、NGフィルターとしては使いにくい」って言ってたけど、たしかにかなり直接的な言葉じゃないとTrueにならん🙄

気持ち、violenceのスコアが他より高いけども。 pic.twitter.com/W4DCQGXFFk
— 高橋かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年7月17日

ただ、ちょっと動かした感じ、かなり直接的な表現（殺すとか）じゃないと True にならない印象です。
あと、全部平仮名にしたりすると（ころすとか）、サクッと False になってしまったり、、、🤔
sexual カテゴリで True 判定する入力も分かりませんでした、、、🦔

以下をColaboratoryで動かしました。
今回もGitHubに上げるほどじゃないので、ブログに試したコードを貼り付けます👀

!pip install openai

from openai import OpenAI
from google.colab import userdata

client = OpenAI(api_key=userdata.get('OPENAI_API_KEY'))  # 【OpenAIのAPIキーを指定】

input_text = ""
response = client.moderations.create(input=input_text)

output = response.results[0]

print(output.flagged)
print()
for _, category_score in zip(output.categories, output.category_scores):
    print(category_score)