ちょっと興味あって、OpenAI の Moderation API を味見しています👀
「The moderations endpoint is a tool you can use to check whether text is potentially harmful. Developers can use it to identify content that might be harmful and take action, for instance by filtering it.」
ざっくり言うとテキストが有害なものかどうか判定する。というところでしょうか。
ちょっと興味出て、OpenAI の Moderation API を見てる👀
— 高橋 かずひと@闇のパワポLT職人 (@KzhtTkhs) 2024年7月17日
以前試してた人が「かなり直接的な言葉じゃないとTrueにならないから、NGフィルターとしては使いにくい」って言ってたけど、たしかにかなり直接的な言葉じゃないとTrueにならん🙄
気持ち、violenceのスコアが他より高いけども。 pic.twitter.com/W4DCQGXFFk
ただ、ちょっと動かした感じ、かなり直接的な表現(殺す とか)じゃないと True にならない印象です。
あと、全部平仮名にしたりすると(ころす とか)、サクッと False になってしまったり、、、🤔
sexual カテゴリで True 判定する入力も分かりませんでした、、、🦔
以下をColaboratoryで動かしました。
今回もGitHubに上げるほどじゃないので、ブログに試したコードを貼り付けます👀
!pip install openai
from openai import OpenAI from google.colab import userdata client = OpenAI(api_key=userdata.get('OPENAI_API_KEY')) # 【OpenAIのAPIキーを指定】
input_text = "" response = client.moderations.create(input=input_text) output = response.results[0] print(output.flagged) print() for _, category_score in zip(output.categories, output.category_scores): print(category_score)