ChatGPT
本文最后更新于:2025年4月29日 下午
OpenAI模型
模型 | token | 编码 |
---|---|---|
gpt-35-turbo | cl100k_base | |
text-similarity-ada-001 | ||
ttext-davinci-003 | 4097 | p50k_base |
text-davinci-002 | ||
text-embedding-ada-002 |
可以像下面这样使用tiktoken.encoding_for_model()来查询某个模型使用的编码。
pip install --upgrade tiktoken
import tiktoken
encoding = tiktoken.encoding_for_model('gpt-3.5-turbo')
通过encoding.encode()将文本变成token
def num_tokens_from_string(self, string: str, encoding_name: str) -> int:
"""Returns the number of tokens in a text string."""
encoding = tiktoken.get_encoding(encoding_name)
num_tokens = len(encoding.encode(string))
return num_tokens
num_tokens_from_string(prompt, "p50k_base")
推荐:text-embedding-ada-002 (Version 2)
- 若要使用不同的模型,请将
text-davinci-002
替换为另一个部署的 ID。 请记住,部署 ID 不一定与模型名称相同。 你是在 Azure OpenAI Studio 中创建部署时为其命名的。
ChatGPT
https://junyyds.top/2023/05/17/ChatGPT/