← 返回列表
2
匿名用户
匿名
2026-01-04 11:03:09 · 圈子1
有没有懂大模型、智能体的大佬,想请教学习一些问题,偏向测试方向的。
682 浏览
0 访客
评论
2 条评论
3
匿名用户
回复 匿名
2026-01-04 15:10:05
ai进行测试吗还是啥
2
用户26079
回复 匿名
2026-01-04 15:15:07
针对大模型开发的测试
3
匿名用户
回复 meekness
2026-01-04 15:16:38
是对于大模型 微调/训练的测试还是智能体的
2
用户26079
回复 匿名
2026-01-04 15:24:01
都有,都想问问
3
用户3925
回复 meekness
2026-01-04 15:27:53
模型微调的话方法论比较多,一般训练的时候会有训练集,然后让ai对训练后的模型进行回答然后把答案和模型的回复结果交给另一个ai进行打分,如果训练集跑不过就是欠拟合,如果是通过了可以让ai对于问题和答案生成测试集。我微调只是玩过一点点懂得不是很多。
3
匿名用户
回复 meekness
2026-01-04 15:30:05
Agent的测试要麻烦一些。我自己总结的以下几点
1.针对Agent工具调用的测试
一方面是agent能否调用正确的工具,另一方面是agent调用工具时的参数是否传递的正确。这一块可以对agent的调用进行跟踪,然后也是要搞测试集的
2.针对agent总结的测试
对于问题以及回复的正确生成测试集然后打分啥的
2
匿名用户
回复 匿名
2026-01-04 15:55:48
ai本身测试还是ai做单元测试,对项目代码测试
2
用户26079
回复 匿名
2026-01-04 16:59:27
ai本身的测试,功能性能这块
2
匿名用户
回复 meekness
2026-01-05 08:30:39
模型训练过程中一般就是loss和准确率,f1分数等。大模型的话有rouge 困惑度等指标。性能就是跟传统开发差不多,并发,响应时间t99,再就是每秒生成的token数
1.针对Agent工具调用的测试
一方面是agent能否调用正确的工具,另一方面是agent调用工具时的参数是否传递的正确。这一块可以对agent的调用进行跟踪,然后也是要搞测试集的
2.针对agent总结的测试
对于问题以及回复的正确生成测试集然后打分啥的