本期podcast來自Stella最近新開的Substack Newsletter - Data Science x AI。因為是英文Newsletter,所以這一期的podcast也是全英內容。LLM/GenAI evaluation是很新的一個領域,希望和大家一起討論! 在這一集中,Stella分享了當談到大型語言模型(LLMs)與 AI 驅動產品時,「準確性」究竟意味著什麼。我們會探討為什麼像 BLEU 和 ROUGE 這類傳統指標常常不足以衡量效果,說明 LLM評審(LLM-as-a-judge)的方法是如何運作的,以及為什麼多輪對話特別難以評估。 Stella也會分享一些實用的評分標準、技巧,以及從自己實驗中得到的經驗與教訓。 In this episode, Stella shares what “accuracy” really means when it comes to LLMs and AI-powered products. We explore why traditional metrics like BLEU and ROUGE often fall short, how LLM-as-a-judge methods work, and why multi-turn conversations are especially tricky to evaluate. Stella also shares practical tips, rubrics, and personal lessons learned from my own experiments. Subscribe "Data Science x AI" newsletter to get updates! https://datasciencexai.substack.com/ 留言告訴我你對這一集的想法: https://open.firstory.me/user/cls5sglrw05pc01tr4h0v4ufn/comments Podcast 任意門:https://linktr.ee/stellaxamy The Cocoons 英文電子報:https://thecocoons.substack.com/ 喜歡我們請訂閱分享喔! 找我們商業諮詢、加入會員:https://buymeacoffee.com/stellaxamy 聯絡我們:
[email protected] Powered by Firstory Hosting