llm-evaluation

ThinkBench is an LLM benchmarking tool focused on evaluating the effectiveness of chain-of-thought (CoT) prompting for answering multiple-choice questions.

multiple-choice-question-answering large-language-models llm chain-of-thought llm-evaluation chain-of-thought-prompting

Updated Jul 1, 2024
Python

DavidGir / LangChain-Familiarization

Star

For the purposes of familiarization and learning. Consists of utilizing LangChain framework, LangSmith for tracing, OpenAI LLM models, Pinecone serverless vectorDB using Jupyter Notebook and Python.

models prompt parsers pinecone rag llm langchain-python langchain-chains langchain-agent llm-evaluation llmchain

Updated Mar 29, 2024
Jupyter Notebook

prompt-foundry / dotnet-sdk

Star

The prompt engineering, prompt management, and prompt evaluation tool for C# and .NET

csharp dotnet prompt prompt-engineering prompt-manager prompt-management llm-eval llm-evaluation prompt-evaluation

Updated Jun 16, 2024

awesome-software / ray-summit-2023-training

Star

llm-evaluation

Updated Sep 21, 2023
Jupyter Notebook

j0st / PoliticalLLM

Star

A framework for automatically manipulating and evaluating the political ideology of LLMs with two ideology tests: Wahl-O-Mat and Political Compass Test.

german pct manifesto-project rag wahlomat political-ideology-detection llms llm-evaluation

Updated Jul 4, 2024
Python

euskoog / openai-assistants-evals

Star

Visualize LLM Evaluations for OpenAI Assistants

openai tailwindcss llms llm-evaluation openai-assistants

Updated Mar 27, 2024
TypeScript

gretelai / navigator-helpers

Star

Navigator Helpers

ai agent-based synthetic-data llm llm-evaluation

Updated Jul 16, 2024
Python

Improve this page

Add a description, image, and links to the llm-evaluation topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the llm-evaluation topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

llm-evaluation

Here are 84 public repositories matching this topic...

nagababumo / Automated-Testing-for-LLMOps

prompt-foundry / ruby-sdk

johnsonhk88 / Web-Scraping-by-LLM-And-AI-Agent

prompt-foundry / java-sdk

ricardo-agz / LLMChess

prompt-foundry / kotlin-sdk

prompt-foundry / go-sdk

IteraLabs / knowledge-benchmarks

awesome-software / lm-evaluation-harness

aknvictor / calibrationgame

SharathHebbar / eval_llms

wittyicon29 / Custom-Evaluate-LLM

nagababumo / Building-and-Evaluating-Advanced-RAG

reuank / ThinkBench

DavidGir / LangChain-Familiarization

prompt-foundry / dotnet-sdk

awesome-software / ray-summit-2023-training

j0st / PoliticalLLM

euskoog / openai-assistants-evals

gretelai / navigator-helpers

Improve this page

Add this topic to your repo