This is a heavily interactive web application, and JavaScript is required. Simple HTML interfaces are possible, but that is not what this is.
Post
Michael Bechtel
qnbechtel.bsky.social
did:plc:4uxptuh42vltmul3jbjcujdx
Eine Studie des Oxford Internet Institutes zeigt systemische Probleme in der Bewertung von Large Language Models. Auch für den Vergleich taugen die Benchmarks wenig. Die Tests messen nicht, was sie vorgeben.
https://t3n.de/news/warum-viele-benchmarks-die-faehigkeiten-von-ki-modellen-ueberschaetzen-1715720/
2025-11-10T22:24:53.665Z