Qwen3.6 35B A3B с дистилляцией под Opus 4.6 уже выложили в GGUF Основа Qwen3.6-35B-A3B, которую до

✴️ Qwen3.6 35B A3B с дистилляцией под Opus 4.6 уже выложили в GGUF

Основа — Qwen3.6-35B-A3B, которую дообучили через LoRA, затем смержили в полный чекпоинт и перевели в GGUF. По карточке модели, обучение шло на reasoning-датасетах в стиле Claude Opus 4.6, а сам тюнинг был только текстовым — без дополнительного обучения на изображениях и видео.

Автор использовал три публичных reasoning-датасета, суммарно это около 14,2 тыс. примеров, обучал модель 2 эпохи с максимальной длиной последовательности 32 768 токенов. В GGUF уже лежат кванты Q4_K_M, Q5_K_M, Q6_K и Q8_0 размером 21,2 / 24,7 / 28,5 / 36,9 ГБ. Отдельно важно, что заявленный прирост в MMLU-Pro с 42,86% до 75,71% — это self-reported smoke-тест всего на 70 вопросах, а не полноценный большой релизный бенч, так что воспринимать это лучше как ранний сигнал, а не окончательный вердикт по качеству.

Источник: Hugging Face

🤑 ForgetMe | Boosty

Приобрести подписку на любые сервисы
@forgetshop_bot

#нейросети #llm #qwen

Комментарии

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *