No description
Find a file
2025-08-28 12:53:04 +03:00
data updating to HRM 2025-08-19 12:03:20 +03:00
.gitignore updating gitignore 2025-08-19 12:04:10 +03:00
main.py probably working script 2025-08-28 12:53:04 +03:00
README.md updating 2025-07-21 15:21:49 +03:00

О ПРОЕКТЕ:

Используем:

  • Pytorch, Transformers, TRL (если будут проблемы с ресурсамы, попробуем unsloth)

ЗАДАЧИ:

Подготовка

Сбор данных

  • Проверить и очистить датасет при необходимости
  • Перевести существующие задачи (из датасета) на все включённые языки
  • Изучить организацию датасетов для RL (особенно математических)
  • Найти и систематизировать внешние датасеты для возможного использования

Обучение

  • Изучить методику применения RL для математики с GRPO
  • Создать первый простой ноутбук с GRPO
  • Разделить данные:
    • Полный набор (все языки)
    • Отдельные наборы для каждого языка
    • Возможно разделение по сложности задач (на основе результатов базовых моделей)
  • Обучение небольшой модели: Обязательно провести оценку базовых показателей до тонкой настройки
    • Тонкая настройка малой модели (qwen 1.7b или 0.6b) с использованием RL-ноутбука
    • Оценка и сравнение с базовыми показателями
    • Корректировка
    • Повтор При достижении удовлетворительных результатов:
  • Обучение крупной модели по проверенной методике: Обязательно провести оценку базовых показателей до тонкой настройки
    • Обучить модель DeepSeek-R1-0528-Qwen3-8B
    • Оценка
    • Корректировка
    • Повтор
  • Создать финальный Jupyter-ноутбук и представить результаты