04072022 Metrics

Алгоритм распознавания:

  1. Парсинг HTML5 (DOM дерева) на объекты;

  2. Элемент классифицируется на основании признаков - модель для классификации.

Accuracy

На сколько точно “предсказание” попадает в те классы, которые мы ожидаем (вероятность ошибки первого рода). Соотношение предсказанного к существующему. На основании Confusion matrix, есть определённая формула.

Accuracy = П/(П+ЛП+ЛО+НепрТип)

П - элемент из списка тех что мы распознаём (в случае MUI - таких 25 типов)
ЛП - ложно положительное срабатывание - элемента нет (точнее - есть мусорный элемент не входящий в список распознаваемых), а мы его распознали что он есть (т.е. как будто он из списка распознаваемых)
ЛО - ложно отрицательный - элемент есть (т.е. входит в список распознаваемых), но модель его не увидела (т.е. классифицировала как мусорный)
НепрТип - это элемент которые входит в список распознаваемых, но модель тип этого элемента распознала не верно (т.е. вместо едит бокса сказала что это кнопка, например)

 

Можно подсчитать для каждого класса отдельно. Нужно менять веса для классов, если получены отрицательные отзывы от пользователей.

Можно подсчитать в среднем на сгенерированных данных 93% (29.06.2022)

На чём можно подсчитать accuracy так, чтобы метрика была релевантна?

  • Смена пропорций классов

  • Пул реальных сайтов - разметка руками датасета на валидацию.

Сколько % объектов можно будет исправить пользователю самостоятельно?

Real data accuracy: 0.6 - на сколько точно определился нужный нам класс (элемент был идентифицирован и класс был определён правильно)

Считаем, что модель работает успешно, если точность распознавания на несинтетических данных >0.5. Стремимся к 0.85 (считается, что модель великолепная).

Какая точность того, что все возможные элементы, которые должны были определиться, определились?

Нельзя распознать элементов больше, чем узлов в DOM-дереве.

 

Если сильный дисбаланс можно переходить к следующим метрикам:

Recall precision

Гармоническое среднее между precision и recall

 

Тестирование на реальных данных:

Имеющимся скриптом выкачиваем парсинг HTML на объекты → на выходе датафреймы → разметка ручная для добавления label (https://github.com/jdi-testing/jdi-qasp-ml/blob/develop/data/mui_dataset/classes.txt)

 

Meeting recording

04072022 Metrics (part 1).mp4

04072022 Metrics (part2).mp4