Классификация пакетов Android за 60 минут

Обучение в несколько этапов с использованием модели изучения языка (LLM) Google Vertex AI.

Недавно мы столкнулись с интересной задачей: из предоставленного списка описаний пакетов Android нам нужно было определить, какие из них могут быть связаны с азартными играми и приложениями для быстрого вывода денег. Эта информация будет использоваться как часть разработки функций для анализа мошенничества.

Само собой разумеется, что мошенничество – это всегда бесконечная игра в кошки-мышки между мошенниками и организациями, пытающимися защитить своих клиентов и активы. Чтобы оставаться впереди, мы все чаще используем модели машинного обучения для обнаружения мошеннических действий.

В этой статье я покажу, как нам удалось классифицировать около 4000 описаний пакетов Android примерно за час от начала до конца!

Что бы мы делали до получения степени LLM

До LLM для достижения этой задачи нам необходимо:

Пометьте вручную довольно значительное количество идентификаторов пакетов с соответствующими категориями.
Создайте и обучите классификатор
Промойте и повторите, если результаты неудовлетворительны.

Новый рабочий процесс

В этом новом рабочем процессе нам нужно было написать (минимальный) код только на самом последнем этапе. Всего остального мы смогли достичь в Vertex AI.

1. Доступ к Vertex AI в консоли Google Cloud:

Выберите «Язык» в разделе Generative AI Studio в левом меню, а затем «Текстовая подсказка».

2. Напишите подсказку и укажите категории

Первый шаг — написать подсказку и указать категории. Возможно, для этого потребуется немного поэкспериментировать, но здесь я просто перечислил категории, которые меня интересовали:

смотрите также:

Новые материалы

Обучение модели Keras с большим набором данных (пакетное обучение)

Привет народ!! В этом блоге я собираюсь обсудить очень интересную особенность Keras. При обучении любой модели глубокого обучения обязательным условием для получения хорошего результата..

Раскрытие возможностей сверточных нейронных сетей: обучение аутентификации изображений

1.0 ВВЕДЕНИЕ В области анализа цифровых изображений насущной необходимостью стала разработка надежных методов, позволяющих отличить подлинные изображения от поддельных. С появлением сложных..

Изучение основных библиотек Python для науки о данных

В эпоху больших данных и информационной перегрузки способность извлекать значимую информацию из огромных наборов данных стала важнейшим навыком. Именно здесь в игру вступает наука о данных...

Легко загружать в React элемент HTML в виде изображения

Много раз на наших сайтах нам нужно сделать кнопку доступной для пользователей, чтобы они могли загружать содержимое страницы. Иногда нам нужно загрузить таблицу, график или, в более общем..

Запуск кластера Stable Diffusion на GCP с обслуживанием tensorflow (часть 1)

Часть 1. Настройка инфраструктуры с помощью Terraform В первой части этого руководства, состоящего из двух частей, мы научимся создавать кластер Kubernetes, который развертывает модель Stable..

Внедрение человечности в машинное обучение

Иногда мне хочется, чтобы прогресс в кодировании был хоть немного более полезным. Если использовать баскетбол — еще одно хобби всей моей жизни — для сравнения: когда я забиваю мяч, это гораздо..

Обнаружение выражений лица и поз с помощью машинного обучения

От обнаружения лица человека до доступа к устройствам или распознавания человека с помощью камер видеонаблюдения или прогнозирования стратегий в спорте путем определения ключевых точек поз или..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Computer Science Android Development Front End Development Java Python Programming CSS Angular Startup HTML Data Algorithms Tech NLP Programming Languages Nodejs Learning Data Visualization AWS Statistics Javascript Development Science Computer Vision Neural Networks Typescript Blockchain