О курсе
Во время обучения на курсе вы поймете природу текстовых данных и как их собирать, хранить и анализировать. Узнаете о различных методах предварительной обработки текста и о том, какие существуют подходы к анализу текста в целом. Поймете, для каких задач NLP эффективнее всего применять ML подходы, а для каких — систему правил.
На практике вы самостоятельно создадите, обработаете и проанализируете данные, а также реализуете свой продакшн сервис для решения NLP задачи. Вы не только овладеете основными навыками, необходимыми для обработки естественного языка, но и освоите самые популярные библиотеки и технологии для реализации NLP решений.
Бонусом курса будет информация о том, как и где искать свою первую работу комплингвиста и как успешно пройти собеседование.


10 500 грн/мес. при оплате частями

Программа курса
-
NLP в реальном мире
- — Что такое NLP/NLU/NLG/NLI.
- — Для решения каких бизнес задач используются техники и методы NLP. Самые трендовые NLP задачи последних лет.
- — Каковы циклы современных NLP проектов.
- — Какой может быть команда NLP проекта и что представляют собой ежедневные задачи комплингвистов/NLP инженеров?
- — Какие навыки и умения необходимы комплингвистам/NLP инженерам, чтобы быть эффективными в команде.
-
Data Mining
- — Какие типы данных существуют и каковы их особенности.
- — Где взять данные.
- — Как хранить данные.
- — Почему комплингвист должен знать SQL.
-
Преимущества Python для анализа текстовых данных
- — Почему именно Python.
- — Какие Python-хаки лучше всего подходят для манипуляций с текстом.
- — Какие самые популярные инструменты и библиотеки NLP для обработки текстовых данных.
-
Предварительная обработка текста
- — Принцип GIGO. Почему важен этап предобработки.
- — Чем отличается препроцессинг структурированных текстов от отзывов. Как с ними работать.
- — Какие техники предобработки существуют.
- — Как знать, когда предобработки завершена.
-
Обработка текстовых данных: от уровня слова до семантического анализа
- — Регулярные выражения.
- — N-grams и их применение в задачах NLU.
- — Техники синтаксического анализа текста.
- — Part-of-speech (POS) tagging.
- — Что такое парсинг.
- — Грамматика независимых составляющих и зависимостей. В чем разница и для каких задач используются.
- — Техники семантического анализа.
- — Co-reference resolution (анафора).
- — Word sense disambiguation (многозначность слов).
- — Named entity recognition (распознавание именуемых сущностей).
- — Онтология и инструменты для ее создания + Semantic role labeling (смысловая аннотация слов).
-
Машинное обучение для NLP
- — Какие бизнес-задания можно решить с помощью алгоритмов ML.
- — Типы машинного обучения.
- — Базовые алгоритмы ML.
- — Классический ML/NLP pipeline.
- — Как подготовить данные для машинного обучения и на что обратить особое внимание.
- — Метрики качества результатов моделей.
- — Confusion Matrix/Accuracy/Precision and Recall.
-
Текстовая репрезентация
- — Что такое векторы и зачем они нужны.
- — Bag of words.
- — TF-DF.
- — Bag of N-grams.
- — Word embedding.
-
Тематическое моделирование
- — Что такое тематические модели и какими они бывают.
- — Метод латентного размещения Дирихле.
- — Тематическое моделирование коротких текстов.
-
Классификация текста
- — Классификация на основе правил.
- — Машинное обучение с учителем для классификации текста.
- — Машинное обучение без учителя для классификации текста.
-
Подходы на основе правил против машинного обучения
- — Преимущества и недостатки каждого из подходов.
- — Когда какой выбрать.
-
Как найти первую работу и успешно пройти собеседование
- — Как получить свою первую работу в NLP и лучше всего подготовиться к собеседованию.
- — Чек лист топовых вопросов для собеседования.
Курс для вас, если вы
Филолог, лингвист
знаете основы Python и хотите объединить все это, работая с NLP
Компьютерный лингвист
уровня Junior/Middle low, Data Scientist, уже работаете с NLP и чувствуете необходимость укрепить базу
Python программист
хотите освоить Natural Language Processing
Опыт
базовое понимание Python (переменные, циклы, функции).
Время
10-12+ часов в неделю для выполнения домашних заданий
Язык обучения
украинский
Как проходит обучение
Вебинары и видеолекции
Вебинары с кураторкой и группой будут проходить каждую субботу в 16:00, а видеолекции — открываться по понедельникам и четвергам.
Real-life задания
У нас действует Practicult — культ практики. Поэтому вы будете выполнять много сложной домашки из реальных рабочих будней. Have fun & survive.
Курсовой проект
Для проекта будем работать с данными реального заказчика. Ведь принцип курса — все как в жизни.
Регулярный фидбек
У нас нет базовых и премиум режимов. Только премиум, всегда. Получите от кураторки все. И да, десятая итерация — это нормально.
Сертификат за дело
Выдаем только тем, кто своим потом, временем и силами его заслужил.
ГРАФИК
Старт
27 мая 2023
Вебинары
суббота — 16:00
Видеолекции
понедельник, четверг
Вопросы
Нужны ли какие-то навыки для поступления на курс?
Это базовый курс для людей без опыта в отрасли, все необходимое будем изучать с нуля. Однако вам пригодится знание основных понятий программирования и базовое понимание Python (переменные, циклы, функции). Также вы должны владеть английским на уровне Intermediate и выше.
Мы ценим ваше время и хотим, чтобы обучение было для вас релевантным. Поэтому после регистрации вышлем короткую анкету. Она поможет куратору узнать о вашем предыдущем опыте, а также оценить мотивацию и общее понимание отрасли.
Если все хорошо –– мы вам сразу сообщим о зачислении. А за несколько дней до старта курса вышлем письмо с информацией о процессе обучения. Важно: место в группе бронируется только после внесения оплаты.
Если вы получите отказ –– не расстраивайтесь. Мы вышлем также список полезных ссылок. Ознакомьтесь с этими материалами, а затем смело подавайте заявку на курс снова.
С каким софтом будем работать на курсе?
Для работы понадобится Anaconda Notebooks, а вебинары будут проходить в Zoom.
Можно ли смотреть занятия в любой удобный день?
Можно, но важно успевать выполнять домашние задания, которые вы будете получать еженедельно.
Как проходит коммуникация на курсе и в каком формате кураторка дает фидбек?
Вся коммуникация на курсе проходит на платформе Slack (рабочий чат группы, каналы для домашних заданий и полезных ссылок). Куратор дает фидбек в виде комментариев к домашним заданиям и обсуждения на вебинарах.
Будут ли мне доступны видеозаписи лекций после завершения курса?
Доступ в архив выпускника сохраняется 3 года с момента старта курса.
А сертификат будет?
Вы получите сертификат, если будете выполнять домашние задания и защитите курсовой проект.
Что, если мне не понравится?
Мы сможем вернуть деньги в течение 7 дней с даты старта курса, если вы передумаете.
Кто такой NLP инженер?
Natural Language Processing (NLP) — это обработка естественного языка. NLP инженеры — люди, которые разрабатывают продукты, связанные с обработкой естественного языка.
Также вы могли слышать название «компьютерный лингвист». Так иначе называют профессию NLP инженера. Если попытаться определить разницу между этими терминами, то очень условно можно найти одно расхождение: компьютерный лингвист имеет более широкую экспертизу в языкознании и теории, а инженер NLP — больше технического, программного бекграунда.
С какими продуктами работают NLP специалисты?
Любой анализ, понимание, синтез естественного языка (письменного или устного) — это все natural language processing (NLP). Среди реальных примеров можно выделить следующие:
— машинный перевод;
— создание чатботов — вопрос/ответ;
— разработка голосовых помощников типа Alexa или Siri;
— обработка больших объемов текстовых данных и извлечение из них нужной информации;
— анализ отзывов пользователей, в частности их классификация — положительный или отрицательный, о сервисе или цене и т.д.