Dev & Data Science

NLP Beginning

На практике учимся решать задачи, связанные с обработкой текстовой информации. От основ к первым практичным кейсам.

О курсе

Во время обучения на курсе вы поймете природу текстовых данных и как их собирать, хранить и анализировать. Узнаете о различных методах предварительной обработки текста и о том, какие существуют подходы к анализу текста в целом. Поймете, для каких задач NLP эффективнее всего применять ML подходы, а для каких — систему правил.

На практике вы самостоятельно создадите, обработаете и проанализируете данные, а также реализуете свой продакшн сервис для решения NLP задачи. Вы не только овладеете основными навыками, необходимыми для обработки естественного языка, но и освоите самые популярные библиотеки и технологии для реализации NLP решений.

Бонусом курса будет информация о том, как и где искать свою первую работу комплингвиста и как успешно пройти собеседование.

27 мая 2023 курс длится 3 месяца
10 000 грн/мес. 30 000 грн при полной оплате курса
10 500 грн/мес. при оплате частями
15 мест каждый студент получает регулярный фидбек от кураторки

Кураторы

Авторка программы Наталья Аванесова
Кураторка Ника Снежко
Кураторка Валерия Белоус

Программа курса

  • NLP в реальном мире

    • — Что такое NLP/NLU/NLG/NLI.
    • — Для решения каких бизнес задач используются техники и методы NLP. Самые трендовые NLP задачи последних лет.
    • — Каковы циклы современных NLP проектов.
    • — Какой может быть команда NLP проекта и что представляют собой ежедневные задачи комплингвистов/NLP инженеров?
    • — Какие навыки и умения необходимы комплингвистам/NLP инженерам, чтобы быть эффективными в команде.
  • Data Mining

    • — Какие типы данных существуют и каковы их особенности.
    • — Где взять данные.
    • — Как хранить данные.
    • — Почему комплингвист должен знать SQL.
  • Преимущества Python для анализа текстовых данных

    • — Почему именно Python.
    • — Какие Python-хаки лучше всего подходят для манипуляций с текстом.
    • — Какие самые популярные инструменты и библиотеки NLP для обработки текстовых данных.
  • Предварительная обработка текста

    • — Принцип GIGO. Почему важен этап предобработки.
    • — Чем отличается препроцессинг структурированных текстов от отзывов. Как с ними работать.
    • — Какие техники предобработки существуют.
    • — Как знать, когда предобработки завершена.
  • Обработка текстовых данных: от уровня слова до семантического анализа

    • — Регулярные выражения.
    • — N-grams и их применение в задачах NLU.
    • — Техники синтаксического анализа текста.
    • — Part-of-speech (POS) tagging.
    • — Что такое парсинг.
    • — Грамматика независимых составляющих и зависимостей. В чем разница и для каких задач используются.
    • — Техники семантического анализа.
    • — Co-reference resolution (анафора).
    • — Word sense disambiguation (многозначность слов).
    • — Named entity recognition (распознавание именуемых сущностей).
    • — Онтология и инструменты для ее создания + Semantic role labeling (смысловая аннотация слов).
  • Машинное обучение для NLP

    • — Какие бизнес-задания можно решить с помощью алгоритмов ML.
    • — Типы машинного обучения.
    • — Базовые алгоритмы ML.
    • — Классический ML/NLP pipeline.
    • — Как подготовить данные для машинного обучения и на что обратить особое внимание.
    • — Метрики качества результатов моделей.
    • — Confusion Matrix/Accuracy/Precision and Recall.
  • Текстовая репрезентация

    • — Что такое векторы и зачем они нужны.
    • — Bag of words.
    • — TF-DF.
    • — Bag of N-grams.
    • — Word embedding.
  • Тематическое моделирование

    • — Что такое тематические модели и какими они бывают.
    • — Метод латентного размещения Дирихле.
    • — Тематическое моделирование коротких текстов.
  • Классификация текста

    • — Классификация на основе правил.
    • — Машинное обучение с учителем для классификации текста.
    • — Машинное обучение без учителя для классификации текста.
  • Подходы на основе правил против машинного обучения

    • — Преимущества и недостатки каждого из подходов.
    • — Когда какой выбрать.
  • Как найти первую работу и успешно пройти собеседование

    • — Как получить свою первую работу в NLP и лучше всего подготовиться к собеседованию.
    • — Чек лист топовых вопросов для собеседования.

Курс для вас, если вы

Филолог, лингвист

знаете основы Python и хотите объединить все это, работая с NLP

Компьютерный лингвист

уровня Junior/Middle low, Data Scientist, уже работаете с NLP и чувствуете необходимость укрепить базу

Python программист

хотите освоить Natural Language Processing

Опыт

базовое понимание Python (переменные, циклы, функции).

Время

10-12+ часов в неделю для выполнения домашних заданий

Язык обучения

украинский

Как проходит обучение

Вебинары и видеолекции

Вебинары с кураторкой и группой будут проходить каждую субботу в 16:00, а видеолекции — открываться по понедельникам и четвергам.

Real-life задания

У нас действует Practicult — культ практики. Поэтому вы будете выполнять много сложной домашки из реальных рабочих будней. Have fun & survive.

Курсовой проект

Для проекта будем работать с данными реального заказчика. Ведь принцип курса — все как в жизни.

Регулярный фидбек

У нас нет базовых и премиум режимов. Только премиум, всегда. Получите от кураторки все. И да, десятая итерация — это нормально.

Сертификат за дело

Выдаем только тем, кто своим потом, временем и силами его заслужил.

ГРАФИК

Старт

27 мая 2023

Вебинары

суббота — 16:00

Видеолекции

понедельник, четверг

Узнайте больше

Twitter Сборище технарей, новости Development & Data Science, физра для мозга, непрошеные советы и социально-научные холивары
Лекция Плохие данные как главный враг эффективного машинного обучения и бюджетов компаний
PROJECTOR MAG Do you speak human language? Или кто такой NLP инженер и чем он занимается
PROJECTOR MAG За кафедрой Александр Руппельт: как строят линейку Data Science в Projector
Статья 10 тыс. часов, 6 советов. Как войти в Data Science и не сбежать в панике

Вопросы

Нужны ли какие-то навыки для поступления на курс?

Это базовый курс для людей без опыта в отрасли, все необходимое будем изучать с нуля. Однако вам пригодится знание основных понятий программирования и базовое понимание Python (переменные, циклы, функции). Также вы должны владеть английским на уровне Intermediate и выше.

Мы ценим ваше время и хотим, чтобы обучение было для вас релевантным. Поэтому после регистрации вышлем короткую анкету. Она поможет куратору узнать о вашем предыдущем опыте, а также оценить мотивацию и общее понимание отрасли.

Если все хорошо –– мы вам сразу сообщим о зачислении. А за несколько дней до старта курса вышлем письмо с информацией о процессе обучения. Важно: место в группе бронируется только после внесения оплаты.

Если вы получите отказ –– не расстраивайтесь. Мы вышлем также список полезных ссылок. Ознакомьтесь с этими материалами, а затем смело подавайте заявку на курс снова.

С каким софтом будем работать на курсе?

Для работы понадобится Anaconda Notebooks, а вебинары будут проходить в Zoom.

Можно ли смотреть занятия в любой удобный день?

Можно, но важно успевать выполнять домашние задания, которые вы будете получать еженедельно.

Как проходит коммуникация на курсе и в каком формате кураторка дает фидбек?

Вся коммуникация на курсе проходит на платформе Slack (рабочий чат группы, каналы для домашних заданий и полезных ссылок). Куратор дает фидбек в виде комментариев к домашним заданиям и обсуждения на вебинарах.

Будут ли мне доступны видеозаписи лекций после завершения курса?

Доступ в архив выпускника сохраняется 3 года с момента старта курса.

А сертификат будет?

Вы получите сертификат, если будете выполнять домашние задания и защитите курсовой проект.

Что, если мне не понравится?

Мы сможем вернуть деньги в течение 7 дней с даты старта курса, если вы передумаете.

Кто такой NLP инженер?

Natural Language Processing (NLP) — это обработка естественного языка. NLP инженеры — люди, которые разрабатывают продукты, связанные с обработкой естественного языка.

Также вы могли слышать название «компьютерный лингвист». Так иначе называют профессию NLP инженера. Если попытаться определить разницу между этими терминами, то очень условно можно найти одно расхождение: компьютерный лингвист имеет более широкую экспертизу в языкознании и теории, а инженер NLP — больше технического, программного бекграунда.

С какими продуктами работают NLP специалисты?

Любой анализ, понимание, синтез естественного языка (письменного или устного) — это все natural language processing (NLP). Среди реальных примеров можно выделить следующие:
— машинный перевод;
— создание чатботов — вопрос/ответ;
— разработка голосовых помощников типа Alexa или Siri;
— обработка больших объемов текстовых данных и извлечение из них нужной информации;
— анализ отзывов пользователей, в частности их классификация — положительный или отрицательный, о сервисе или цене и т.д.

Регистрация

Остались вопросы?
Не стесняйтесь их задавать.

Проконсультируйте меня