Фото: lemonade.style
Ника Тамайо Флорес
Как связаны между собой Data Science, Machine Learning и Artificial Intelligence? Artificial Intelligence (искусственный интеллект, ИИ) – это широкое понятие. Оно включает в себя интеллектуальные системы, которые принимают решения, которые традиционно являются прерогативой человека, а также технологии по созданию таких систем. Машинное обучение – это подраздел ИИ. Алгоритмы машинного обучения учатся принимать решения на основе исторических данных. Data Science, в свою очередь, – это наука о методах анализа данных для извлечения из них ценной информации. Соотношение между терминами можно проиллюстрировать так. Последнее, что упоминается на изображении – deep learning. Этот подраздел машинного обучения направлен на работу с нейронными сетями. На практике все эти термины часто употребляются как синонимы.
Как data science и Big Data меняют украинские компании? Люди склонны смотреть на мир через призму своей экспертности. Прошлый опыт, стереотипы, отношения – все это влияет на принятие решений. Алгоритмы же принимают решения прагматично. Они основываются только на практической пользе и выгоде. Машины не нуждаются во сне или отдыхе, они способны обработать миллионы значений и найти неочевидные и контринтуитивные закономерности, которые не под силу обнаружить человеку. Количество данных растет экспоненциально. Все чаще компании сталкиваются с тем, что традиционными методами обработать большие потоки данных сложно либо невозможно. Сейчас многие бизнесы только начинают применять продвинутые технологии анализа данных. Основные сферы применения ИИ в Украине – это прогнозная аналитика, удержание клиентов и автоматизация процессов. Пользуясь методами data science, компании могут получить следующие преимущества:
экономия времени и денег за счет автоматизации и оптимизации рутинных процессов и задач;
повышение производительности и эффективности работы;
избегание «человеческих ошибок»;
извлечение новых данных для расширения клиентской базы;
увеличение дохода за счет выявления и максимизации возможностей продаж;
персонализация клиентского опыта.
Фото: blogs.iadb.org
Как понять, нужно ли компании внедрять эти технологии? В авангарде по использованию продвинутых методов анализа данных сейчас находятся ритейлеры, банковский сектор, медицина, страховая отрасль, телекоммуникации и, конечно же, технологические компании. Компаниям из этих секторов стоит однозначно задуматься о развитии экспертизы в data science как минимум из-за ситуации на рынке. Чтобы однозначно ответить на вопрос, «стоит ли оно того», предлагаю следующий чек-лист. Если ваш ответ «да» хотя бы на два пункта из списка, то у вас есть все основания для близкого знакомства с продвинутыми технологиями анализа данных: 1. В компании есть насущная бизнес-задача, которую сложно или невозможно решить привычными методами (например, из-за того, что это занимает нерационально много времени или требует значительных капиталовложений). 2. Компания планирует интенсивно масштабироваться и расти, захватывать новые регионы и рынки. 3. Число ежегодных транзакций в компании или количество уникальных клиентов в течение года больше 1 млн. 4. В компании есть один или несколько отделов, которые занимаются однотипным ручным трудом (например, проверяют качество изделий на заводе, оперируют вводом данных, составляют ежемесячные отчеты). 5. Собственник или директор компании по телефону или по электронной почте постоянно просит предоставить данные по ключевым метрикам. 6. В компании есть аналитик, который больше половины своего рабочего времени собирает и стандартизирует информацию из разных источников. 7. Компания была одним из лидеров на рынке, а сейчас испытывает сильное давление от конкурентов, больше не растет или теряет долю рынка.
Где сейчас чаще всего применяют data science? Расскажите про наиболее интересные кейсы последнего года. Технологии машинного обучения и анализа данных плотно вошли в обиход. Каждый поисковый запрос в Google, каждое обращение к голосовому консультанту в смартфоне и каждое обновление в ленте Facebook и Instagram запускают умные алгоритмы. Компании FAANG (Facebook, Amazon, Apple, Netflix, Google) наиболее активно применяют data science на ряду с другими технологическими компаниями, ритейлерами, fintech и специалистами в digital advertising. Не отстают и производители продуктов питания, одежды и обуви. Например, Nike выпустили оснащенные сенсорами носки. При помощи мобильного приложения
Nike Fit пользователь сможет просканировать свою ногу и определить наиболее подходящий ноге размер и фасон кроссовок.
Фото: buro247.ua
Одно из классических применений data science в банковской сфере – это кредитный скоринг. Когда вы видите рекламу из серии «кредит за 15 минут», есть большая вероятность, что решение о выдаче такого кредита принимается при участии алгоритма. Такие технологии используют исторические данные, чтобы определить профиль «хорошего» заемщика (возвращает тело кредита и проценты в срок) и «плохого» заемщика (соответственно, у такого заемщика высокий риск дефолта). Тут возникает интереснейший парадокс: поскольку раньше решение о выдаче кредита принималось людьми со всеми свойственными им стереотипами, исторические данные уже искривлены мнением кредитных офицеров. Машины, которые учатся на этих данных, наследуют логику и стереотипы. Таким образом,
только укрепляется дискриминация в получении денежных средств от банков.
В своей статье о влиянии Искусственного интеллекта на государство и общество Генри Киссинджер, Эрик Шмидт и Дэниэл Хаттенлокер говорят, что ИИ внесёт новое измерение как в ядерное сдерживание, так и в отношения между людьми. Что, по-вашему, изменится в обществе после широкомасштабного внедрения ИИ? Зависит от того, что именно вы имеете в виду под «полномасштабным внедрением», ведь технологии ИИ уже пронизывают мир вокруг нас. Мы живем во времена четвертой промышленной революции. Это вызов для человечества и интересная задача одновременно. Но проблемы стоит решать по мере их поступления. Светофоры возникли, чтобы регулировать движение на дорогах, которые наводнили машины. Власти Китая все больше используют распознавание лиц, расширяют программу социального рейтинга. В то же время ЕС выпускает
Ethics Guidelines for Trustworthy Artificial Intelligence и продолжает работу над семейством data protection directives. Таким образом, в мире существуют две контртенденции: ограничение использования ИИ vs. проникновение ИИ во все институты, в том числе и общественно-политические. Этические вопросы использования персональных данных остаются открытыми. Думаю, что очень скоро изменится или же совсем исчезнет понятие data privacy. Оператор сотовой связи всегда знает, где вы находитесь. И будет знать, пока вы не включите авиарежим на своем смартфоне. Чтобы убежать от вездесущих технологий слежения, теперь нужно отказаться от таких привычных удобств как мобильная связь, социальные сети, покупки в интернет-магазинах или авиаперелеты. Еще больше возрастет ценность данных. Причем не простого обладания значительными объемами информации, а извлеченными из них инсайтами. Продвинутая аналитика быстро становится commodity. Те, кто успеют первыми внедрить технологии обработки и анализа, получат конкурентное преимущество как на уровне компаний, так и на уровне стран.
Может ли непрофессионал отличить технологию с применением ИИ от технологии без применения ИИ? Если да, то как? В 1950 году Алан Тьюринг, создатель дешифратора для немецкой Enigma, придумал эмпирический тест, чтобы отличить машинный интеллект от человеческого. Создателем тест задумывался так: «Человек взаимодействует с одним компьютером и одним человеком. На основании письменных ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы – ввести человека в заблуждение, заставив сделать неверный выбор». Таким же образом тестируют не только ответы на вопросы, но и изображения, видео или даже качество машинного перевода. Специалисты в deep fake создают настолько
реалистичные видео , что отличить их от настоящих невозможно иногда даже с применением технологий.
В каких странах сейчас наиболее развита технология искусственного интеллекта? На каком уровне находится Украина? Больше всего специалистов по ИИ в США, Китае и, пожалуй, Израиле. Причем в США развитие идет одновременно в разные стороны: это академические и прикладные исследования, военные разработки, применение ИИ в коммерческой и военной деятельности. В Китае же сосредоточились на использовании технологий для контроля и безопасности населения. Израиль вкладывает средства в военные и коммерческие разработки. ОАЭ – еще один интересный игрок на этой сцене. В правительстве страны существует такая должность как министр по вопросам искусственного интеллекта. По моим субъективным впечатлениям, Украина находится во второй десятке.
На Западе всё чаще Big Data и искусственный интеллект используются в избирательных кампаниях. Скандал с Cambridge Analytica только показал масштаб бедствия, к которому может привести необузданное применение этих технологий. Как обстоят дела в Украине? Известны ли вам случаи использования этих технологий для влияния на общественное мнение? Технологии такого толка ежедневно влияют на общественное мнение по всему миру через алгоритмическую ленту Facebook, и YouTube. Каждый человек сейчас живет в так называемом мыльном пузыре. Мы видим то, что сходно с нашими взглядами и убеждениями потому что мы с большей вероятностью это лайкнем. И будем дальше скролить посты друзей и кумиров.
Фото: EPA/UPG
В то же время социальные сети анализируют пользовательское поведение для обучения рекомендательных систем. Одна из таких систем
значительно повысила влияние правых в бразильском обществе . Что касается применения ИИ для влияния на политический процесс в Украине, то такие случаи мне неизвестны. Что не отрицает того, что они могли иметь место.
Чем Data Engineer отличается от Data Scientist? Data scientist работает с данными и создает модели, а Data engineer создает инфраструктуру для моделей и аналитики. Разберем на примере. Скажем, у нас есть ежедневные данные о продажах, а наша цель – создание прогноза продаж на следующую неделю для оптимизации закупок продукции. Data engineer для решения этой задачи построит data pipeline для сбора данных в единую базу. Если данные приходят из разных источников, то он также позаботится об их стандартизации. Data scientist возьмет данные из базы, проанализирует зависимости, проверит гипотезы и построит итоговую модель. Тут снова включится data engineer. Полученную модель он интегрирует в существующую IT-экосистему. На практике эти две профессии могут совмещаться, особенно в небольших компаниях.
Какие навыки и знания наиболее важны для data scientists? Есть четыре сферы, знания, которые необходимы каждому специалисту в data science: 1. Математика, статистика и теория вероятностей; 2. Язык программирования (чаще всего Python или R) и его библиотеки для анализа данных; 3. Алгоритмы и техники машинного обучения; 4. Знания в предметной области. Отмечу, что этот список будет пополняться в зависимости от области применения. Например, для работы с компьютерным зрением (computer vision, CV) необходимы знания о нейронных сетях и специфических алгоритмах работы с изображениями.
Где учиться науке о данных, чтобы потом найти работу? Какие университеты и специальности дают хорошую базу? Если говорить о техническом образовании в Украине, то программы государственных ВУЗов значительно отстают от реальности. Сейчас практически не существует программ для технических специалистов в этой области. Исключение: программы в УКУ во Львове. Вместе с крупными IT-компаниями в Киеве мы работаем над тем, чтобы в ближайшее время бакалаврские и магистерские программы по ИИ появились в КПИ и других киевских ВУЗах. Пока что я бы порекомендовала выбирать университет с фундаментальной математической базой и компьютерными науками, а дальше самостоятельно осваивать data science по онлайн-курсам на таких платформах как Coursera или Udacity. Говоря об образовании за границей, стоит отметить, что специальные программы есть во многих американских и европейских технических университетах и бизнес-школах. Например, я училась в IE Business School в Мадриде на программе по бизнес-анализу и большим данным. Она дает как технические навыки, так и менеджерские.
Какие самые распространённые ошибки у новичков в data science? Думаю, что эти проблемы – качество данных, ожидаемая многофункциональность и использование только сложных алгоритмов. Во время учебы или соревнований в Kaggle новички получают в основном чистые наборы данных, а в реальной жизни этого почти не бывает. В то время все говорят, что 80% работы data scientist’а состоит в том, чтобы очищать и манипулировать данными, таких задач недостаточно во время обучения. Сейчас ожидается, что специалист по обработке данных станет мастером на все руки: он должен знать математику, статистику, различные алгоритмы ML и предметные области, а также уметь представить результат бизнес-клиенту. Правда в том, что практически невозможно уместить все в одном человеке. Кроме того, становится намного сложнее быть экспертом в постоянно растущем царстве алгоритмов ML. Это делает путь обучения новичка очень запутанным. Джуниоры часто грешат использованием только сложных алгоритмов. Они хотят показать свою экспертность через сложные архитектуры нейронных сетей, хотя для достижения цели может быть достаточно использования самого простого алгоритма. Бизнес не использует LightGBM или сверточные нейронные сети для разработки, скажем, модели кредитного скоринга или чего-то подобного. Линейная регрессия, метод ближайших соседей и другие старые-добрые алгоритмы остаются незаслуженно забытыми.
Источник
lb.ua