Введение в машинное обучение
- Предыдущая страница ufuncs в NumPy
- Следующая страница Среднее значение и медиана
Машинное обучение позволяет компьютерам учиться из исследовательских данных и статистической информации.
Машинное обучение - это один из шагов на пути к искусственному интеллекту (AI).
Машинное обучение - это программа, которая может анализировать данные и учиться предсказывать результаты.
С чего начать?
В этом курсе мы вернемся к математике и изучим статистику, а также как рассчитывать важные значения на основе набора данных.
Мы также будем изучать, как использовать различные модули Python для получения необходимых ответов.
Кроме того, мы будем изучать, как создавать функции, которые могут предсказывать результаты на основе полученных знаний.
Набор данных
В компьютере набор данных означает любую коллекцию данных. Это может быть что угодно, от массива до полной базы данных.
Пример массива:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Пример базы данных:
Carname | Color | Age | Speed | AutoPass |
---|---|---|---|---|
BMW | красный | 5 | 99 | Y |
Volvo | черный | 7 | 86 | Y |
VW | серый | 8 | 87 | N |
VW | белый | 7 | 88 | Y |
Ford | белый | 2 | 111 | Y |
VW | белый | 17 | 86 | Y |
Tesla | красный | 2 | 103 | Y |
BMW | черный | 9 | 87 | Y |
Volvo | серый | 4 | 94 | N |
Ford | белый | 11 | 78 | N |
Toyota | серый | 12 | 77 | N |
VW | белый | 9 | 85 | N |
Toyota | синий | 6 | 86 | Y |
Просмотр массива позволяет предположить, что среднее значение может составлять около 80 или 90, и мы также можем определить максимальное и минимальное значения, но что еще мы можем сделать?
Просматривая базу данных, мы видим, что наиболее популярным цветом является белый, а старейший возраст автомобиля составляет 17 лет, но что если можно предсказать, имеет ли автомобиль AutoPass, просто посмотрев на другие значения?
Это и есть цель машинного обучения! Анализ данных и прогнозирование результатов!
В машинном обучении обычно используются非常大的 наборы данных. В этом руководстве мы постараемся сделать понимание различных концепций машинного обучения как можно более простым, используя некоторые небольшие наборы данных, которые легко понять.
Тип данных
Для анализа данных важно понимать тип данных, с которыми мы работаем.
Мы можем классифицировать типы данных в три основные категории:
- Числовой (Numerical)
- Категориальный (Categorical)
- Иерархический (Ordinal)
Числовые данныеЭто числа, которые можно разделить на два класса значений:
- Discrete Data (Discrete Data)
- - Числа, ограниченные целыми числами. Например: количество проехавших машин.
- Конsecutive Data (Continuous Data)
- - Числа с бесконечным количеством значений. Например: цена товара или размер товара.
Категориальные данныеЭто значения, которые не могут быть измерены друг относительно друга. Например: значения цвета или любых yes/no значений.
Иерархические данныеАналогично категориальным данным, но их можно измерять. Пример: оценка школы A лучше, чем оценка школы B, и т.д.
Зная тип данных источника данных, вы можете определить,何种技术在数据分析中使用。
В следующей главе вы узнаете больше о статистике и анализе данных.
- Предыдущая страница ufuncs в NumPy
- Следующая страница Среднее значение и медиана