Математические методы обработки больших данных
Математические методы обработки больших
данных
Содержание работы:
1. Провести первичный анализ данных под своим вариантом,
определяемым последней цифрой зачетной книжки.
2. Выявить наличие ошибочных данных.
3. Выявить наличие выбросов.
4. Отфильтровать данные.
5. Определить характеристики для построения модели.
6. Построить модель.
7. Оценить ее качество.
8. Представить полученные результаты.
9. Оформить выполнение работы и ее результаты в виде текстового
документа.
1. Построить модель, предсказывающую пол обладателя записи
голоса на основе характеристик записей их разговоров на основе
файла voiceDataSet.csv.
Данные файла:
meanfreq: средняя частота голоса (в кГц)
sd: стандартное отклонение частоты голоса
median: медианная частота (в кГц)
Q25: значение в первом квартиле (в кГц)
Q75: значение в третьем квартиле (в кГц)
IQR: интерквартильный размах (в кГц)
skew: ассиметрия
kurt: эксцесс
sp.ent: спектральная энтропия
sfm: энтропия Винера
mode: мода частоты
centroid: частотный центроид
meanfun: средняя основная частота, измеренная по акустическому сигналу
minfun: минимальная основная частота, измеренная по акустическому
сигналу
maxfun: максимальная основная частота, измеренная в акустическом сигнале
meandom: среднее значение доминирующей частоты, измеренной по
акустическому сигналу
mindom: минимум доминирующей частоты, измеренной в акустическом
сигнале
maxdom: максимум доминирующей частоты, измеренной в акустическом
сигнале
dfrange: диапазон доминантных частот, измеренное на звуковой сигнал
modindx: индекс модуляции голоса
2. Создать модель, которая будет предсказывать типы стекла по его
характеристикам файл glass.csv
Химические элементы: RI, Na, Mg, Al, Si, K, Ca, Ba, Fe, Type - целевая
переменная.
3. Создать модель, которая будет предсказывать медиану цены жилья в 506
районах Бостона. Загрузить датасет про цены на дома можно
получить по ссылке
data_url = "http://lib.stat.cmu.edu/datasets/boston"
Либо загрузить из библиотеки
from sklearn.datasets import load_boston
Характеристики посмотреть
data = load_boston()
print(data['DESCR'])
Характеристики данных:
1. CRIM доля преступлений на душу населения;
2. ZN доля площадей, выделенных под участки более 25000 кв. футов;
3. INDUS количество бизнеса в районе;
4. CHAS находится ли район около реки (= 1 – около реки, 0 – нет);
5. NOX концентрация загрязнений;
6. RM среднее количество комнат;
7. AGE доля используемых строений построенных до 1940г.;
8. DIS расстояние до центров занятости;
9. RAD расстояние до скоростных трас;
10. TAX налоги;
11. PTRATIO количество учителей на одного ученика;
12. B количество чернокожих в районе;
13. LSTAT % убыли населения;
14. MEDV значение предсказываемой медианы на $1000
4. Создать модель, которая будет предсказывать рейтинг ресторана по
данным сайта TripAdvisor на основе имеющихся в датасете данных
main_task.csv.
Restaurant_id — идентификационный номер ресторана / сети
ресторанов;
City — город, в котором находится ресторан;
Cuisine Style — кухня или кухни, к которым можно отнести блюда,
предлагаемые в ресторане;
Ranking — место, которое занимает данный ресторан среди всех
ресторанов своего города;
Rating — рейтинг ресторана по данным TripAdvisor (именно это
значение должна будет предсказывать модель);
Price Range — диапазон цен в ресторане;
Number of Reviews — количество отзывов о ресторане;
Reviews — данные о двух отзывах, которые отображаются на сайте
ресторана;
URL_TA — URL страницы ресторана на TripAdvosor;
ID_TA — идентификатор ресторана в базе данных TripAdvisor –
целевая переменная.
5. В датасете framingham.csv представлены данные, которые группа ученых
из Фрамингема (США) использовала для выявления риска заболевания
ишемической болезнью сердца в течение 10 лет. Создать модель, которая
будет предсказывать риск развития ишемической болезни сердца в 10-летней
перспективе, используя датасет framingham.csv.
Демографические данные:
sex (male): пол, мужчина (1) или женщина (0)
age: возраст
education: уровень образования (0-4: школа-колледж)
Поведенческие данные:
currentSmoker: курильщик (1) или нет (0)
cigsPerDay: количество выкуриваемых сигарет в день (шт.)
Медицинская история:
BPMeds: принимает ли пациент препараты для регулировки артериального
давления (0 - нет, 1 - да)
prevalentStroke: случался ли у пациента сердечный приступ (0 - нет, 1 - да)
prevalentHyp: страдает ли пациент гипертонией (0 - нет, 1 - да)
diabetes: страдает ли пациент диабетом (0 - нет, 1 - да)
Физическое состояние:
totChol: уровень холестерина
sysBP: систолическое (верхнее) артериальное давление
diaBP: диастолическое (нижнее) артериальное давление
BMI: индекс массы тела - масса (кг) / рост^2 (в метрах)
heartRate: пульс
glucose: уровень глюкозы
Целевая переменная:
TenYearCHD: риск заболевания ишемической болезнью сердца в течение 10
лет
6. Создать модель, которая будет, используя данные о клиенте, можно
решить, выдавать ли клиенту кредит train.csv
Оформите заявку прямо сейчас!
или напишите нам прямо
сейчас
Осталось только оформить заявку и получить ее по самой привлекательной цене.
Закажи прямо сейчас!
или напишите нам прямо
сейчас
Здравствуйте. Нужна срочно практическая часть вкр, третья глава. Скину похожие работы, на которые можно ориентироваться.
Елена, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.
Здравствуйте, хотел бы узнать сколько будет стоить презентация и защитная речь И сколько по времени займёт?
Павел, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.
Дистанционная помощь в защите ВКР
Арсений, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.
вкр по теме: экологический туризм России : анализ состояния, проблемы и перспективы
Людмила, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.
Здравствуйте вы защищаете ВКР?
Валя, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.
Написать магистерскую ВКР на тему «Совершенствование логистических бизнес-процессов на примере торговой компании». Не менее 100 страниц.
Владимир, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.
Здравствуйте нужна работа Вкр
Екатерина, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.
Написать ВКР 3 раздела
Тема строительство строительство жилого дома с применением каркасно-монолитных технологий
Антиплагиат от 75%
ПЗ и чертежи
Дмитрий, здравствуйте! Прошу Вас прислать всю необходимую информацию на почту info@author365.ru и написать что необходимо выполнить. Я посмотрю описание к заданиям и подскажу вам по стоимости и срокам выполнения.