【2022春实习】百度笔试记录(机器学习/数据挖掘/自然语言)

2023-05-16

20220412百度笔试—机器学习/数据挖掘/自然语言

文章目录

  • 20220412百度笔试—机器学习/数据挖掘/自然语言
  • 一、选择题30道(60分)
  • 二、问答题1道(20分)
  • 三、系统设计题1道(30分)
  • 四、编程题2道(40分)

此次笔试分A卷(C++)和B卷(JAVA)。

一、选择题30道(60分)

考察内容涉及:数据结构、熟悉C++、概率论、线性代数、离散数学、计算机网络、操作系统和机器学习。

部分题目:

  • 用于多分类任务的激活函数:Softmax
  • TCP首部的确认号字段ACK
  • GMM-HMM模型
  • 朴素贝叶斯模型
  • 特征向量
  • SGD随机梯度下降法
  • 随机森林算法
  • 强连通图:n个顶点,最多有n*(n-1)条边;最少有n条边
  • 红黑树的高度
  • 完成二叉树的高度
  • 最长公共前后缀
  • 冒泡排序的比较次数
  • C4.5使用的属性划分标准:信息增益率

二、问答题1道(20分)

在离线训练点击率预估模型的过程中,验证集的AUC显著提高,但上线后效果不佳,分析其原因。

我的回答:

在离线训练点击率预估模型的过程中,题目中只提到了验证集的AUC显著提高,没有提及训练集的AUC效果如何,故从以下方面分析上线后排序效果差:
1.模型训练次数太少,泛化能力差。
2.模型过拟合:此种情况下,模型过度拟合了训练集数据的特征,导致实际使用中效果差,泛化能力差。
3.用于训练的数据过少,模型特征提取能力差,导致实际使用效果差。
4.训练集和验证集不具备代表性,或者训练数据集中的噪声影响了模型的训练。
5.所训练的模型不适合该类问题,模型设计过于复杂或者过于简单,应更换其他模型尝试解决该类问题。

三、系统设计题1道(30分)

产品还没上线,设计一个音乐引擎推荐系统,有30万首候选歌曲,无用户数据。

四、编程题2道(40分)

  1. 小明最近经常会思考一些关于整数的问题。今天他想到这么一个问题: 现在有n个整数,其中有些整数相同,也有一些整数不相同。首先需要找出其中出现次数最多的整数,如果出现次数最多的整数不唯一,则找出其中值最大的整数,记为M;然后再找出其中出现次数最少的整数,如果出现次数最少的整数不唯一,则找出其中值最小的整数,记为N;最后计算M和N的差,即输出(M-N)。 请你编写一个程序帮助小明解决这个问题。
# 样例输入
10
1 2 1 3 5 4 2 1 3 3
# 输出
-1
# 解释:1和3出现了3次,M为3;4和5出现了1次,N为4.M-N=-1
#通过率:100%
import collections
if __name__ == "__main__":
    # n个整数
    n = int(input().strip())
    line = input().strip().split()
    nums = [int(num) for num in line]
    count = collections.Counter(nums)
    ans = sorted(count.items(), key=lambda x: (x[1], x[0]))
    print(ans)
    M = ans[-1][0]
    N = ans[0][0]
    print(M - N)
  1. 小Pa无意之间得到一个长度为N的序列,但是他喜欢单调递增的序列,他找到了魔法师小Ka,想让他对于任意位置的i通过魔法将Ai变成Bi,请你告诉小Pa最少施展多少次魔法可以变成单调递增的序列,如果不可能请输出 -1。
# 样例1
5
1 2 3 4 5
2 3 4 5 6
# 输出
0

# 样例2
6
1 8 3 6 7 5
1 2 3 6 9 7
# 输出
-1

# 样例3
6
1 8 3 6 7 5
1 2 3 6 9 8
2
#通过率:90%
if __name__ == "__main__":
    # 序列长度n
    n = int(input().strip())
    # 序列a
    line = input().strip().split()
    a = [int(num) for num in line]
    # 序列b
    line = input().strip().split()
    b = [int(num) for num in line]
    ans = 0
    i = 0
    count = 0
    while i != n - 1:
        while i < n - 1 and a[i] < a[i + 1]:
            i += 1
        if i == n - 1:
            break
        # 此时a[i]>a[i+1]
        if b[i] < a[i + 1]:
            a[i] = b[i]
            count += 1
        elif b[i + 1] > a[i]:
            a[i + 1] = b[i + 1]
            count += 1
        else:
            i += 1
    flag = True
    for i in range(n - 1, 0, -1):
        if a[i] < a[i - 1]:
            flag = False
            break
    if not flag:
        count = -1
    print(count)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【2022春实习】百度笔试记录(机器学习/数据挖掘/自然语言) 的相关文章

随机推荐

  • 4、linux初级——Linux在开发板中的使用

    目录 一 用CRT连接开发板 1 安装CRT调试工具 2 连接开发板 3 开机后ctrl 43 c关闭登录程序可以进入命令行 二 开发板和电脑文件之间的传输 xff08 串口 xff09 1 rx xff08 从电脑下载文件到开发板 xff
  • FreeRtos--中断

    采用二值信号量同步 二值信号量可以在某个特殊的中断发生时 xff0c 让任务解除阻塞 xff0c 相当于让任务与中断同步 这样就可以让中断事件处理量大的工作在同步任务中完成 xff0c 中断服务例程 ISR 中只是快速处理少部份工作 如此
  • FreeRTOS--资源管理

    函数重入 如果一个函数可以安全地被多个任务调用 xff0c 或是在任务与中断中均可调用 xff0c 则这个函数是可重入的 每个任务都单独维护自己的栈空间及其自身在的内存寄存器组中的值 如果一个函数除了访问自己栈空间上分配的数据或是内核寄存器
  • vscode代码提交到gittee码云 第一次提交方法

    学习3 xff1a 今天是第一次将vscode代码提交到gittee xff0c 废话不多说 xff0c 直接上方法 xff1a 查看git仓库 gt git status 将当前项目文件初始化为仓库 如果当前文件夹不是git仓库 xff0
  • 明火烟雾目标检测项目部署(YoloV5+Flask)

    明火烟雾目标检测项目部署 文章目录 明火烟雾目标检测项目部署1 拉取Docker PyToch镜像2 配置系统环境2 1 更换软件源2 2 下载vim2 3 解决vim中文乱码问题 3 运行项目3 1 拷贝项目到容器中3 2 安装项目所需的
  • 操作系统实践课作业(南航)

    操作系统实践课作业 xff08 南航 xff09 文章目录 操作系统实践课作业 xff08 南航 xff09 1 job21 1 main c1 2 math c1 3 Makefile 2 job32 1 myecho c2 2 myca
  • 在Linux系统下安装Neo4j图数据库

    在Linux系统下安装Neo4j图数据库 文章目录 在Linux系统下安装Neo4j图数据库1 Java JDK1 1 安装1 2 查看安装路径 2 Neo4j2 1 下载2 2 拷贝到容器中2 3 修改neo4j conf配置文件2 4
  • 大数定律 与 中心极限定理 的理解

    目录 1 大数定律 2 中心极限定理 1 大数定律 当样本的数量足够大时 xff0c 样本的统计特性就可以近似代表总体的统计特性 大数 是指样本的数量足够大或者试验的次数足够多 2 中心极限定理 设总体为 为总体的 N 个样本集 xff0c
  • 操作系统实践05—文件描述符和系统调用

    操作系统实践05 文件描述符和系统调用 文章目录 操作系统实践05 文件描述符和系统调用1 概念1 1 文件描述符1 2 系统调用1 3 例子 2 内核实现2 1 file结构体2 2 文件描述符表2 3 进程控制块2 4 私有的文件描述符
  • 医疗问答机器人项目部署

    医疗问答机器人项目部署 文章目录 医疗问答机器人项目部署1 拉取TensorFlow镜像2 配置系统环境2 1 更换软件源2 2 下载vim2 3 解决vim中文乱码问题2 4 安装Neo4J图数据库2 5 安装网络工具包 3 运行项目3
  • SimpleITK学习

    SimpleITK学习 文章目录 SimpleITK学习1 SimpleITK ReadImage path 2 SimpleITK GetArrayFromImage itk img 3 itk img GetOrigin 4 itk i
  • 【Docker】服务器部署项目

    服务器部署项目 文章目录 服务器部署项目1 远程连接服务器2 在Linux系统上安装Docker2 1 卸载旧版本2 2 使用 APT 安装2 3 安装Docker2 4 使用脚本自动安装2 5 启动Docker2 6 测试 Docker
  • 计算机网络04—网络层

    网络层 学习参考资料 xff1a 湖南科技大学 计算机网络谢希仁 计算机网络 xff08 第7版 xff09 文章目录 网络层1 概述1 1 IP协议及配套协议 2 两种服务2 1 面向连接的虚电路服务2 2 无连接的数据报服务2 3 对比
  • torch.nn学习

    torch nn学习 文章目录 torch nn学习1 卷积层1 1 Conv2d 2 池化层2 1 MaxPool2d2 2 MaxUnpool2d2 3 AvgPool2d 3 代码实践3 1 Inception Module3 2 R
  • 深度学习基础知识点【更新中】

    深度学习基础知识点 文章目录 深度学习基础知识点1 数据归一化2 数据集划分3 混淆矩阵4 模型文件5 权重矩阵初始化6 激活函数7 模型拟合8 卷积操作9 池化操作10 深度可分离卷积11 转置卷积 1 数据归一化 过大的输入数据未归一化
  • VS Code配置C/C++环境

    VS Code配置C C 43 43 环境 文章目录 VS Code配置C C 43 43 环境1 下载Visual Studio Code2 下载MinGW3 VS Code设置3 1 下载插件3 2 新建工作区3 3 C 43 43 环
  • 计算机网络05—运输层

    运输层 学习参考资料 xff1a 湖南科技大学 计算机网络谢希仁 计算机网络 xff08 第7版 xff09 文章目录 运输层1 概述1 1 两个主要协议1 2 端口 2 用户数据报协议UDP3 传输控制协议TCP3 1 概述3 2 可靠运
  • 【2022春招研发】字节笔试记录(测试方向)

    20220410字节笔试 测试方向 文章目录 20220410字节笔试 测试方向一 编程题2道 xff08 50分 xff09 二 单选题10道 xff08 20分 xff09 三 多选题10道 xff08 30分 xff09 一 编程题2
  • 浏览器主页被劫持篡改了怎么办

    就想下载个驱动 xff0c 结果一通操作把我的 Edge 浏览器主页篡改成了 桔梗网 xff0c 就下面这个网站 算了不喷它了 xff0c 来说说怎么改回去吧 其他浏览器的修改方式相同 找到 Microsoft Edge 浏览器的桌面快捷方
  • 【2022春实习】百度笔试记录(机器学习/数据挖掘/自然语言)

    20220412百度笔试 机器学习 数据挖掘 自然语言 文章目录 20220412百度笔试 机器学习 数据挖掘 自然语言一 选择题30道 xff08 60分 xff09 二 问答题1道 xff08 20分 xff09 三 系统设计题1道 x